Partage
  • Partager sur Facebook
  • Partager sur Twitter

Identifier quasi doublon Excel

Excel/SQL/VBA

    9 avril 2022 à 5:25:00

    Bonjour, 

    Après moult essaies, je viens à vous pour vous demander en dernier recours votre aide.

    J'ai un fichier excel qui contient environ 25K lignes avec des doublons qui n'en sont pas vraiment. En effet, pour une seule colonne, j'ai une multitude de déclinaison d'une même information (exemple : 6 avenue de paris, six Avenue de Paris, 6 avenue de Paris...) vous avez compris l'idée.

    J'ai d'abord pensé utiliser la distance de Levenshtein (https://fr.wikipedia.org/wiki/Distance_de_Levenshtein) mais cela fonctionne uniquement pour une comparaison en ligne et non en colonne (A1 vs B1, A2 vs B2...).

    Dans l'idéal, ça serait d'avoir un pourcentage de similarité entre les cellules (le sain graal on va dire)

    Ce que j'ai fais : j'ai normalisé ma colonne en mettant tout en majuscule afin de supp les accents, j'ai supp les caractères spéciaux &@#§...

    Mais maintenant je bloque un peu. 

    Avez-vous des pistes d'algo ou de fonction excel/sql/vba pour m'aider svp ?

    Par avance merci pour votre aide.

    -
    Edité par sakooo 9 avril 2022 à 5:28:38

    • Partager sur Facebook
    • Partager sur Twitter
      11 avril 2022 à 14:52:15

      et si tu transposais (temporairement) ta colonne en ligne pour utiliser la distance de levenshtein ? mais pourquoi ça ne serait applicable qu'à des lignes ? A1 = L1C1, A2=L2C1; donc se déplacer selon la colonne et non pas la ligne dans l'algo que tu sembles avoir trouvé.
      • Partager sur Facebook
      • Partager sur Twitter

      Identifier quasi doublon Excel

      × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
      × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
      • Editeur
      • Markdown