Gestion des doublons avec R par IbouLy1 - page 1

Bonjour,

en entreprise, on charge beaucoup de données sous excel et j'ai remarqué la plupart du temps qu'il y des problèmes de doublons de lignes que les gens émettent comme problèmes.

J'ai pensé à écrire une petite fonction R pour laquelle il faudra renseigner le nom du fichier, ensuite la fonction va scanner le fichier et afficher un message si elle détecte un doublon.

Le problème c'est que mon script semble logique mais rien ne s'affiche et je ne comprends pas trop pourquoi.

Vos contributions et alternatives seront les bienvenues.

Voici mon code

doublons_fichiers <- function(nom_fichier)
{
  if (!file.exists(nom_fichier))
  {
    cat("Le fichier ",nom_fichier," n'existe pas dans le répertoire")
  }
  else
  {
    data_fichier <- read.table(nom_fichier)
    pos_li1 <- 1
    pos_li2 <- 1
    line1 <- NULL
    line2 <- NULL
    
    for(line1 in data_fichier[1:nrow(data_fichier), ])
    {
      for (line2 in data_fichier[1:nrow(data_fichier), ])
      {
        if (!identical(pos_li1, pos_li2))
        {
          if (identical(data_fichier[pos_li1:pos_li1, ], data_fichier[pos_li2:pos_li2, ]))
          {
            print("Doublons sur ligne ",pos_li1," et ligne ",pos_li2)
          }
        }
        
        pos_li2 <- pos_li2 + 1
      }
      pos_li1 <- pos_li1 + 1
    }
  }
}

Gestion des doublons avec R

Gestion des doublons avec R

Supprimer

Modérer

Signaler le message aux modérateurs