Partage
  • Partager sur Facebook
  • Partager sur Twitter

Gestion des doublons avec R

    26 août 2019 à 17:00:59

    Bonjour,

    en entreprise, on charge beaucoup de données sous excel et j'ai remarqué la plupart du temps qu'il y des problèmes de doublons de lignes que les gens émettent comme problèmes.

    J'ai pensé à écrire une petite fonction R pour laquelle il faudra renseigner le nom du fichier, ensuite la fonction va scanner le fichier et afficher un message si elle détecte un doublon.

    Le problème c'est que mon script semble logique  mais rien ne s'affiche et je ne comprends pas trop pourquoi.

    Vos contributions et alternatives seront les bienvenues.

    Voici mon code

    doublons_fichiers <- function(nom_fichier)
    {
      if (!file.exists(nom_fichier))
      {
        cat("Le fichier ",nom_fichier," n'existe pas dans le répertoire")
      }
      else
      {
        data_fichier <- read.table(nom_fichier)
        pos_li1 <- 1
        pos_li2 <- 1
        line1 <- NULL
        line2 <- NULL
        
        for(line1 in data_fichier[1:nrow(data_fichier), ])
        {
          for (line2 in data_fichier[1:nrow(data_fichier), ])
          {
            if (!identical(pos_li1, pos_li2))
            {
              if (identical(data_fichier[pos_li1:pos_li1, ], data_fichier[pos_li2:pos_li2, ]))
              {
                print("Doublons sur ligne ",pos_li1," et ligne ",pos_li2)
              }
            }
            
            pos_li2 <- pos_li2 + 1
          }
          pos_li1 <- pos_li1 + 1
        }
      }
    }



    • Partager sur Facebook
    • Partager sur Twitter

    Gestion des doublons avec R

    × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
    × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
    • Editeur
    • Markdown