en entreprise, on charge beaucoup de données sous excel et j'ai remarqué la plupart du temps qu'il y des problèmes de doublons de lignes que les gens émettent comme problèmes.
J'ai pensé à écrire une petite fonction R pour laquelle il faudra renseigner le nom du fichier, ensuite la fonction va scanner le fichier et afficher un message si elle détecte un doublon.
Le problème c'est que mon script semble logique mais rien ne s'affiche et je ne comprends pas trop pourquoi.
Vos contributions et alternatives seront les bienvenues.
Voici mon code
doublons_fichiers <- function(nom_fichier)
{
if (!file.exists(nom_fichier))
{
cat("Le fichier ",nom_fichier," n'existe pas dans le répertoire")
}
else
{
data_fichier <- read.table(nom_fichier)
pos_li1 <- 1
pos_li2 <- 1
line1 <- NULL
line2 <- NULL
for(line1 in data_fichier[1:nrow(data_fichier), ])
{
for (line2 in data_fichier[1:nrow(data_fichier), ])
{
if (!identical(pos_li1, pos_li2))
{
if (identical(data_fichier[pos_li1:pos_li1, ], data_fichier[pos_li2:pos_li2, ]))
{
print("Doublons sur ligne ",pos_li1," et ligne ",pos_li2)
}
}
pos_li2 <- pos_li2 + 1
}
pos_li1 <- pos_li1 + 1
}
}
}
Gestion des doublons avec R
× Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
× Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.