Partage
  • Partager sur Facebook
  • Partager sur Twitter

Nettoyage des doublons avec R ( Rstudio)

Enlever doublons dans un jeux de donnée avec le language R

    10 mai 2018 à 18:22:38

    Bonjour, 

    je dois nettoyer une base de donnée remplie de doublons, par exemple j'ai : 

    df <- data.frame(dc1=c('a','a(2)','b','b(2)'),dc2=c('a','a v2','a(2)'),)

    Comment je peux enlever tous les cellules de la colonne dc1 qui ont "(2)" et ceux dans la colonne dc2 qui ont "v2" et "(2)" ? 

    • Partager sur Facebook
    • Partager sur Twitter
      11 mai 2018 à 16:04:49

      Salut !

      Tu peux par exemple t'aider de la fonction grepl qui recherche une chaîne (ou un expression régulière, en l'occurrence) dans une chaîne et qui renvoie un booléen selon qu'elle l'a trouvée ou pas.

      Par exemple :

      data <- data.frame(dc1 = c('a','a(2)','b','b(2)'), dc2 = c('a','a v2','a(2)','b'))
      
      for (i in 1:NCOL(data))
      {
         for (j in 1:NROW(data))
         {
            if (grepl("(\\([0-9]+\\)|(v[0-9]+))", data[j,i]))
            {
               data[j,i] = NA
            }
         }
      }
      data ## les cases contenant des parenthèses encadrant des chiffres, et la lettre v suivie immédiatement d'un nombre, ont toutes été vidées



      • Partager sur Facebook
      • Partager sur Twitter

      Nettoyage des doublons avec R ( Rstudio)

      × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
      × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
      • Editeur
      • Markdown