• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 25/05/2021

Nettoyez votre échantillon

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Compétences évaluées

  • Nettoyer un jeu de données
  • Question 1

    Que faire face à un ou plusieurs outliers ?

    • Les garder s'ils ne sont pas erronés, puis, en fonction des méthodes statistiques utilisées, les garder si la méthode est robuste aux outliers, les supprimer sinon

    • Les supprimer systématiquement

  • Question 2

    Mis à part le cas dans lequel les individus possèdent une (ou plusieurs) variable(s) qui les identifie (exemple: un email, un numéro d'identifiant, un numéro de client, etc.), supprimer les doublons d'un échantillon est :

    • Généralement difficile

    • Généralement facile

  • Question 3

    Ces deux morceaux de code effectuent la même opération. L'un est écrit en Python, l'autre en R. Que font-ils ?

    import pandas as pd
    STATUS_VALUES = ["INVITE","COLLABORATEUR","EMPLOYE"]
    df = pd.read_csv("mapetiteentreprise.csv")
    def process(value):
    if value not in STATUS_VALUES:
    return "INVITE"
    else:
    return value
    df["status"] = df["status"].map(process)

     

    STATUS_VALUES = c("INVITE","COLLABORATEUR","EMPLOYE")
    df = read.table("mapetiteentreprise.csv", header=1)
    process <- function(value){
    if(!value %in% STATUS_VALUES)
    return("INVITE")
    else
    return(value)
    }
    df["status"] = apply(df["status"],1,process)

     

     

    • Ils attribuent la valeur "INVITE" pour les individus dont la valeur de la variable status n'est ni "EMPLOYE", ni "COLLABORATEUR".

    • Ils attribuent la valeur "INVITE" pour les seuls individus dont la valeur de la variable status est manquante.