• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

Ce cours est en vidéo.

Vous pouvez obtenir un certificat de réussite à l'issue de ce cours.

J'ai tout compris !

Mis à jour le 23/05/2019

Traitez les valeurs manquantes, les outliers et les doublons

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Nous l'avons vu dans le chapitre précédent, un échantillon peut contenir des valeurs manquantes, des outliers et des doublons. Alors que faire ?

Les valeurs manquantes

Lorsque l'échantillon contient des valeurs manquantes, on ne peut malheureusement pas faire de miracle pour les retrouver ! Cependant, plusieurs attitudes sont possibles.

Ne rien faire et travailler avec un gruyère

Pour une variable donnée (par exemple date de naissance dans l'exemple du chapitre précédent), si la proportion de valeurs manquantes est faibles, alors on peut les oublier et ne rien faire : on laisse l'échantillon intact. On travaillera alors avec un jeu de données qui contiendra des "trous", comme dans un gruyère. :honte: Selon le traitement statistique que vous appliquerez, cette solution sera ou non acceptable.

Oublier une variable

Cependant, si pour cette même variable, la proportion de valeurs manquantes est beaucoup trop importante, mieux vaut l'oublier, à condition que la variable ne soit pas trop importante pour l'analyse. Cela équivaut à ne pas considérer une colonne dans le tableau du chapitre précédent.

Oublier des individus

Si la variable qui contient des données manquantes est cruciale dans l'analyse, alors mieux vaut créer un sous-échantillon et y supprimer les individus pour lesquels cette variable est manquante. Par exemple, si vous analysez vos relevés de comptes bancaires en vous intéressant aux sommes d'argent que vous gagnez/dépensez, la variable "montant de l'opération" sera très importante. S'il arrive que le montant de l'opération soit inconnu pour certaines lignes de votre relevé, alors mieux vaut créer un sous-échantillon et y supprimer la totalité de ces lignes.

Cette dernière méthode contient cependant des risques. En effet, vous pouvez vous retrouver avec un nombre d'individus (un nombre de lignes) trop petit pour que votre analyse ait encore du sens. De plus, il se peut que votre échantillon ne soit plus représentatif de la population globale. Pour savoir pourquoi, rendez-vous à la section Aller plus loin au bas de ce chapitre.

Essayer de deviner quand même !

Une méthode un peu plus aventurière consiste à combler les trous par des valeurs à deviner. C'est un peu la méthode des aventuriers ! :zorro: Bien sûr, ces valeurs ne correspondront pas à la valeur réelle, mais certaines méthodes permettent de ne pas se tromper de beaucoup. Deviner une valeur manquante s'appelle l'imputation.

Par exemple, on peut remplacer les valeurs manquantes de la variable taille par la taille moyenne des individus de notre échantillon. Dans notre exemple, pour corriger la taille de Hanna (que nous supposons être erronée), on la remplace par la moyenne des autres individus, soit 1,52 m. C'est l'imputation par la moyenne.

Deviner à partir d'autres variables

Mais on peut faire mieux ! Pour remplacer une variable donnée, on peut regarder les autres variables aux alentours. Il y a plusieurs méthodes qui utilisent ce principe.

Imaginons un nouvel individu : Luc, né en 1991, dont la taille est inconnue. Plutôt que de lui attribuer la moyenne de tout l'échantillon (1,52 m), on peut lui attribuer la moyenne des personnes qui ont à peu près son âge. Attribuons-lui donc la moyenne des tailles des personnes nées entre 1990 et 2000, soit 1,49 m. Ici, on a regardé la valeur de la variable date_de_naissance pour déduire la valeur de la variable taille.

D'autres méthodes sont également basées sur le fait de déduire une variable à partir d'autres. On peut citer les méthodes de Hot-deck, ou les méthodes basées sur des régressions linéaires. Pour trouver un exemple d'imputation grâce à une régression linéaire, réalisez l'activité de fin de la partie précédente. ;)

Dans tous les cas, il est nécessaire de toujours préciser quelle méthode vous avez utilisé dans chacun des résultats d'analyse que vous présenterez. C'est une question d'honnêteté intellectuelle. ;)

Les outliers

Hanna mesure 3,45 m. Vous ne trouvez pas cela très grand ? Si. C'est très grand comparé aux tailles des autres êtres humains.

Mais attention, un outlier n'est pas forcément une valeur fausse ! En effet, Hanna mesure peut-être réellement 3,45 m. Ok, c'est difficile à concevoir, mais c'est possible.

Idéalement, il faudrait vérifier si les outliers sont erronées ou pas. Par exemple, un thermomètre qui mesure les températures en France peut indiquer 40°C, mais il peut s'agir soit d'une défaillance du capteur de température, soit d'une valeur réelle.

Alors que faire avec les outliers ? Si nous sommes sûrs que la valeur est erronée (erreur de saisie ou défaut d’un capteur par exemple), alors il faut la supprimer s’il n’est pas possible de connaître la vraie valeur. Dans les autres cas, nous avons le choix entre :

  • Supprimer la valeur. On se retrouve alors avec une valeur manquante, à laquelle on peut imputer une valeur comme nous l’avons vu précédemment. L’imputation n’est pas obligatoire.

  • Conserver la valeur.

Comment choisir entre ces deux options ? Tout dépend des traitements que vous appliquerez par la suite. Certaines méthodes sont dites « robustes », car elle ne sont pas déstabilisées par les outliers. Par exemple, nous verrons par la suite que la moyenne est très sensible aux outliers, alors que la médiane ne l’est pas. Si vous souhaitez faire une moyenne, créez un sous-échantillon dans lequel vous ne considérez pas les outliers. Mais si vous calculez aussi la médiane, travaillez sur l’échantillon de départ. ;)

Et les doublons ?

Dans notre exemple, Samuel est présent 2 fois. C’est problématique, car ce doublon (aussi appelé « donnée dupliquée ») fausse les analyses : notamment la taille moyenne de l'échantillon.

Il faut éliminer les doublons. Cependant, il n’y a pas de règle précise pour les détecter : vous seuls pouvez les détecter, à partir de la structure de vos données et en sachant comment elles ont été collectées. Mais parfois, ce sera impossible. :(

Un petit exemple : si votre échantillon contient une variable « identifiant », alors il est aisé de détecter des doublons. Ce sont ceux qui auront le même identifiant ;) . Dans notre exemple, on peut considérer que l’adresse email est l’identifiant d’une personne. Dans notre exemple, les 2 lignes qui ont pour email  samuel_329@example.com  constituent un doublon.

Autre exemple : vous analysez des relevés de température pris dans un village. Il y a 2 stations météo dans ce village : la station 1, qui a fonctionné de nombreuses années jusqu’au 15 janvier 2019, puis qui s’est arrêtée à cause de son ancienneté. Cette panne ayant été prévue, une station 2 avait été installée (au même endroit) pour la remplacer : elle a été mise en service le 2 janvier 2019. Votre échantillon est donc constitué de relevés provenant des 2 stations. Cependant, les relevés compris entre le 2 janvier et le 15 janvier 2019 sont en double, car les 2 stations fonctionnaient en parallèle. Il vous faut donc supprimer, pour chaque date comprise dans cette période, l’un des 2 relevés.

Oui mais de nos deux lignes contenant  samuel_329@example.com, faut-il en supprimer une au hasard ?

En fait, il faut faire un peu plus attention. Mieux vaut les regrouper en une ligne. En effet, parmi ces 2 lignes, la 1ère nous informe que Samuel est né le 20/09/2001, et la seconde ligne nous informe que Samuel habite au Bénin (information qui est manquante dans la 1ère ligne). Le problème, c’est pour la taille : la première ligne nous dit que Samuel mesure 1,67 m, alors que la seconde nous affirme qu’il n’en mesure que 1,45 m. Il y a contradiction. S’il n’y a pas d’autre moyen de vérification, on peut par exemple choisir de prendre la moyenne de ces 2 valeurs.

Aller plus loin : Conséquence de la suppression d'individus

Imaginez un échantillon de personnes de la même forme que celui du chapitre précédent :

Prénom

Pays

Date de naissance

Taille

Albert

France

23/09/1930

1,45 m

Sophia

USA

01/20/1959

1,68 m

Donald

USA

02/16/2002

1,65 m

Ali

France

16/02/2000

1,57 m

Doriane

Togo

17/08/1978

1,58 m

Vous décidez de supprimer les dates de naissances pour lesquelles le format n'est pas jour/mois/année, ce qui créera des valeurs manquantes dans la variable date de naissance. Puis, vous décidez de supprimer toutes les lignes (tous les individus) qui ont une date de naissance manquante. Vous aurez probablement supprimé toutes les personnes habitant aux USA, car ceux-ci ont l'habitude d'écrire les dates différemment des francophones. Si vous réalisez ensuite une analyse sur les tailles, votre échantillon ne sera plus représentatif, car les personnes des USA ont sûrement une taille moyenne différente de celle des autres pays.

Exemple de certificat de réussite
Exemple de certificat de réussite