Soyez critique, envers vous-même et envers les autres
À mesure que vous progressez avec les données dans la réalité, vous devez tenir compte de certaines choses.
Vous avez déjà pu vous rendre compte du potentiel formidable qui résulte de la capacité à travailler avec des données, à les analyser et à raconter des histoires autour des données. Mais un grand pouvoir implique de grandes responsabilités ! Malheureusement, il existe de nombreux cas où les données sont utilisées de façon irresponsable, soit par négligence, soit par malveillance. Plus vous monterez en compétence avec les données, plus vous devriez détecter efficacement les situations de mauvaises pratiques.
Et surtout, ne prenez pas de mauvaises habitudes ! Ayez une démarche éthique à propos des données en suivant ce conseil.
Expliquez la façon dont vous avez procédé
Comme vous avez pu le voir dans ce cours, le récit final qui accompagne les données arrive en toute fin d’un processus qui peut comprendre plusieurs étapes. Il peut s’agir de filtrer les données, les combiner, les modifier, les agréger, les analyser, etc. Ce traitement peut avoir une influence significative sur le message que vous transmettez à la fin. Un traitement composé d’étapes différentes pourrait significativement modifier le message. Essayez de faire preuve de transparence concernant la façon dont vous avez procédé pour que les destinataires puissent se faire leur propre opinion. Inutile de lister toutes les étapes dans votre publication finale, mais vous pourriez fournir certains détails dans une documentation annexe ou au moins vous préparer à donner des explications sur les techniques utilisées si on vous le demande.
Expliquez vos calculs
Si vous avez calculé des statistiques, expliquez clairement la façon dont vous les avez calculées. Si un politicien déclare : « Nous avons affecté 500 officiers de police supplémentaires dans la métropole », et que son opposant rétorque : « C’est faux, il y en a 600 de moins », ils pourraient avoir tous les deux raison ! Cela dépend de la façon dont ils ont calculé ces nombres. L’un d’entre eux a pu calculer le nombre d’agents de police, y compris les personnes qui occupent un temps partiel, tandis que l’autre comptabilisait les équivalents temps plein.
Acceptez les autres points de vue
En réalité, l’analyse de données, ce n’est pas ça. Les mêmes données peuvent être utilisées pour des conclusions très différentes. Avoir une démarche mâture et responsable consiste à accepter cela et à attirer l’attention sur différentes interprétations et conclusions.
Imaginons que vous organisiez un test gustatif autour de dix marques différentes de glace à la vanille en ayant recours à 50 testeurs ou testeuses et que vous déclariez que la glace à la vanille Hippo Rigolo est la meilleure. Votre analyse porte sur le goût. Peut-être que pour quelqu’un d’autre « meilleure » signifie « meilleur rapport qualité-prix », alors que la gamme dont fait partie Hippo Rigolo est très chère et n’est pas la meilleure sur ce point. « Meilleure » peut aussi vouloir dire autre chose pour une autre personne.
Citez les sources et les personnes ayant collaboré
Travailler en vase clos avec des données est plutôt rare. En général, elles proviennent de quelque part et d’autres personnes participent à l’analyse. Ainsi, veillez à citer vos sources et les personnes qui ont participé à votre travail.
Évitez d’induire les gens en erreur et de dramatiser
Quand on travaille sur le récit, on peut être tenté de déformer la vérité ou de dramatiser pour qu’il soit plus intéressant ou pour qu’il corresponde aux objectifs. Abstenez-vous de faire cela. Vous devez provoquer une réaction et parfois faire appel aux émotions pour transmettre votre message, mais sachez trouver le bon équilibre.
De plus, faites preuve de prudence quand vous insinuez que les données indiquent quelque chose alors qu’il ne s’agit que de vos propres croyances ou interprétations.
Évitez les biais inconnus dans vos données
Un biais se produit lorsque les données ne sont pas représentatives de la réalité. Cela peut fausser les résultats. Les biais dans les données sont très problématiques. Il faut que vous en connaissiez l’origine, sans quoi vous risquez de présenter des résultats erronés. En voici trois exemples.
Biais de sélection
Supposons que vous vouliez savoir si les habitants d’une ville donnée ont envie d’avoir plus d’installations sportives. Vous vous rendez à la salle de sport municipale et demandez aux gens qui en sortent : « Voulez-vous plus d’installations sportives dans la ville ? ». Vous allez sûrement constater que ce groupe de personnes a tendance à vouloir plus d’installations sportives que le citoyen moyen ! Votre sondage n’aurait donc pas de sens.
Biais de confirmation
Vous est-il déjà arrivé de tomber sur une théorie selon laquelle un animal (le hérisson, par exemple) est dangereux ? Avez-vous ensuite commencé à faire des recherches ? Au fil du temps, vous trouvez de plus en plus de preuves confirmant cette théorie, qui finit par devenir irréfutable. Il s’agit d’un biais de confirmation. Les gens ont tendance à chercher des preuves pour conforter leurs croyances.
(Je ne sais pas si les hérissons sont dangereux, mais je parie que je pourrais le prouver en menant une étude sélective !)
Biais de survie
Dans la vidéo, vous avez vu un exemple classique de biais de survie qui s’est produit pendant la Seconde Guerre mondiale. Il fallait consolider les avions qui rentraient des combats. Le statisticien Abraham Wald a modifié la stratégie prédominante qui consistait à se concentrer sur les zones percutées. D’abord, il a demandé aux ingénieurs d’examiner les avions qui n’étaient pas rentrés et les endroits où ils avaient été percutés. Puis, ils ont consolidé ces zones sur les avions qui étaient rentrés.
Assurez-vous d’avoir suffisamment de données
Supposons que vous soyez chercheur-e. Vous travaillez sur l’action d’un médicament visant à soigner une maladie. Vous faites des essais sur cinq personnes et vous constatez que trois d’entre elles guérissent. Allez-vous affirmer que ce médicament est efficace à 60 % ? Bien sûr que non ! Le jeu de données n’est pas assez important. Les essais doivent être réalisés sur un plus grand nombre de personnes avant de pouvoir commencer à tirer des conclusions. Assurez-vous que tous les jeux de données utilisés pour les études soient suffisamment importants.
Comment savoir si le volume est suffisant ?
Ça dépend de ce que vous voulez obtenir, mais considérez votre jeu de données comme un échantillon représentatif d’un ensemble de points de données plus important (appelé une population). Vous pouvez utiliser différentes techniques d’échantillonnage de données pour vous assurer que l’échantillon soit représentatif de votre population. Vous aurez l’occasion d’aborder à nouveau ce sujet si vous continuez à étudier les statistiques et à manipuler des données.
Évitez le picorage
Examinez le graphique qui présente les revenus moyens des 10 % des salariés les plus riches comparés aux salariés restants.
Globalement, on observe que les revenus de l’ensemble des groupes augmentent. Supposez qu’une personne se concentre uniquement sur la zone surlignée en rouge. Elle pourrait affirmer que les revenus du groupe des personnes les mieux rémunérées diminuent, alors que ceux du reste de la population augmentent.
Cette pratique trompeuse s’appelle picorage (c’est-à-dire choisir les données qui vont dans le sens du message que l’on veut faire passer).
Expliquez les problèmes connus et les hypothèses qui se rapportent aux données
Parfois, on doit travailler avec des données erronées (ou biaisées). Il ne faut pas pour autant annuler la publication de l’histoire basée sur vos données. Cependant, quand vous la partagez, vous devez annoncer ses limites pour que les destinataires puissent prendre des décisions éclairées.
Faites attention aux changements de comportements indésirables
Dans le chapitre 3 de la partie 1, vous avez pu voir que les livreurs de Nouveau Potager risquaient d’adopter des comportements indésirables pour atteindre leurs objectifs et obtenir des primes.
Ce phénomène est appelé effet Hawthorne. Dans un certain sens, vous vous attendez à des changements comportementaux quand vous commencez à mesurer des choses et à collecter des éléments. Mais méfiez-vous des comportements indésirables ou imprévus !
Faites attention quand vous présentez des pourcentages
L’un des pièges courants, c’est de calculer des pourcentages sur des petits nombres. Par exemple, si un patient apprend qu’un nouveau traitement augmente ses risques de développer un effet secondaire grave de 100 %, il pourrait s’inquiéter. Cependant, le nombre de cas observés pourrait être de 1 sur un million avec le médicament d’origine et de 2 sur un million avec le nouveau traitement. Le risque a bien augmenté de 100 %, mais il est tellement faible que ça ne vaut pas la peine de s’inquiéter.
En résumé
Dans ce chapitre, vous avez pu voir ce qu’il faut faire sur le plan éthique pour travailler avec des données réelles :
Posez les bonnes questions à propos des données que vous avez consultées et communiquez.
Expliquez comment vous avez abouti à l’histoire des données.
Expliquez vos calculs (et faites attention aux pourcentages !).
Acceptez les autres points de vue : les données n’équivalent pas toujours à des faits indiscutables.
Pensez à citer vos sources et vos collaborateurs.
Évitez de déformer la vérité par rapport à ce que montrent les données et de picorer les données qui vont dans le sens de votre histoire.
Faites attention aux biais dans vos données et aux comportements indésirables que les autres peuvent adopter.
Mot de la fin
Bravo ! Vous avez terminé le cours. Je suis ravi d’avoir pu vous accompagner dans ce parcours. Ressentez de la fierté pour ce que vous avez accompli. Vous avez découvert et vous avez travaillé sur de nombreux sujets complexes, comme les pipelines de données, le traitement et l’analyse, la visualisation des données, le storytelling et bien d’autres choses encore. Vous avez toutes les cartes en main pour approfondir certains sujets en lien avec la science des données si vous le souhaitez. Mais surtout, vous pouvez donner du sens aux données avec lesquelles vous interagissez et les interpréter avec un regard critique. C’est l’essence même de la culture des données !
J’espère que ce cours vous a donné envie d’explorer encore plus le monde fascinant et en pleine croissance des données.