En tant que data scientist ou data analyst, votre défi quotidien est de comprendre des données complexes. Un outil important est la représentation graphique des données, à la fois pour vous-mêmes pour vous construire une intuition sur vos données, mais surtout, dans le cadre de ce cours, pour communiquer vos résultats. Et votre client ou votre supérieur aura toujours besoin de « le voir pour le croire »
Quelques idées reçues sur les graphiques
Pas la peine de faire de jolis graphiques, avec des légendes etc. Je pourrai les refaire plus tard au propre, non ?
FAUX ! ❌
Vous risquez de perdre du temps à lire votre figure (et faire perdre du temps !)
Vous risquez de faire des erreurs en lisant votre figure, et donc de mal interpréter vos données,
ou de manquer un signal intéressant.Prendre du temps pour soigner votre graphique n'est pas du temps perdu : vous pourrez le réutiliser dans le futur !
Mais si j'explique à l'oral en même temps, mon interlocuteur n'aura pas de problème pour comprendre, n'est-ce pas ?
FAUX ! ❌
C’est dommage, votre client a raté le moment où vous explicitiez le code couleur. Donc vous avez parlé pour rien et il s'est perdu !
Oups vous avez inversé votre code couleur dans votre explication.
Votre client a bien compris sur le coup, mais impossible de réexpliquer à son supérieur.
Soignez vos graphiques
Un graphique doit pouvoir se comprendre de façon autonome, sans référence au texte. Il doit permettre une lecture globale immédiate et transmettre un message simple.
Pour être efficace, un graphique doit donc comporter toutes les informations nécessaires à sa compréhension :
Niveau 1 : un graphique compréhensible doit comporter...
Un titre (inclus dans la figure, ou sur la slide, ou dans le texte)
Une légende
Le nom des axes (nom de la variable, éventuellement unité, échelle - données
normalisées, pourcentage...)Des caractéristiques lisibles. Si vous pensez que votre graphique est lisible sur votre ordinateur, n'oubliez pas que sur un vidéoprojecteur, la taille et les couleurs peuvent changer.
Niveau 2 : réalisez un graphique lisible...
Attention à la taille des textes (titres, titres des axes, tick labels...)
Attention à la taille des marqueurs, à l'épaisseur des lignes.
Attention aux légendes coupées.
Attention à la résolution en sauvegardant vos graphiques ! Utilisez la fonction
savefig
,et ne pas copier-coller vos images depuis un notebook jupyter.Si vous faites des graphiques très complexes, avec beaucoup d’éléments, pensez à ajuster la taille du graphique.
Prenez l’habitude de sauvegarder vos graphiques dans un format vectorisé (pdf par exemple).
Attention au choix des couleurs. Deux mots d'ordre : lisibilité et pertinence.
Niveau 3 : optimisez vos graphiques...
Il peut être pénible de changer à chaque fois la taille des textes, le fond, savoir si on met une grille arrière ou pas ! Pour cela, plusieurs solutions existent (par exemple ici pour python) :
Utiliser des styles prédéfinis. Vous pouvez ainsi redéfinir le comportement “par défaut” de
matplotlib.C'est aussi possible avec seaborn, qui distingue des styles (couleurs par défaut, fonds) et des contextes.
Définir des fonctions pour les opérations que vous faites souvent. Par exemple, changer automatiquement l’affichage des dates si vous travaillez avec des données temporelles.
« Do » et « Don't » des représentations graphiques
Voyons ensembles les différents pièges courants dans lesquels ne pas tomber. Vous comprendrez comment faire des graphiques lisibles, qui serviront avec pertinence votre message.
Représenter trop d'informations
Un lecteur ne peut pas mémoriser plus de dix objets différents. On ne peut pas tout dire avec un graphique. Il vaut donc mieux faire plusieurs graphiques simples qu’un seul graphique complexe.
N'abusez pas des couleurs !
Vous ne devez pas multiplier les informations, même les couleurs sur un même graphique.
Utilisez des couleurs mais sans en abuser. Ainsi, regardez les deux graphiques ci-dessous : Ils transmettent la même information, mais le message est parasité par les couleurs dans le premier. Le choix des couleurs qui composent une visualisation doit faire intrinsèquement parti du message.
Triez vos données !
Pour les diagrammes en bâtons, il est important de trier les données.
Dans l’exemple suivant, il est plus utile que les données soient triées par valeurs plutôt que par ordre alphabétique. Par ailleurs, il est conseillé de distinguer le territoire d’analyse par une couleur différente (ici, la Norvège).
Représentez le temps
Pour la représentation de séries temporelles, il est important de se demander si la période choisie ne fausse pas le jugement. En effet, on peut facilement induire en erreur en sélectionnant une période particulière. Les données en soi ne sont pas fausses mais c’est leur sélection, plus ou moins volontaire, qui biaise l’information. Par ailleurs, il est recommandé de représenter le temps sur l’axe horizontal des x.
Attention au bon découpage en classes
Pour représenter des variables quantitatives continues, on est parfois amené à regrouper des valeurs en classes, en tranches. Par exemple, on dira que 18% d'une population a un âge compris entre 0 et 10ans, 29% entre 10 et 15ans, etc.
❌ Dans le cas de variables quantitatives continues (par exemple l’âge), ce découpage n’est pas neutre.
✅ Pour pouvoir comparer les effectifs par tranche, il faut veiller à ce que l’étendue de ces tranches soit identique !
Bien, vous avez découvert les pièges à éviter lors de la création de graphique, ainsi que des conseils pour rendre vos graphiques clairs et efficaces. Prêt à vous entrainer ? Ça se passe dans le prochain chapitre.