Comprenez l’importance de la représentation graphique
Aujourd’hui, les entreprises du monde entier génèrent un volume de données extrêmement important : plusieurs dizaines de zettaoctets (milliards de téraoctets) selon les dernières estimations. Et ce chiffre ne fait qu’augmenter exponentiellement au fur et à mesure que les technologies de stockage évoluent.
Il devient donc indispensable pour une entreprise d’avoir des outils pour analyser ces données, afin d’en tirer des enseignements exploitables au niveau business (des tendances d’achat selon les périodes, par exemple) et plus globalement, de pouvoir surveiller les différentes activités de l’entreprise afin d’identifier d’éventuels problèmes.
Toutes les librairies vues jusqu’à présent font partie de ces outils, mais demandent une certaine technicité, au moins en programmation. Or, la plupart des personnes en charge de la stratégie au sein d’une entreprise (ceux qu’on appelle les décideurs) n’ont généralement pas ce bagage.
Il faut donc un outil permettant de rendre la donnée accessible à ces personnes ?
Tout à fait ! C’est ce qu’on appelle la data visualisation, ou dataviz pour les intimes. La data visualisation est un ensemble de techniques utilisées pour communiquer des informations clés sur un gros volume de données, afin d’en faciliter la compréhension et la lecture pour tous. Ce domaine s’est vraiment démocratisé en entreprise dans les années 80, lorsque les entreprises ont pris conscience que l’analyse de leurs données pourrait aider grandement à la prise de décision !
“Une image vaut mille mots.”
Confucius
Lorsqu’il est question de représentation ou de graphique, de nombreux choix s’offrent à nous. On peut citer de façon non exhaustive :
les courbes pour représenter une évolution d’une caractéristique (comme la démographie d’un pays) dans le temps ;
les graphiques circulaires (appelés plus vulgairement des graphiques camemberts) pour représenter une répartition ;
ou encore des cartes lorsqu’on souhaite afficher une information géographique.
Il en existe bien d’autres, et je vous propose à présent de découvrir en détail les principales.
Identifiez le graphique adapté
Le choix d’un graphique va énormément dépendre des différentes variables qu’on cherche à représenter, et de l’information dont on dispose.
Présentez une évolution dans le temps
Ce cas se présente lorsqu’on souhaite représenter une variable numérique qui évolue dans le temps : la notion d’évolution implique qu’on ne peut avoir qu’une valeur numérique par pas de temps choisi – par mois, par année, etc.
Pour représenter une évolution dans le temps, on peut utiliser des diagrammes en ligne, ou en courbes :
Mais également des diagrammes à barres :
Comparez différents groupes
On utilise ce type de graphique généralement lorsqu’on a des données agrégées sur une variable non numérique. On a ainsi une valeur numérique agrégée par groupe ou par catégorie :
Pour représenter cela, on peut utiliser des diagrammes circulaires, appelés plus vulgairement, dans la langue de Molière, des camemberts :
Mais l’idéal (comme nous le verrons un peu plus tard) reste tout de même les diagrammes à barres :
Représentez une distribution
Ce type de graphique est particulièrement utile lors d’une analyse préliminaire, lorsqu’on souhaite comprendre les données à disposition, et la façon dont chaque variable se répartit. Il y a deux cas possibles : une variable numérique et une variable non numérique.
Dans le cas d’une variable numérique, on utilise généralement un histogramme :
Il existe aussi une variante de l’histogramme, appelée diagramme à densité :
Dans le cas d’une variable non numérique, techniquement, c’est une visualisation que nous avons déjà rencontrée. Car la première étape est d’agréger les données pour compter le nombre d'occurrences au sein de notre variable, par catégorie ou groupe. Ensuite, on se retrouve simplement dans le cas de comparaison cité ci-dessus : on peut utiliser un diagramme circulaire ou un diagramme à barres.
Représentez la relation entre 2 variables numériques
Le dernier cas, que nous n’avons pas traité mais qui est couramment rencontré, est le choix du graphique lorsqu’on souhaite représenter la relation entre deux variables numériques. Le jeu de données contient dans ce cas plusieurs lignes, exprimées sur (au moins) deux variables numériques :
On peut tracer plusieurs points (un pour chaque ligne) en mettant l’une des variables en abscisse et l’autre en ordonnée : c’est ce qu’on appelle un nuage de points :
La liste n’est naturellement pas exhaustive, et ce cours serait bien trop long s'il fallait tous les traiter, mais voici cependant un bon échantillon des principales que vous allez être amené à rencontrer.
Cernez les bonnes pratiques de la dataviz
Maintenant que nous avons différents graphiques à notre portée, il est temps de faire un point sur la façon de réaliser ces graphiques, ce qu’on pourrait appeler : les bonnes pratiques en data visualisation.
Ce sont des “règles” simples qu’il est très vivement conseillé de suivre pour assurer la lisibilité et la compréhension des visualisations.
1. Privilégiez la simplicité
Lorsqu’on travaille dans l’analyse de données, on est souvent amené à travailler avec de nombreuses variables. Il est assez tentant de toutes les mixer en un seul graphique, en jouant par exemple sur les couleurs, sur la taille des points, sur la forme des points, etc.
Voici un exemple :
Nous avons sur ce graphique 5 informations qui sont représentées :
la taille en abscisse ;
le poids en ordonnée ;
le genre en couleur ;
le revenu via la taille des points ;
et le statut marital via la forme des points.
Pfiou…
Vous admettrez que même si on peut arriver à le lire en s’aidant de la légende, ce graphique est un peu trop chargé d’informations. Il vaut mieux dans ce genre de cas faire plusieurs graphiques avec peu d’informations sur chacun, mais qui soient clairs et interprétables au premier coup d'œil !
2. Clarifiez votre graphique
Il existe aujourd’hui de nombreuses représentations hyper stylées et complexes dans le monde de la data visualisation. Gardez à l’esprit que votre but premier, lors de la création d’une visualisation, est de rendre cette dernière la plus lisible possible. D’une certaine façon, un graphique doit être autosuffisant : n’importe qui doit être en mesure de le lire et de le comprendre, à partir des seuls éléments présents dessus et autour.
Laissez-moi imager cela. Considérons le graphique suivant :
Il peut paraître sympa, mais… de quoi parle-t-on ? Quelles sont les informations représentées ? À quoi correspond chaque barre ? À quoi correspond chaque couleur ? Il manque beaucoup trop d’informations pour être en mesure de l’interpréter.
À présent, que dire de celui-ci :
C’est exactement le même graphique, sauf qu’à présent, nous avons la grille de lecture pour le lire et le comprendre. Qu’est-ce qui a rendu cela possible ?
Quatre choses :
Les titres des axes. On a même ici précisé l’unité !
La légende pour la compréhension des couleurs.
Le titre, qui nous indique clairement de qui et de quoi on parle.
Les valeurs indiquées au-dessus des barres pour éviter l’imprécision.
3. Choisissez le graphique adéquat
Cela fait directement écho à la présentation des différents graphiques faite précédemment. Considérons le graphique suivant :
Nous avons la quantité en stock de chaque catégorie (A, B, C ou D) de différents produits.
Seriez-vous en mesure de dire dans quelle catégorie, entre B et C, nous disposons le plus de stock ?
Ce n’est pas évident, n’est-ce pas ? Prenons la même visualisation avec cette fois-ci un diagramme en barres :
La différence est d’un coup beaucoup plus nette, la catégorie C possède plus de stock que la catégorie B. Pourtant, ce sont exactement les mêmes données. C’est pour cela qu’un diagramme en barres est généralement plus avisé qu’un diagramme circulaire, à partir du moment où il y a plus de 2 groupes à comparer.
En résumé
La datavisualisation est un ensemble de techniques utilisées pour représenter visuellement des informations clés sur un gros volume de données, afin d’en permettre la compréhension et l’analyse.
Pour représenter :
une évolution dans le temps, on privilégiera des diagrammes en barres ou des courbes ;
une comparaison entre différents groupes, on utilisera un diagramme circulaire ou un diagrammes en barres ;
une distribution, on privilégiera un histogramme ou un diagramme à densité ;
la relation entre 2 variables numériques, on développera un nuage de points.
Il existe quelques règles à observer pour réaliser un graphique efficace :
privilégier la simplicité, quitte à multiplier le nombre de graphiques ;
privilégier la clarté, en proposant le plus d’informations possible pour permettre au lecteur d’interpréter seul ce graphique ;
choisir le graphique adéquat en fonction de ce qu’on cherche à représenter.
Je vous propose à présent de créer ces différents graphiques avec Python en utilisant la librairie Matplotlib.