Comprenez l’importance de la représentation graphique
Aujourd’hui, les entreprises du monde entier génèrent un volume de données extrêmement important : plusieurs dizaines de zettaoctets (milliards de téraoctets) selon les dernières estimations. Et ce chiffre ne fait qu’augmenter exponentiellement au fur et à mesure que les technologies de stockage évoluent.
Il devient donc indispensable pour une entreprise d’avoir des outils pour analyser ces données, afin d’en tirer des enseignements exploitables au niveau business (des tendances d’achat selon les périodes, par exemple) et plus globalement, de pouvoir surveiller les différentes activités de l’entreprise afin d’identifier d’éventuels problèmes.
Toutes les librairies vues jusqu’à présent font partie de ces outils, mais demandent une certaine technicité, au moins en programmation. Or, la plupart des personnes en charge de la stratégie au sein d’une entreprise (ceux qu’on appelle les décideurs) n’ont généralement pas ce bagage.
Il faut donc un outil permettant de rendre la donnée accessible à ces personnes ?
Tout à fait ! C’est ce qu’on appelle la data visualisation, ou dataviz pour les intimes. La data visualisation est un ensemble de techniques utilisées pour communiquer des informations clés sur un gros volume de données, afin d’en faciliter la compréhension et la lecture pour tous. Ce domaine s’est vraiment démocratisé en entreprise dans les années 80, lorsque les entreprises ont pris conscience que l’analyse de leurs données pourrait aider grandement à la prise de décision !
“Une image vaut mille mots.”
Confucius
Lorsqu’il est question de représentation ou de graphique, de nombreux choix s’offrent à nous. On peut citer de façon non exhaustive :
les courbes pour représenter une évolution d’une caractéristique (comme la démographie d’un pays) dans le temps ;
les graphiques circulaires (appelés plus vulgairement des graphiques camemberts) pour représenter une répartition ;
ou encore des cartes lorsqu’on souhaite afficher une information géographique.
Il en existe bien d’autres, et je vous propose à présent de découvrir en détail les principales.
Identifiez le graphique adapté
Le choix d’un graphique va énormément dépendre des différentes variables qu’on cherche à représenter, et de l’information dont on dispose.
Présentez une évolution dans le temps
Ce cas se présente lorsqu’on souhaite représenter une variable numérique qui évolue dans le temps : la notion d’évolution implique qu’on ne peut avoir qu’une valeur numérique par pas de temps choisi – par mois, par année, etc.
![Data frame à expliciter en graphique en 4 lignes par 3 colonnes avec les entêtes date et chiffre d'affaires](https://user.oc-static.com/upload/2022/05/19/1652946562087_1.png)
Pour représenter une évolution dans le temps, on peut utiliser des diagrammes en ligne, ou en courbes :
![Exemple de diagramme en ligne avec date en abscisse et chiffre d'affaires en ordonnée](https://user.oc-static.com/upload/2022/05/19/16529465447498_2.png)
Mais également des diagrammes à barres :
![Exemple de diagramme à barres avec date en abscisse et chiffre d'affaires en ordonnée](https://user.oc-static.com/upload/2022/05/19/16529465789919_3.png)
Comparez différents groupes
On utilise ce type de graphique généralement lorsqu’on a des données agrégées sur une variable non numérique. On a ainsi une valeur numérique agrégée par groupe ou par catégorie :
![Data frame à valeur numérique agrégée par quantité en 3 lignes par 2 colonnes avec catégorie et quantité en entêtes](https://user.oc-static.com/upload/2022/05/16/16526928675542_4.png)
Pour représenter cela, on peut utiliser des diagrammes circulaires, appelés plus vulgairement, dans la langue de Molière, des camemberts :
![Exemple de diagramme circulaire réparti en 5 catégories](https://user.oc-static.com/upload/2022/05/16/16526928794871_5.png)
Mais l’idéal (comme nous le verrons un peu plus tard) reste tout de même les diagrammes à barres :
![Autre exemple de diagramme à barres avec catégorie en abscisse et quantité en ordonnée](https://user.oc-static.com/upload/2022/05/16/16526928991779_6.png)
Représentez une distribution
Ce type de graphique est particulièrement utile lors d’une analyse préliminaire, lorsqu’on souhaite comprendre les données à disposition, et la façon dont chaque variable se répartit. Il y a deux cas possibles : une variable numérique et une variable non numérique.
Dans le cas d’une variable numérique, on utilise généralement un histogramme :
![Exemple d'histogramme avec distribution en abscisse et count en ordonnée](https://user.oc-static.com/upload/2022/05/16/16526929188083_7.png)
Il existe aussi une variante de l’histogramme, appelée diagramme à densité :
![Exemple de diagramme à densité avec distribution en abscisse et density en ordonnée](https://user.oc-static.com/upload/2022/05/16/16526929302844_8.png)
Dans le cas d’une variable non numérique, techniquement, c’est une visualisation que nous avons déjà rencontrée. Car la première étape est d’agréger les données pour compter le nombre d'occurrences au sein de notre variable, par catégorie ou groupe. Ensuite, on se retrouve simplement dans le cas de comparaison cité ci-dessus : on peut utiliser un diagramme circulaire ou un diagramme à barres.
Représentez la relation entre 2 variables numériques
Le dernier cas, que nous n’avons pas traité mais qui est couramment rencontré, est le choix du graphique lorsqu’on souhaite représenter la relation entre deux variables numériques. Le jeu de données contient dans ce cas plusieurs lignes, exprimées sur (au moins) deux variables numériques :
![Data frame mettant en relation 2 variables numériques en 5 lignes par 2 colonnes avec entêtes taille et poids](https://user.oc-static.com/upload/2022/05/16/16526929521315_9.png)
On peut tracer plusieurs points (un pour chaque ligne) en mettant l’une des variables en abscisse et l’autre en ordonnée : c’est ce qu’on appelle un nuage de points :
![Exemple de nuage de points avec taille en abscisse et poids en ordonnée](https://user.oc-static.com/upload/2022/05/16/16526929755098_10.png)
La liste n’est naturellement pas exhaustive, et ce cours serait bien trop long s'il fallait tous les traiter, mais voici cependant un bon échantillon des principales que vous allez être amené à rencontrer.
Cernez les bonnes pratiques de la dataviz
Maintenant que nous avons différents graphiques à notre portée, il est temps de faire un point sur la façon de réaliser ces graphiques, ce qu’on pourrait appeler : les bonnes pratiques en data visualisation.
Ce sont des “règles” simples qu’il est très vivement conseillé de suivre pour assurer la lisibilité et la compréhension des visualisations.
1. Privilégiez la simplicité
Lorsqu’on travaille dans l’analyse de données, on est souvent amené à travailler avec de nombreuses variables. Il est assez tentant de toutes les mixer en un seul graphique, en jouant par exemple sur les couleurs, sur la taille des points, sur la forme des points, etc.
Voici un exemple :
![Un graphique trop complexe présentant 5 informations avec taille en abscisse et poids en ordonnée mais également le genre en couleur, le revenu en taille des points et le statut marial via la forme des points](https://user.oc-static.com/upload/2022/05/16/16526929940808_11.png)
Nous avons sur ce graphique 5 informations qui sont représentées :
la taille en abscisse ;
le poids en ordonnée ;
le genre en couleur ;
le revenu via la taille des points ;
et le statut marital via la forme des points.
Pfiou…
Vous admettrez que même si on peut arriver à le lire en s’aidant de la légende, ce graphique est un peu trop chargé d’informations. Il vaut mieux dans ce genre de cas faire plusieurs graphiques avec peu d’informations sur chacun, mais qui soient clairs et interprétables au premier coup d'œil !
2. Clarifiez votre graphique
Il existe aujourd’hui de nombreuses représentations hyper stylées et complexes dans le monde de la data visualisation. Gardez à l’esprit que votre but premier, lors de la création d’une visualisation, est de rendre cette dernière la plus lisible possible. D’une certaine façon, un graphique doit être autosuffisant : n’importe qui doit être en mesure de le lire et de le comprendre, à partir des seuls éléments présents dessus et autour.
Laissez-moi imager cela. Considérons le graphique suivant :
![Un exemple de diagramme à barre à clarifier avec d'un côté des données locataires et de l'autre des données propriétaires](https://user.oc-static.com/upload/2022/05/16/16526930132009_12.png)
Il peut paraître sympa, mais… de quoi parle-t-on ? Quelles sont les informations représentées ? À quoi correspond chaque barre ? À quoi correspond chaque couleur ? Il manque beaucoup trop d’informations pour être en mesure de l’interpréter.
À présent, que dire de celui-ci :
![Un graphique clarifié avec des titres, une légende et des valeurs pertinentes avec type de logement en abscisse et revenu moyen en ordonnée](https://user.oc-static.com/upload/2022/05/16/16526930428129_13.png)
C’est exactement le même graphique, sauf qu’à présent, nous avons la grille de lecture pour le lire et le comprendre. Qu’est-ce qui a rendu cela possible ?
Quatre choses :
Les titres des axes. On a même ici précisé l’unité !
La légende pour la compréhension des couleurs.
Le titre, qui nous indique clairement de qui et de quoi on parle.
Les valeurs indiquées au-dessus des barres pour éviter l’imprécision.
3. Choisissez le graphique adéquat
Cela fait directement écho à la présentation des différents graphiques faite précédemment. Considérons le graphique suivant :
![Un exemple de diagramme circulaire inadapté composé de 4 catégories sans aucune légende](https://user.oc-static.com/upload/2022/05/16/16526930620155_14.png)
Nous avons la quantité en stock de chaque catégorie (A, B, C ou D) de différents produits.
Seriez-vous en mesure de dire dans quelle catégorie, entre B et C, nous disposons le plus de stock ?
Ce n’est pas évident, n’est-ce pas ? Prenons la même visualisation avec cette fois-ci un diagramme en barres :
![Un diagramme à barre plus adapté pour permettre de comparer les stocks avec catégorie en abscisse et quantité en ordonnée](https://user.oc-static.com/upload/2022/05/16/16526930844296_15.png)
La différence est d’un coup beaucoup plus nette, la catégorie C possède plus de stock que la catégorie B. Pourtant, ce sont exactement les mêmes données. C’est pour cela qu’un diagramme en barres est généralement plus avisé qu’un diagramme circulaire, à partir du moment où il y a plus de 2 groupes à comparer.
En résumé
La datavisualisation est un ensemble de techniques utilisées pour représenter visuellement des informations clés sur un gros volume de données, afin d’en permettre la compréhension et l’analyse.
Pour représenter :
une évolution dans le temps, on privilégiera des diagrammes en barres ou des courbes ;
une comparaison entre différents groupes, on utilisera un diagramme circulaire ou un diagrammes en barres ;
une distribution, on privilégiera un histogramme ou un diagramme à densité ;
la relation entre 2 variables numériques, on développera un nuage de points.
Il existe quelques règles à observer pour réaliser un graphique efficace :
privilégier la simplicité, quitte à multiplier le nombre de graphiques ;
privilégier la clarté, en proposant le plus d’informations possible pour permettre au lecteur d’interpréter seul ce graphique ;
choisir le graphique adéquat en fonction de ce qu’on cherche à représenter.
Je vous propose à présent de créer ces différents graphiques avec Python en utilisant la librairie Matplotlib.