• 8 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 25/10/2024

Maîtrisez les bonnes pratiques de la data visualisation

Comprenez l’importance de la représentation graphique

Aujourd’hui, les entreprises du monde entier génèrent un volume de données extrêmement important : plusieurs dizaines de zettaoctets (milliards de téraoctets) selon les dernières estimations. Et ce chiffre ne fait qu’augmenter exponentiellement au fur et à mesure que les technologies de stockage évoluent.

Il devient donc indispensable pour une entreprise d’avoir des outils pour analyser ces données, afin d’en tirer des enseignements exploitables au niveau business (des tendances d’achat selon les périodes, par exemple) et plus globalement, de pouvoir surveiller les différentes activités de l’entreprise afin d’identifier d’éventuels problèmes.

Toutes les librairies vues jusqu’à présent font partie de ces outils, mais demandent une certaine technicité, au moins en programmation. Or, la plupart des personnes en charge de la stratégie au sein d’une entreprise (ceux qu’on appelle les décideurs) n’ont généralement pas ce bagage.

Il faut donc un outil permettant de rendre la donnée accessible à ces personnes ?

Tout à fait ! C’est ce qu’on appelle la data visualisation, ou dataviz pour les intimes. La data visualisation est un ensemble de techniques utilisées pour communiquer des informations clés sur un gros volume de données, afin d’en faciliter la compréhension et la lecture pour tous. Ce domaine s’est vraiment démocratisé en entreprise dans les années 80, lorsque les entreprises ont pris conscience que l’analyse de leurs données pourrait aider grandement à la prise de décision !

“Une image vaut mille mots.”

Confucius

Lorsqu’il est question de représentation ou de graphique, de nombreux choix s’offrent à nous. On peut citer de façon non exhaustive :

  • les courbes pour représenter une évolution d’une caractéristique (comme la démographie d’un pays) dans le temps ;

  • les graphiques circulaires (appelés plus vulgairement des graphiques camemberts) pour représenter une répartition ;

  • ou encore des cartes lorsqu’on souhaite afficher une information géographique.

Il en existe bien d’autres, et je vous propose à présent de découvrir en détail les principales.

Identifiez le graphique adapté

Le choix d’un graphique va énormément dépendre des différentes variables qu’on cherche à représenter, et de l’information dont on dispose.

Présentez une évolution dans le temps

Ce cas se présente lorsqu’on souhaite représenter une variable numérique qui évolue dans le temps : la notion d’évolution implique qu’on ne peut avoir qu’une valeur numérique par pas de temps choisi – par mois, par année, etc.

Data frame à expliciter en graphique en 4 lignes par 3 colonnes avec les entêtes date et chiffre d'affaires
Data frame à expliciter en graphique

Pour représenter une évolution dans le temps, on peut utiliser des diagrammes en ligne, ou en courbes 

Exemple de diagramme en ligne avec date en abscisse et chiffre d'affaires en ordonnée
Exemple de diagramme en ligne

Mais également des diagrammes à barres :

Exemple de diagramme à barres avec date en abscisse et chiffre d'affaires en ordonnée
Exemple de diagramme à barres

Comparez différents groupes

On utilise ce type de graphique généralement lorsqu’on a des données agrégées sur une variable non numérique. On a ainsi une valeur numérique agrégée par groupe ou par catégorie :

Data frame à valeur numérique agrégée par quantité en 3 lignes par 2 colonnes avec catégorie et quantité en entêtes
Data frame à valeur numérique agrégée par quantité

Pour représenter cela, on peut utiliser des diagrammes circulaires, appelés plus vulgairement, dans la langue de Molière, des camemberts :

Exemple de diagramme circulaire réparti en 5 catégories
Exemple de diagramme circulaire

Mais l’idéal (comme nous le verrons un peu plus tard) reste tout de même les diagrammes à barres 

Autre exemple de diagramme à barres avec catégorie en abscisse et quantité en ordonnée
Autre exemple de diagramme à barres

Représentez une distribution

Ce type de graphique est particulièrement utile lors d’une analyse préliminaire, lorsqu’on souhaite comprendre les données à disposition, et la façon dont chaque variable se répartit. Il y a deux cas possibles : une variable numérique et une variable non numérique.

Dans le cas d’une variable numérique, on utilise généralement un histogramme :

Exemple d'histogramme avec distribution en abscisse et count en ordonnée
Exemple d'histogramme

Il existe aussi une variante de l’histogramme, appelée diagramme à densité 

Exemple de diagramme à densité avec distribution en abscisse et density en ordonnée
Exemple de diagramme à densité

Dans le cas d’une variable non numérique, techniquement, c’est une visualisation que nous avons déjà rencontrée. Car la première étape est d’agréger les données pour compter le nombre d'occurrences au sein de notre variable, par catégorie ou groupe. Ensuite, on se retrouve simplement dans le cas de comparaison cité ci-dessus : on peut utiliser un diagramme circulaire ou un diagramme à barres.

Représentez la relation entre 2 variables numériques

Le dernier cas, que nous n’avons pas traité mais qui est couramment rencontré, est le choix du graphique lorsqu’on souhaite représenter la relation entre deux variables numériques. Le jeu de données contient dans ce cas plusieurs lignes, exprimées sur (au moins) deux variables numériques :

Data frame mettant en relation 2 variables numériques en 5 lignes par 2 colonnes avec entêtes taille et poids
Data frame mettant en relation 2 variables numériques

On peut tracer plusieurs points (un pour chaque ligne) en mettant l’une des variables en abscisse et l’autre en ordonnée : c’est ce qu’on appelle un nuage de points 

Exemple de nuage de points avec taille en abscisse et poids en ordonnée
Exemple de nuage de points

La liste n’est naturellement pas exhaustive, et ce cours serait bien trop long s'il fallait tous les traiter, mais voici cependant un bon échantillon des principales que vous allez être amené à rencontrer.

Cernez les bonnes pratiques de la dataviz

Maintenant que nous avons différents graphiques à notre portée, il est temps de faire un point sur la façon de réaliser ces graphiques, ce qu’on pourrait appeler : les bonnes pratiques en data visualisation

Ce sont des “règles” simples qu’il est très vivement conseillé de suivre pour assurer la lisibilité et la compréhension des visualisations.

1. Privilégiez la simplicité

Lorsqu’on travaille dans l’analyse de données, on est souvent amené à travailler avec de nombreuses variables. Il est assez tentant de toutes les mixer en un seul graphique, en jouant par exemple sur les couleurs, sur la taille des points, sur la forme des points, etc.

Voici un exemple :

Un graphique trop complexe présentant 5 informations avec taille en abscisse et poids en ordonnée mais également le genre en couleur, le revenu en taille des points et le statut marial via la forme des points
Un graphique trop complexe présentant 5 informations

Nous avons sur ce graphique 5 informations qui sont représentées :

  • la taille en abscisse ;

  • le poids en ordonnée ;

  • le genre en couleur ;

  • le revenu via la taille des points ;

  • et le statut marital via la forme des points.

Pfiou…

Vous admettrez que même si on peut arriver à le lire en s’aidant de la légende, ce graphique est un peu trop chargé d’informations. Il vaut mieux dans ce genre de cas faire plusieurs graphiques avec peu d’informations sur chacun, mais qui soient clairs et interprétables au premier coup d'œil !

2. Clarifiez votre graphique

Il existe aujourd’hui de nombreuses représentations hyper stylées et complexes dans le monde de la data visualisation. Gardez à l’esprit que votre but premier, lors de la création d’une visualisation, est de rendre cette dernière la plus lisible possible. D’une certaine façon, un graphique doit être autosuffisant : n’importe qui doit être en mesure de le lire et de le comprendre, à partir des seuls éléments présents dessus et autour.

Laissez-moi imager cela. Considérons le graphique suivant :

Un exemple de diagramme  à barre à clarifier avec d'un côté des données locataires et de l'autre des données propriétaires
Un exemple de graphique à clarifier

Il peut paraître sympa, mais… de quoi parle-t-on ? Quelles sont les informations représentées ? À quoi correspond chaque barre ? À quoi correspond chaque couleur ? Il manque beaucoup trop d’informations pour être en mesure de l’interpréter.

À présent, que dire de celui-ci :

Un graphique clarifié avec des titres, une légende et des valeurs pertinentes avec type de logement en abscisse et revenu moyen en ordonnée
Un graphique clarifié avec des titres, une légende et des valeurs pertinentes

C’est exactement le même graphique, sauf qu’à présent, nous avons la grille de lecture pour le lire et le comprendre. Qu’est-ce qui a rendu cela possible ?

Quatre choses :

  • Les titres des axes. On a même ici précisé l’unité !

  • La légende pour la compréhension des couleurs.

  • Le titre, qui nous indique clairement de qui et de quoi on parle.

  • Les valeurs indiquées au-dessus des barres pour éviter l’imprécision.

3. Choisissez le graphique adéquat

Cela fait directement écho à la présentation des différents graphiques faite précédemment. Considérons le graphique suivant :

Un exemple de diagramme circulaire inadapté composé de 4 catégories sans aucune légende
Un exemple de graphique inadapté

Nous avons la quantité en stock de chaque catégorie (A, B, C ou D) de différents produits.

Seriez-vous en mesure de dire dans quelle catégorie, entre B et C, nous disposons le plus de stock ?

Ce n’est pas évident, n’est-ce pas ? Prenons la même visualisation avec cette fois-ci un diagramme en barres :

Un diagramme à barre plus adapté pour permettre de comparer les stocks avec catégorie en abscisse et quantité en ordonnée
Un graphique plus adapté pour permettre de comparer les stocks

La différence est d’un coup beaucoup plus nette, la catégorie C possède plus de stock que la catégorie B. Pourtant, ce sont exactement les mêmes données. C’est pour cela qu’un diagramme en barres est généralement plus avisé qu’un diagramme circulaire, à partir du moment où il y a plus de 2 groupes à comparer.

En résumé

  • La datavisualisation est un ensemble de techniques utilisées pour représenter visuellement des informations clés sur un gros volume de données, afin d’en permettre la compréhension et l’analyse.

  • Pour représenter :

    • une évolution dans le temps, on privilégiera des diagrammes en barres ou des courbes ;

    • une comparaison entre différents groupes, on utilisera un diagramme circulaire ou un diagrammes en barres ;

    • une distribution, on privilégiera un histogramme ou un diagramme à densité ;

    • la relation entre 2 variables numériques, on développera un nuage de points.

  • Il existe quelques règles à observer pour réaliser un graphique efficace : 

    • privilégier la simplicité, quitte à multiplier le nombre de graphiques ;

    • privilégier la clarté, en proposant le plus d’informations possible pour permettre au lecteur d’interpréter seul ce graphique ;

    • choisir le graphique adéquat en fonction de ce qu’on cherche à représenter.

Je vous propose à présent de créer ces différents graphiques avec Python en utilisant la librairie Matplotlib.

Exemple de certificat de réussite
Exemple de certificat de réussite