Quand on a fini d’assembler toutes nos visualisations sur le tableau de bord final, il faut bien le dire, on éprouve un certain sentiment de satisfaction ! Mais il m’est souvent arrivé de me rendre compte qu’en fait ce que j’avais fait n'était pas optimal, voire parfois qu’il ne répondait pas vraiment au besoin. C’est très souvent lié au choix du type de graphique choisi, ou de la manière dont on l’a présenté. Mais parfois, c’est même pire : il arrive que les données affichées sur le tableau de bord soient… fausses ! Et là, c’est bien plus grave.
Il est donc très important de prendre du recul sur notre travail et de mettre à l’épreuve nos graphiques. Eh oui, c’est comme à l’école, quand on a fini sa copie, il faut se relire !
Prenez du recul sur vos graphiques
Même si les données affichées sur un graphique sont correctes, il arrive que la présentation du graphique soit trompeuse et qu’elle induise l’utilisatrice ou l’utilisateur en erreur. Dans d’autres cas le graphique n’est pas optimal dans le sens où, pour accéder à l’information voulue, l'œil est obligé de faire une gymnastique à laquelle il n’est pas habitué.
Pour cela, rien de tel que de vous mettre à l’épreuve !
Exemple 1
Prenons ce blueprint, rédigé dans le contexte d’un entrepôt logistique qui gère un stock de produits de différentes catégories :
Besoins | Questions types | Indicateurs et données nécessaires | Visualisations |
Comparer les quantités de produits de chaque catégorie que nous avons en stock | A-t-on plus de produits de catégorie B ou C en stock ? | Liste des produits en stock ainsi que leur catégorie | Diagramme en secteurs où chaque secteur représente le nombre de produits d’une catégorie donnée |
ainsi que les graphiques correspondants :
Êtes-vous capable de répondre à la question du blueprint “A-t-on plus de produits de catégorie B ou C en stock ?”
La réponse :
Sur le diagramme en secteurs, il est effectivement difficile de comparer 2 secteurs entre eux. Pour le faire, il faudrait faire une rotation du secteur en vert (catégorie C) pour le superposer au secteur orange (catégorie B) et ainsi vérifier si l’un des deux a un angle plus grand que l’autre. Sacrée gymnastique !
Si le but est bien de comparer les différentes quantités, alors un diagramme en barres est plus adapté, car il est bien plus simple de comparer la hauteur des barres :
Exemple 2
Voici un autre blueprint, rédigé dans le contexte d’une entreprise de vente en ligne qui souhaite étudier l’âge de ses clients et clientes :
Besoins | Questions types | Indicateurs et données nécessaires | Visualisations |
Étudier la relation entre l’âge de nos clients et clientes et le montant des achats qu’ils/elles ont réalisés | 1/ Le groupe des clients et clientes ayant 70 ans nous rapporte-t-il plus que le groupe des personnes de 30 ans ? 2/ De manière générale, une personne de 60 ans nous rapporte-t-elle plus d’argent qu’une personne de 45 ans ? | Âge des personnes ayant réalisé des achats Montant total des achats de ces personnes | Nuage de points avec l’âge des clients et clients sur l’axe horizontal et le montant total des achats sur l’axe vertical |
et la visualisation associée :
Qu’auriez-vous répondu aux questions 1 et 2 du blueprint ?
Si vous avez répondu NON à la question 1, c’est très bien. Et si vous avez répondu NON à la 2… ou même si vous avez répondu OUI, alors vous vous êtes fait avoir par ce graphique trompeur !
Les question 1 et 2 sont exactement de même type, pourquoi ai-je bien répondu à la première mais pas à la seconde ?
Eh non, ces deux questions ne sont pas similaires, malgré les apparences.
Là où le graphique est trompeur, c’est qu’un point ne représente pas 1 personne, mais un groupe de personnes. Par exemple, le point dont l'abscisse (axe horizontal) est de 20 ans a une ordonnée d’un peu plus de 25 000 euros. Ce point ne représente pas 1 personne, mais toutes les personnes qui ont 20 ans, et 25 000 euros est la somme des achats de toutes les personnes de 20 ans.
D’ailleurs, n’avez-vous pas remarqué que pour chaque âge, il n’y a qu’un point correspondant ? (Il n’y a qu’un point dont l'abscisse est 20 ans, 1 point dont l'abscisse est 21 ans, etc.) Si on avait eu 1 point = 1 personne, cela aurait voulu dire que, parmi les gens ayant fait des achats sur le site, une seule aurait eu 20 ans, une seule aurait eu 21 ans, etc. Reconnaissez que c’est plutôt improbable, non ?
On peut donc répondre à la question 1, car elle nous demande de comparer le montant total des achats du groupe de personnes de 70 ans avec le montant total des achats du groupe des 30 ans.
Mais pour répondre à la question 2, cela nécessite de connaître le montant des achats de chacune des personnes de 60 ans et le montant total des achats de chacune des personnes de 45 ans, puis de regarder si, en général, les montants des personnes de 60 ans sont plus ou moins élevés que ceux de 45 ans. On a donc besoin du détail des montants par personne. Or, sur ce graphique, on n’a pas le détail par personne, on a juste une mesure agrégée (la fonction d'agrégation utilisée ici est la SOMME). On ne peut donc pas conclure.
Oui, mais moi je croyais que 1 point = 1 personne !
Rassurez-vous, c’est tout à fait normal de penser cela ! Là où le graphique est trompeur, c'est qu'il est de type “nuage de points”. En général, sur un nuage de point, on trace un point par unité d’observation, sans utiliser d’agrégation. Ici, notre unité d’observation, ce sont les personnes. Donc, en théorie, si on fait un nuage de points sur des données dont l’unité d’observation est une personne, alors on a 1 point = 1 personne. Ainsi, on peut très bien avoir plusieurs points qui ont la même abscisse, c’est-à-dire qu’on peut avoir plusieurs points placés sur 20 ans sur l’axe horizontal.
Pour info, voici le graphique donnant le détail de toutes les personnes : on y voit bien que pour une même abscisse (par ex. 20 ans), il peut y avoir plusieurs points !
Comment modifier le graphique pour qu’il ne soit pas trompeur ?
En général, quand on n’a qu’un point par abscisse (c’est le cas quand on agrège les données selon la variable placée horizontalement – ici l’âge), on va plutôt utiliser un diagramme en bâtons, comme ceci :
Aussi, il faut rajouter un titre qui est explicite sur ce que l’on représente (une somme sur plusieurs personnes ou bien des personnes prises individuellement). Je proposerais, par exemple : “Somme des montants des achats par âge”.
Adoptez les bonnes pratiques
Un graphique doit être autonome et compréhensible indépendamment du texte associé. Son objectif est de permettre une lecture rapide et de transmettre un message clair. Afin d'assurer son efficacité, un graphique doit inclure toutes les informations nécessaires à sa compréhension :
un titre ;
une légende descriptive ;
le nom des axes (nom de la variable) ainsi que l'unité utilisée (pourcentage, euros, années, etc.).
Écrivez des titres précis. Le titre doit donner le nom des variables représentées. Si vous utilisez une fonction d'agrégation (somme, moyenne, etc.), précisez-le.
Par exemple, comme nous l'avons sur le graphique précédent, le titre "Somme des montants des achats par âge" est plus adapté que "achats selon l'âge". En effet, "achats" est trop imprécis : montre-t-on le nombre d'achats ? La fréquence d'achat ? Le montant des achats ? On y indique également la fonction d'agrégation : la somme.
Comme on représente le montant des achats sur l'axe vertical, il faudra que le nom de cet axe contienne l'unité utilisée : l'euro (€).
Corrigez les visualisations erronées
Cela va peut-être vous choquer, mais il arrive que les visualisations créées par Tableau soient erronées ! Il arrive que les nombres qui s’affichent sur les visualisations, que les tailles des barres, taille des points, etc. ne correspondent pas aux données que vous avez donné en entrée.
Je vous propose dans la vidéo qui suit une explication plus approfondie de la source de ces erreurs, ainsi que les bonnes pratiques pour les éviter.
Mais avant cela, voici une habitude à absolument prendre : revenez à vos données d’origine !
Lorsque vous avez fini une visualisation, observez les nombres qui s’y affichent. Regardez s’ils sont cohérents. Ensuite, sélectionnez-en quelques-uns et allez vérifier dans les données d’origine (vos fichiers csv, votre base de données, etc.) que ces chiffres sont corrects.
Commençons par deux erreurs fréquentes, dans cette vidéo :
Résumé :
Bonne pratique 1 : Quand vous voulez faire une moyenne sur différents groupes, faites attention à la taille de vos groupes ! Utilisez une moyenne pondérée plutôt qu’une moyenne simple.
Bonne pratique 2 : Vérifiez toujours les fonctions d’agrégation choisies automatiquement par Tableau, c’est-à-dire à chaque fois que vous placerez une mesure dans les étagères “Lignes”, “Colonnes” ou “Repères”.
Pour le 3e exemple, je vais avoir besoin d’un fichier en plus. Vous pouvez le télécharger ici. Voici un aperçu :
Ce fichier fait office de compteur. Il compte le nombre de fois qu’une personne abonnée s’est rendue sur une station donnée. Ci-dessus, on voit que la personne abonnée numéro 7013 s’est rendue 11 fois sur la station 20702.
Voici donc la 3e bonne pratique, en vidéo :
Résumé :
Bonne pratique 3 : Quand vous définissez une relation entre deux tables, assurez-vous que TOUTES les colonnes permettant de faire correspondre deux tables entre elles soient bien listées dans la vue “Source de données”.
À vous de jouer
Contexte
Le tableau de bord est enfin prêt à être présenté à Luc !
Vous jetez un rapide dernier coup d'œil sur votre travail et… il y a quelque chose qui cloche !
C’est sur le graphique qui donne les prix mensuels des différents produits :
Consignes
Repérez l’erreur, puis corrigez-la.
Pour information, voici un aperçu de la table clientele.csv :
Corrigé
L’erreur se trouve sur l’axe vertical : les valeurs indiquées avoisinent les 2000€, ce qui n’est pas cohérent avec le prix des produits.
Quand on regarde dans l’étagère “Lignes”, Tableau affiche la somme des prix mensuels. Comme il y a plusieurs personnes ayant souscrit à un même produit, on va faire la somme de toutes ces personnes, ce n’est pas ce que l’on veut. Si on change la SOMME en MOYENNE, alors la moyenne des prix mensuels qu’ont payé toutes les personnes ayant souscrit au produit 1 sera de 10.99€, qui est bien le prix du produit 1.
Voici comment corriger l’étagère Lignes :
En résumé
La présentation trompeuse d'un graphique peut induire en erreur et ne pas répondre efficacement aux besoins.
L'utilisation d'un diagramme en secteurs rend difficile la comparaison. Un diagramme en barres est alors plus adapté.
Un nuage de points peut être trompeur lorsqu'il représente des groupes plutôt que des unités d’observation.
Un graphique doit inclure un titre, une légende descriptive et le nom des axes avec l'unité utilisée.
Il est important de vérifier la cohérence des données affichées sur les graphiques en revenant aux données d'origine.
Les erreurs courantes incluent le calcul de moyennes sans tenir compte de la taille des groupes, la redondance des données et l'utilisation de graphiques inappropriés pour représenter les données.
Ok, votre tableau de bord semble prêt, c’est le moment de le mettre à l’épreuve en le présentant aux utilisateurs et utilisatrices finales ! C’est ce que nous allons voir dans le dernier chapitre de ce cours !