Après avoir eu un aperçu du pouvoir des données, Sarah a hâte que vous exploriez d’autres horizons pour découvrir de nouvelles tendances dans sa vie. Dans ce chapitre, nous allons explorer les différents types de graphiques à disposition et quand les utiliser pour aider Sarah à mener ses nouveaux projets :
Quels autres facteurs pourraient avoir une influence sur son humeur ?
Comment ses dépenses évoluent-elles dans le temps ?
Comment occupe-t-elle son temps libre comparé à ses amis ?
Son travail interfère-t-il avec ses objectifs de remise en forme ?
Vous avez déjà pu voir quelques tendances qui se détachaient dans les visualisations de données de Sarah. Par exemple, vous avez vu que le nombre de calories brûlées augmentait quand Sarah faisait plus d’exercice :
De plus, Sarah dépensait plus quand elle n’était pas de bonne humeur :
Et vous avez vu le graphique qui représentait la tendance du nombre de pas total de Sarah :
Dans ce chapitre, nous étudierons l’art d’une bonne visualisation de données. Mais d’abord, il est important de bien comprendre certains termes. La plupart des graphiques contiennent trois zones principales, entourées ici en rouge, en bleu et en vert :
Intégrez vos données sur des graphiques adaptés
Nous savons que les graphiques sont utiles. Mais ce qui est encore plus utile, ce sont les différents choix qui vous sont proposés dans les tableurs ! Par exemple, voici les graphiques disponibles dans Google Sheets :
Quand on trace un graphique, on peut être tenté de choisir un « joli » graphique, mais il faut réfléchir de façon plus logique. Si on considère les graphiques comme des moyens de communication, alors il vaut mieux réfléchir au message que vous voulez transmettre. Ce dernier peut entrer dans une des catégories suivantes :
Examinons chacune de ces catégories en nous appuyant sur de nouvelles données collectées par Sarah. Vous pouvez récupérer les nouvelles données ici.
Comparaison
Objectif : quels autres facteurs pourraient avoir une influence sur l’humeur de Sarah ?
Après avoir découvert que ses dépenses pouvaient être liées à son humeur, Sarah souhaite en savoir plus pour savoir si d’autres éléments peuvent avoir une influence sur son humeur. Elle a lu beaucoup de choses sur les effets positifs ou négatifs du café. Elle collecte donc des données sur sa consommation de café et sur son humeur. Voici les données que vous recevez :
Humeur | Café (nombre de tasses par jour) |
Excellente | 2 |
Bonne | 3 |
Moyenne | 6 |
Mauvaise | 12 |
Horrible | 4 |
Un histogramme est un excellent moyen de représenter cela. Les histogrammes sont parfaits pour les comparaisons, et leur longueur permet de visualiser facilement les écarts. Vous pouvez sélectionner des barres verticales :
Ou des barres horizontales (il s’agit alors d’un histogramme horizontal) :
Les barres verticales ou horizontales relèvent principalement d’un choix esthétique, mais parfois, le choix du type de barre rend la lecture plus simple.
Sarah trouve cela intéressant. On dirait qu’elle boit plus de café quand son moral baisse, mais qu’elle en boit moins quand son moral est au plus bas. Elle se demande si elle remplace le café par un autre vice ces jours-là, donc elle vous procure plus de données sur ses habitudes de consommation :
Humeur | Café (nombre de tasses par jour) | Oursons en gélatine (sachets par jour) | Heures de télé-réalité (heures par jour) |
Excellente | 2 | 0 | 1 |
Bonne | 3 | 2 | 1 |
Moyenne | 6 | 3 | 2 |
Mauvaise | 12 | 4 | 3 |
Horrible | 4 | 8 | 6 |
Dans cet exemple, ses données sont composées de trois séries. Vous pouvez reporter ce nouvel ensemble de données. Heureusement, la plupart des graphiques présenteront joliment les séries supplémentaires :
Apparemment, Sarah passe aux oursons en gélatine et à la télé-réalité quand son moral est au plus bas !
Encore une fois, vous pouvez choisir des barres horizontales si vous le souhaitez.
On peut aussi présenter une comparaison sous forme de diagrammes en radar (aussi appelé diagramme en toile d’araignée) pour représenter les mêmes données :
Vous pouvez constater que chaque rayon représente les valeurs des données numériques. Plus la valeur est grande, plus elle est éloignée du centre du cercle que traverse la ligne. Remarquez qu’il n’y a ni abscisse ni ordonnée. À la place, chaque axe représente une variable qualitative et la distance qui va de l’extérieur au centre représente une variable quantitative.
Regardez le screencast ci-dessous pour voir comment j’ai créé les graphiques ci-dessus :
Tendance
Objectif : comment les dépenses de Sarah varient-elles dans le temps ?
Les précédentes recherches de Sarah ont montré que ses dépenses étaient un peu irrégulières. C’est pourquoi elle souhaite approfondir l’analyse. Vous lui demandez de vous envoyer ses opérations bancaires des trois dernières années en les classant dans les catégories loisirs, nourriture et factures. Voici les données des six premiers mois :
Date | Loisirs € | Nourriture € | Factures € |
Jan. 2019 | 33 | 40 | 65 |
Févr. 2019 | 45 | 48 | 62 |
Mars 2019 | 49 | 35 | 60 |
Avr. 2019 | 41 | 35 | 56 |
Mai 2019 | 54 | 42 | 41 |
Juin 2019 | 68 | 46 | 22 |
Un graphique en courbes est parfait pour présenter la façon dont ses dépenses ont changé au fil du temps. Vous pouvez tracer une série unique :
Ou bien de multiples séries :
On peut maintenant facilement visualiser ses habitudes de dépenses sur trois années. Ses dépenses en loisirs sont plus élevées en été, et on peut voir un autre pic en décembre, suivi d’une baisse importante en janvier. Ses factures sont à leur niveau maximum en hiver et augmentent globalement au fil du temps. Ses dépenses alimentaires semblent relativement stables, malgré une légère augmentation au fil du temps.
Vous pourriez aussi utiliser un graphique en aires empilées. Ici, les dépenses sont empilées. Les factures sont présentées au-dessus de la nourriture qui se trouve elle-même au-dessus des loisirs. La hauteur totale des aires colorées représente donc l’intégralité des dépenses :
Remarquez que cela vous donne une idée des dépenses totales et des proportions que représente chaque catégorie de dépense, mais pas de la façon dont chacune des catégories varie au fil du temps. Par exemple, vous ne pouvez pas visualiser aussi facilement la saisonnalité des factures payées dans un graphique en aires empilées que dans un graphique en courbes.
Sarah veut pouvoir visualiser plus facilement la saisonnalité et l’augmentation globale des factures. Vous pouvez choisir un graphique en courbes pour pouvoir comparer les années :
C’est une technique pratique pour visualiser des tendances. Par exemple, il présente clairement l’augmentation des factures pendant les mois d’hiver et au fil du temps.
Regardez le screencast ci-dessous pour voir comment j’ai créé les graphiques ci-dessus :
Proportion
Objectif : comparer les occupations de Sarah pendant son temps libre par rapport à celles de ses amis.
Les amis de Sarah trouvent qu’elle passe beaucoup trop de temps devant la télé et qu’elle devrait se trouver d’autres occupations. Pour savoir si c’est une inquiétude légitime, elles collectent des données sur la façon dont elles passent leur temps libre chez elles et présentent chacune des trois catégories sous forme de pourcentage :
| TV % | Loisirs % | Autre % |
Sarah | 42 | 12 | 46 |
Claire | 12 | 56 | 32 |
Fiona | 2 | 72 | 26 |
Nadine | 44 | 0 | 56 |
Meng | 15 | 75 | 10 |
Vous remarquerez que les nombres additionnés dans chaque ligne ont un total de 100, puisque ce sont des pourcentages.
Vous pouvez reporter les données relatives au temps passé de Sarah dans un graphique en secteurs. Chaque segment représente une part sur les 100 % de son temps libre à la maison :
Les graphiques en secteurs ne sont pas faits pour représenter des séries multiples. Pour cela, il vous faudrait reporter les données de chaque amie dans un graphique en secteurs. Vous pouvez aussi utiliser un graphique à barres empilées (qui peuvent être verticales ou horizontales) :
Chaque barre représente un total de 100, et chaque couleur représente une part de ces 100 %.
Avec ces graphiques, il vaut mieux parfois trier les données à partir d’une des séries. Par exemple, vous pouvez prendre la série relative à la télévision et lister ses amies en fonction du total d’heures passées devant la télévision. Le message devient ainsi plus clair, car l’objectif est de décider si Sarah regarde trop la télévision :
Regardez le screencast ci-dessous pour voir comment j’ai créé les graphiques ci-dessus :
Corrélation
Objectif : le travail empêche-t-il Sarah de réaliser ses objectifs de forme physique ?
Nous avons vu la corrélation dans la partie 2 du chapitre 3 quand nous avons abordé des techniques d’analyse. Approfondissons cela.
Sarah suppose que sa charge de travail a un impact sur son niveau d’exercice. Après réflexion, vous vous dites que le nombre d’e-mails qu’elle reçoit quotidiennement peut en donner une idée approximative. Vous lui demandez de rassembler ces deux éléments chiffrés sur dix jours. Elle vous fournit les données suivantes :
Nombre d’e-mails | Nombre de pas |
15 | 7 335 |
20 | 7 106 |
10 | 9 355 |
29 | 5 857 |
34 | 4 593 |
36 | 3 402 |
48 | 2 204 |
12 | 8 694 |
42 | 2 626 |
33 | 5 593 |
Vous pouvez utiliser un graphique en nuage de points pour montrer la corrélation entre ces deux valeurs :
Votre conclusion est que Sarah a raison. Il y a effectivement une corrélation entre ces deux éléments. Plus le nombre d’e-mails est élevé, moins Sarah fait de pas.
Vous avez le sentiment d’avoir trouvé quelque chose d’intéressant et vous voulez savoir si la corrélation peut s’appliquer de façon plus générale. Vous demandez donc à deux des amies de Sarah de vous fournir les mêmes données. Voici ce que vous recevez :
Sarah |
| Claire |
| Fiona |
|
E-mails | Pas | E-mails | Pas | E-mails | Pas |
18 | 9 058 | 20 | 3 403 | 102 | 13 117 |
43 | 3 963 | 41 | 1 167 | 115 | 11 264 |
30 | 6 965 | 49 | 1 104 | 107 | 12 254 |
25 | 8 341 | 35 | 1 753 | 100 | 14 210 |
41 | 5 316 | 12 | 4 376 | 77 | 17 071 |
39 | 5 499 | 36 | 1 348 | 80 | 16 225 |
32 | 6 348 | 14 | 3 120 | 110 | 11 755 |
35 | 5 790 | 10 | 4 548 | 96 | 14 784 |
30 | 6 873 | 12 | 3 745 | 82 | 15 511 |
24 | 8 449 | 24 | 2 308 | 72 | 17 434 |
Vous pouvez désormais reporter les trois séries de données sur un graphique en nuage :
On dirait que votre hypothèse tient la route ! La charge de travail semble avoir une influence sur l’activité physique.
Vous pouvez probablement conclure que le nombre d’e-mails entraîne une baisse du nombre de pas, car Sarah et ses amies passent plus de temps sur leur ordinateur qu’à marcher à l’extérieur. Cependant, vous ne pouvez pas conclure que la baisse du nombre de pas entraîne une augmentation du nombre d’e-mails. Parfois, il n’existe aucun lien de causalité. Par exemple, observez le graphique qui compare le nombre d’heures que Fiona passe à faire de l’aviron par rapport au nombre de kilomètres parcourus à vélo par Sarah :
Il existe bien une corrélation, mais y a-t-il un lien de causalité ? Le fait que Fiona fasse de l’aviron incite-t-il Sarah à faire du vélo ? Probablement pas ! Elles pourraient tout simplement profiter toutes les deux du beau temps pour pratiquer leur activité en plein air.
Regardez le screencast ci-dessous pour voir comment j’ai créé les graphiques ci-dessus :
À vous de jouer : choisissez et créez un graphique
C’est à vous. Examinez votre feuille de calcul consolidée, choisissez et créez l’un des graphiques suivants :
Humeur de Sarah par rapport au nombre de pas effectués.
Nombre de calories brûlées par Sarah pendant le mois en cours.
Temps de sommeil de Sarah comparé au temps passé au lit.
Nombre de pas effectués par Sarah par rapport à ses dépenses.
✅ Vérifiez votre travail : avez-vous réussi ? Il existe plusieurs façons de créer des graphiques adaptés. Consultez mes suggestions ici.
En résumé
J’espère que vous avez pris du plaisir à explorer les différents graphiques ! Voici un résumé de ce que vous avez appris :
Les graphiques répondent à des objectifs différents :
Comparer des nombres.
Montrer une tendance au fil du temps.
Montrer les parties d’un tout.
Montrer la corrélation entre deux ensembles de nombres.
Vous pouvez représenter plus efficacement une comparaison en utilisant des histogrammes, des histogrammes horizontaux ou des diagrammes en radar.
Vous pouvez représenter plus efficacement des tendances en utilisant des graphiques linéaires ou des graphiques en aires.
Vous pouvez représenter plus efficacement des proportions en utilisant des graphiques en secteurs ou des graphiques à barres empilées.
Vous pouvez représenter plus facilement des corrélations en utilisant des diagrammes de dispersion.
La corrélation n’implique pas toujours de liens de causalité.
À présent, vous avez une idée assez précise sur la façon de choisir le bon graphique pour réaliser vos objectifs. Dans le prochain chapitre, nous allons voir comment faire pour créer des graphiques satisfaisants en évitant des erreurs communes, en apportant des améliorations efficaces et en choisissant les bons outils.