Analysez des données quantitatives
Avez-vous remarqué quelque chose au sujet des variables de la feuille de calcul consolidée ? N’y avait-il pas à la fois du texte et des nombres ? Bien sûr que vous aviez remarqué ! Quand vous travaillez avec des données, il est important de savoir que les variables peuvent appartenir à différentes classes. De plus, les opérations et les analyses que vous pouvez mener dépendent du type de données dont vous disposez. Ce sont des choses que vous savez intuitivement ! Vous savez que vous pouvez multiplier deux nombres pour en obtenir un troisième. Mais multiplier deux éléments de texte n’a pas vraiment de sens. Qu’obtiendrait-on en multipliant « Hippopotame » par « Économie » ?! (Il existe sûrement une blague avec bonne chute à ce sujet, mais je ne la connais pas !)
Avant d’aller plus loin, récupérez une version améliorée de la feuille de calcul consolidée ici. Sarah vous a fourni des données supplémentaires issues de son traqueur de forme physique : les calories qu’elle a dépensées et ses cycles de sommeil. Utilisez ce fichier pour réaliser les activités restantes du cours.
D’abord, voyons ce que vous pouvez faire avec des données chiffrées ou quantitatives.
Observez le nombre de pas total :
Ce sont des données, mais quelles informations pourrais-je en retirer ?
Vous avez peut-être imaginé que vous pouviez calculer le nombre total de pas mensuels ? En d’autres termes, vous pouvez agréger les données quotidiennes à un niveau mensuel :
Comme pour le total, vous pourriez calculer la valeur moyenne, minimum ou maximum dans cette colonne.
La moyenne correspond à un nombre qui représente tous les nombres de la liste. Par exemple, le nombre moyen de pas de Sarah est de 6 216,8 par jour en février.
Regardez le screencast ci-dessous pour voir comment j’ai réussi à faire les analyses précédentes et reproduisez cela dans votre propre copie.
Vous pouvez aussi utiliser votre tableur pour tracer un graphique en courbes comme celui qui suit pour présenter le nombre total de pas que Sarah a effectué chaque jour du mois de février. C’est une façon pratique de montrer la tendance, par exemple l’évolution des nombres au fil du temps :
Vous pouvez aussi créer un graphique en nuage qui est également très utile. Il met en valeur le lien entre deux variables quantitatives. Ici, vous pouvez voir la façon dont les calories brûlées sont reliées au nombre de pas. Cela révèle une technique majeure en analyse de données qui s’appelle corrélation.
Vous pouvez vous servir du graphique en nuage pour identifier des corrélations ou des relations, entre les pas et les calories. Par exemple, le graphique ci-dessus montre que plus le nombre de pas est élevé, plus le nombre de calories brûlées augmente. Comme vous pouvez le voir, il existe une relation entre ces deux valeurs. Super !
Regardez le screencast ci-dessous pour voir comment j’ai réussi à faire les analyses précédentes et reproduisez-les.
Le pourcentage est un autre calcul important. Il vous indique la proportion de quelque chose par rapport à un tout, exprimée comme une valeur sur 100. Par exemple, si vous avez compté 20 oiseaux et que, parmi ces 20, 16 ont un bec noir et 4 ont un bec jaune, 4/20 ont un bec jaune. Donc, pour calculer le pourcentage, on prend 4/20 que l’on multiplie par 100. Ainsi, 20 % des oiseaux ont des becs jaunes.
Le traqueur de forme physique de Sarah dispose d’une fonction pour mesurer le temps qu’elle passe au lit et son temps de sommeil. Vous pouvez calculer son temps de sommeil par rapport au temps passé au lit en effectuant une division et en exprimant le résultat en pourcentage :
On dirait bien que Sarah a un bon sommeil !
Il faut bien comprendre qu’il existe différents types de données chiffrées. Par exemple, le nombre total de pas est un nombre naturel ou nombre entier, alors que les dépenses sont représentées par un nombre décimal :
Regardez le screencast ci-dessous pour voir comment j’ai réussi à faire les analyses précédentes et reproduisez cela dans votre copie.
Analysez des données qualitatives
Regardons maintenant les données textuelles, un type de données appelées également caractères ou chaîne de caractères.
Observez la colonne Humeur :
Ces données sont qualitatives.
Le terme catégoriel désigne des données qualitatives. Les catégories sont des listes de valeurs qui peuvent s’appliquer à une variable.
L’exemple ci-dessus décrit la qualité de l’humeur de Sarah !
À votre avis, comment pourrait-on analyser les données relatives à son humeur ?
Effectuer une analyse pertinente basée sur des données qualitatives sans en extraire d’abord des nombres peut être compliqué.
Pourquoi ne pas compter le nombre de jours qui correspondent à chaque type d’humeur de Sarah ?
Humeur | Nombre de jours |
Moyenne | 1 |
Horrible | 1 |
Excellente | 13 |
Bonne | 9 |
Mauvaise | 4 |
Pour visualiser la tendance plus facilement, vous pouvez reporter ces informations dans un histogramme :
Ce graphique vous permet de savoir si Sarah a plus de bons ou de mauvais jours. Ici, vous pouvez voir que Sarah est le plus souvent de bonne ou d’excellente humeur !
Vous pouvez aussi analyser une autre variable quantitative par rapport à une variable qualitative. Analysons les dépenses effectuées selon l’humeur de Sarah. Vous pouvez trouver la moyenne des dépenses effectuées quotidiennement selon les humeurs ressenties. Voici l’histogramme correspondant :
Comme vous pouvez le voir, les dépenses de Sarah semblent plus élevées quand son humeur est qualifiée de mauvaise ou horrible. La mère de Sarah semble avoir raison : dépenser n’a pas d’effet bénéfique sur l’humeur !
Y a-t-il une autre colonne avec des données qualitatives ?
Bien joué ! La colonne Symptômes est aussi qualitative :
Regardez le screencast ci-dessous pour voir comment j’ai créé cet histogramme et reproduisez cela dans votre copie :
Utiliser le filtre s’avère utile pour explorer les données catégorielles. Les tableurs offrent des fonctionnalités pratiques qui permettent d’appliquer différents filtres pour examiner les données selon différents points de vue. Dans ce screencast, vous pouvez voir comment explorer les données dont nous disposons jusqu’à présent :
Analysez les données de dates et d’heures
Nous avons vu les données qualitatives et quantitatives. Examinons maintenant une troisième classe : les dates et les heures.
On pourrait croire que les dates sont des données quantitatives, voire qualitatives, mais il vaut mieux les considérer comme une classe à part entière. En effet, les dates fonctionnent différemment et nécessitent des manipulations supplémentaires.
Les analyses de données qui concernent des dates et des heures sont courantes. Vous avez pu le constater quand nous avons examiné le nombre de pas total par jour. La granularité est essentielle ici. Par exemple, les données bancaires d’origine de Sarah couvraient une année entière d’opérations. Nous les avons agrégées en choisissant une granularité par jour, mais nous aurions pu aussi choisir une agrégation par mois ou par semaine.
Pour mieux comprendre cela, examinons les battements de cœur. Le traqueur de forme physique de Sarah peut enregistrer cette information minute par minute. Donc, considérez la date et les heures comme des opportunités d’analyser les données en vous basant sur l’un des niveaux de granularité suivants :
Année
Trimestre
Mois
Semaine
Jour
Heure
Minute
Seconde
Le nombre de possibilités à votre disposition est très important ! Voici le total des opérations bancaires par an de Sarah :
Puis, par trimestre :
Puis, par mois :
Regardez le screencast ci-dessous pour voir comment j’ai créé les vues ci-dessus et reproduisez cela dans votre copie :
La technique de la moyenne mobile est pratique quand on traite des données organisées par date. Examinez attentivement le graphique sur le nombre total de pas effectués par jour que nous avons créé tout à l’heure :
Comment pourriez-vous décrire la tendance en observant ces données ? Elles fluctuent beaucoup ! Si l’on pouvait lisser la ligne pour voir la tendance de fond, comme avec cette ligne rouge, ça serait génial :
Ici, on peut voir que le nombre de pas de Sarah a chuté au milieu du mois, mais qu’il est remonté en fin de mois. La ligne irrégulière est devenue plus lisse, ce qui facilite l’observation des tendances.
Regardez le screencast ci-dessous pour voir comment j’ai créé la moyenne glissante et reproduisez cela sur votre copie :
En résumé
Désormais, vous savez exploiter des informations pour en extraire des connaissances. Dans ce chapitre, vous avez appris :
Qu’il existe différentes classes de données :
Les données quantitatives, qui sont chiffrées et mesurables.
Les données qualitatives, qui sont catégorielles ou descriptives.
Les dates et les heures.
Qu’il existe différents types de données :
entières
décimales
texte (ou caractère ou chaîne de caractères)
Vous pouvez analyser des données quantitatives grâce à différentes techniques, comme :
Agréger les données en calculant des sommes, des moyennes, des médianes, des minimums ou des maximums.
Tracer une ligne sur un graphique pour visualiser une tendance.
Créer un graphique en nuage pour visualiser les corrélations.
Calculer des pourcentages.
Vous pouvez analyser des données qualitatives grâce à différentes techniques, comme :
Calculer le nombre d’occurrences pour chaque catégorie.
Créer un histogramme pour visualiser un comptage ou d’autres valeurs quantitatives.
Filtrer les données sur différentes valeurs catégorielles.
Vous pouvez analyser des données relatives à des dates ou des heures grâce à différentes techniques, comme :
Agréger les données par période : année, trimestre, mois, semaine ou jour.
Agréger les données par heure : heure, minute ou seconde.
Tracer une ligne sur un graphique pour obtenir une tendance.
Calculer une moyenne glissante pour visualiser une tendance ou lisser un graphique.
Félicitations ! Vous avez atteint la fin de la deuxième partie de ce cours. Jusqu’à maintenant, vous avez pu vous exercer à analyser les données de différentes façons, en les présentant parfois sous forme de graphiques. Il existe bien d’autres façons amusantes de présenter vos données ! Nous aborderons ce point dans la troisième partie.