• 8 hours
  • Easy

Free online content available in this course.

course.header.alt.is_certifying

Got it!

Last updated on 4/28/23

Manipulez des données pour multiplier les usages

Dans ce chapitre, vous allez commencer à traiter les données de Sarah pour remplir le pipeline de données. Pour rappel, voici ce à quoi ça ressemblait :

Version complète du pipeline de données pour Sarah qui inclut toutes les sources et opérations des chapitres précédents.

À la fin de ce chapitre, vous allez créer une feuille de calcul consolidée, en reliant les données des trois sources. Cette feuille de calcul va vous aider à créer une vision plus complexe des habitudes de Sarah et à analyser leur impact sur sa santé et sur ses objectifs de remise en forme. De plus, Sarah va vous fournir de nouvelles sources de données que vous pourrez combiner.

Vous allez procéder par étapes pour y arriver :

  1. Reliez le traqueur de forme physique, ainsi que les journaux des données de santé et d’alimentation dans une feuille de calcul consolidée.

  2. Téléchargez de nouvelles données sur les opérations bancaires de Sarah.

  3. Agrégez les opérations bancaires pour n’obtenir qu’une seule opération par jour au total.

  4. Filtrez les opérations bancaires sur le mois de février.

  5. Nettoyez les données autant que possible.

Vous utiliserez la feuille de calcul consolidée pour analyser les liens entre les différents aspects de la vie de Sarah pour qui vous avez collecté des données.

Changez votre regard sur les données en les reliant

Combinons d’abord les données dans le fichier traqueur de forme physique, ainsi que dans les journaux de données de santé et d’alimentation :

Une image montre un pipeline de données pour Sarah.  Toutes les données brutes provenant de sources telles que les trackers de forme physique, les journaux de santé et les journaux d'alimentation sont combinées.

À la fin de cette manipulation, vous devriez obtenir une nouvelle feuille de calcul qui ressemble à ceci :

Une capture d'écran d'un programme de feuille de calcul. avec une feuille de calcul remplie. Les titres des colonnes sont : Date, Nombre de pas, Fréquence cardiaque, Symptôme, Vélo, Humeur, Bon pour la santé ? et Consistant ?

Dans ce screencast, observez la façon dont j’ai fusionné les trois fichiers de sources de données dans une feuille de calcul consolidée. Continuez en réalisant les étapes sur votre propre fichier de données :

Après avoir combiné les données, vous pouvez comprendre ce qui relie les données de Sarah. C’est exactement ce dont vous avez besoin pour réaliser les rapports de santé et de forme physique !

Synthétisez les données en les regroupant et en les agrégeant

Puis, intégrez la nouvelle source de données et traitez-la en suivant une partie du pipeline de données :

Une partie d'un pipeline de données avec une nouvelle source : les opérations bancaires. La prochaine étape est Débit et Crédit, suivie d' Agréger.

Sarah aime dépenser de l’argent. Elle pense que ça l’aide à être de bonne humeur. Sa mère n’est pas d’accord. Elle pense que cela ne l’aide pas. Pour réfuter la théorie de sa mère, Sarah veut collecter des données sur ses habitudes en matière de dépenses pour voir si elle peut modéliser le lien entre son humeur et ses dépenses. Elle télécharge ses opérations bancaires :

Capture d'écran d'un tableur avec une feuille de calcul remplie. Les colonnes sont : Date, Débit, Crédit

Vous pouvez trouver ces données ici. En les regardant, vous pouvez remarquer des différences avec les données de forme physique, qui contenaient une ligne par date. Avec les données bancaires, une date peut ne correspondre à aucune ligne ou correspondre à plusieurs lignes. Ces deux ensembles de données ont une granularité différente.

La granularité du traqueur de forme physique est journalière. La granularité des données bancaires dépend de chaque opération. Puisque la granularité de ces deux ensembles de données est différente, vous pouvez simplement combiner les données bancaires avec les données de forme physique, comme précédemment. Vous devez d’abord faire correspondre les données bancaires avec la granularité journalière des données de forme physique. Pour ce faire, vous pouvez regrouper les lignes par date et agréger les données au niveau de la date. Cherchez les opérations correspondant à chaque date et ajoutez-les afin de réduire les données à un total quotidien.

À la fin de ces manipulations, vous aurez agrégé les opérations bancaires et vous obtiendrez ceci :

Capture d'uneune feuille de calcul remplie. Les colonnes sont : Date et SUM de Débit

Dans ce screencast, vous pouvez voir la façon dont je l’ai fait dans Google Sheets et reproduire cet exemple. J’utilise une fonctionnalité appelée tableau croisé dynamique. Elle permet de générer ce type d’agrégations et bien plus encore !

Adaptez les données à vos besoins spécifiques en vous servant du filtre

Ensuite, concentrons-nous sur les données agrégées relatives aux dépenses et filtrez-les pour visualiser les données dont vous avez besoin, en les regroupant sur la feuille de calcul consolidée :

Résultat de la traduction  Sélectionnez la langue cible Français  formel/informel  L'image montre un pipeline de données pour Zara que nous avons vu précédemment avec une nouvelle source de données : la feuille de calcul des opérations bancaires.

Désormais, vous disposez des données bancaires agrégées par date, mais les données bancaires contiennent plus d’informations que nécessaire. Dans un premier temps, vous avez seulement besoin des données de février, car Sarah a commencé à collecter à cette période des données concernant sa santé et sa forme physique. Vous pouvez donc supprimer les lignes relatives aux mois précédents. Ensuite, elle s’intéresse uniquement à ses dépenses, pas à ses revenus. Vous pouvez donc supprimer les colonnes inutiles, ici, la colonne relative aux Entrées. Après cela, il vous restera uniquement les opérations bancaires de février :

Capture d'écran d'un tableur avec une feuille de calcul remplie. Les colonnes sont : Date, SUM de Débit

Vous avez uniquement filtré les données dont vous avez besoin.

Dans ce screencast, vous pouvez voir la façon dont je l’ai fait dans Google Sheets et reproduire cet exemple sur votre propre fichier de données :

Combinez maintenant les données avec le reste dans les feuilles de calcul consolidées de santé et de forme physique. Votre feuille de calcul consolidée doit ressembler à ceci, la colonne des dépenses en dernier :

Une capture d'écran d'une feuille de calcul.  Les titres des colonnes sont : Date, Nombre de pas, Fréquence cardiaque, Symptômes, Vélo, Humeur, Bon pour la santé ?, Consistant ? et Dépenses.

Vous n’avez aucune dépense pour l’ensemble des dates en février. Vous ne pouvez donc pas simplement copier-coller les données bancaires dans la feuille de calcul consolidée. Vous pourriez insérer manuellement les lignes manquantes dans les données bancaires, puis faire un copier-coller du mois entier. Ou bien, vous pourriez utiliser une fonction propre aux feuilles de calcul appelée RECHERCHEV. Avec la fonction RECHERCHEV, la feuille de calcul recherche les dépenses correspondant à chaque date de février.

Les screencasts ci-dessous permettent de voir comment je me suis servi de ces deux techniques et de les reproduire dans votre propre feuille de calcul.

Regroupez manuellement les données bancaires :

Regroupez les données bancaires en utilisant la fonction RECHERCHEV :

À vous de jouer ! Nettoyez les données

L’étape du nettoyage de données est souvent nécessaire pour bien préparer vos données. Elle consiste à corriger les erreurs ou les problèmes contenus dans les données qui pourraient limiter votre capacité à les utiliser pour atteindre vos objectifs. Les problèmes peuvent inclure :

  • Données erronées.

  • Valeurs manquantes inexplicables.

  • Valeurs erronées.

Observez les données de la feuille de calcul consolidée. Repérez-vous des problèmes ? Corrigez ensuite les éventuelles fautes d’orthographe.

Corrigé :

Voici un problème contenu dans la colonne humeur :

Capture d'écran des humeurs différentes : excellente, mauvaise, moyenne, et bonne, avec une faute d'orthographe à nettoyer.

Sarah semble avoir appuyé un peu trop longtemps sur la lettre « n » quand elle a écrit « Bonnne » dans cette cellule !

De plus, certaines cellules sont vides dans les colonnes Symptômes et Sorties vélo. Vous pouvez inscrire « Aucun » lorsqu’il n’y a pas eu de symptômes et « Non » quand Sarah n’a pas fait de vélo. De plus, il vaut mieux inscrire « Oui » dans les colonnes « Bon pour la santé ? » et « Consistant ? » pour ne pas avoir de cellules vides.

Si vous avez atteint cette étape et que vous avez tout fait correctement, votre feuille de calcul intitulée « santé et forme physique » devrait ressembler à ceci :

Vous trouverez ma propre feuille de calcul ici.

En résumé

Génial ! Vous avez fait du beau travail dans ce chapitre. Nous avons abordé un certain nombre de techniques de manipulation importantes :

  • Nous avons regroupé différentes sources de données dans une unique feuille de calcul consolidée.

  • Nous avons regroupé et agrégé des données pour qu’elles correspondent à la granularité de nos principales sources de données.

  • Nous avons filtré les données en supprimant des lignes et des colonnes.

  • Nous avons nettoyé les données en corrigeant les problèmes.

Jusqu’à maintenant, vous avez vu comment manipuler des données clés et vous vous êtes exercé à préparer vos données afin de les analyser. C’est ce que nous allons faire dans le prochain chapitre. À tout à l’heure !

Example of certificate of achievement
Example of certificate of achievement