• 8 heures
  • Facile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 28/04/2023

Explorez le concept de pipeline de données

Découvrez ce qu’est un pipeline de données

Vous savez désormais ce qu’est une donnée. Mais, d’où vient-elle ? Et où va-t-elle ?

En data, vous entendrez souvent parler de pipeline de données. On peut comparer cela à une usine. Par exemple, dans une usine de fabrication de biscuits, on trouvera des ingrédients de base au début de la chaîne : la farine, le beurre et le sucre. Le produit (biscuit), quant à lui, sortira à l’autre bout de la chaîne. Pour finir, le milieu de la chaîne constitue le processus de transformation (c’est-à-dire un ensemble d’opérations ou de processus exécutés dans un ordre bien défini) :

Une photo montre un pipeline de données pour le processus de fabrication de biscuits. Les matières premières provenant des exploitations agricoles - beurre, farine et sucre - sont mélangées, cuites, emballées pour devenir le produit final - des bisc

L’usine s’est servie des matières brutes et de la valeur ajoutée pour obtenir un résultat plus raffiné et plus utile au quotidien. De la même manière, plus vous développerez votre culture des données, plus vous serez capable de transformer les données brutes en éléments utiles, comme le fait le responsable de l’usine avec la farine, le sucre et le beurre. Découvrons cette fascinante transformation à partir de vos données !

Prenons le cas d’une personne qui commence à se soucier de sa santé. Votre amie Sarah a acheté un traqueur de forme physique qui peut enregistrer son nombre de pas et la distance parcourue. Elle espère ainsi commencer à améliorer globalement sa santé et sa forme physique. Elle vient même de se mettre au vélo ! Puisque vous avez informé Sarah de votre intérêt pour travailler dans le domaine de la data, Sarah vous a demandé de l’accompagner dans sa démarche. Elle voudrait que vous utilisiez vos connaissances en data pour donner de la valeur à ses données de forme physique.

Quelles données puis-je extraire de l’application installée sur son téléphone pour suivre l’activité de remise en forme de Sarah ?

Sources de données et données brutes

Vous pouvez commencer par la première étape du pipeline de données qui consiste à présenter les sources de données et les données brutes que vous utilisez.

Disons que l’application enregistre le nombre de pas et la fréquence cardiaque au repos de Sarah.

Une photo montre un écran de smartphone avec une application de suivi de la condition physique ouverte. Sur le tableau de bord de l'application, on peut voir les informations concernant la fréquence cardiaque de Sarah, le nombre de pas par jour, la cons

Vous pouvez l’illustrer sur le pipeline de cette manière :

Une image montre le début d'un pipeline de données pour les données du tracker de fitness de Sarah. La source de données est l'application du tracker de fitness sur le téléphone de Sarah. Les données brutes qui en sont issues sont le nombre de pas

Opérations et informations

La prochaine étape du pipeline de données présente les opérations que vous pouvez effectuer sur la donnée pour la transformer en informations utiles. Dans le cas présent, l’application peut générer un rapport qui présente les réussites de Sarah, comme ses améliorations hebdomadaires ou les records personnels qu’elle a dépassés.

Une image montre la suite du pipeline de données précédent pour les données du tracker de fitness de Sarah. L'opération pour les deux données brutes consiste à créer un rapport de fitness dans l'application du téléphone. Les informations qui en

Destination

L’étape suivante est la destination (c’est-à-dire la finalité de la donnée une fois que celle-ci a été traitée). Sarah peut souhaiter partager ses réussites avec ses amis !

Une image montre la suite du pipeline de données précédent pour les données du tracker de fitness de Sarah. La destination des informations est le partage des résultats avec les amis de Sarah.

Vous avez désormais un pipeline de données qui présente les réussites de Sarah en matière de remise en forme. Est-ce que vous faites le parallèle avec l’usine ? La donnée brute se trouve au début de la chaîne et, après avoir été affinée et traitée, c’est de l’information qui sort en bout de chaîne.

Ajoutez plus de données dans le pipeline

Pouvons-nous ajouter plus d’ingrédients dans notre usine d’informations ?

La réponse est oui, bien sûr ! Demandons à votre amie de commencer à enregistrer d’autres éléments relatifs à sa santé, notamment les symptômes qui l’inquiètent.

Sarah commence à enregistrer cette donnée dans une feuille de calculs qui ressemble à cela :

Date

Symptômes

1er février 2022

 

2 février 2022

Mal de tête

3 février 2022

Fatigue

4 février 2022

 

Comment ajouter cette nouvelle source de données dans le pipeline de données ci-dessus ?

Avec un peu de chance, vous avez présenté les choses comme ceci. La nouvelle feuille de calculs est présentée comme une source de données et les données sur les symptômes sont reliées à la feuille de calculs :

Une image montre la suite du pipeline de données précédent pour Sarah, mais avec une nouvelle source de données : le journal de santé. Les données brutes qui en sont issues sont les symptômes de Sarah.

Évidemment, ces nouvelles données devront être utiles pour Sarah. C’est ce que nous allons voir dans le prochain chapitre !

En résumé

Dans ce chapitre, vous avez appris que :

  • Un pipeline de données est comme une usine de production d’informations. On ajoute de la valeur aux données pour obtenir une ou des informations.

  • Les données brutes proviennent de sources de données différentes.

  • Les données sont transformées en informations par des opérations.

  • On peut envoyer l’information finale vers différentes destinations.

Dans ce chapitre, vous avez pu voir les bases de la transformation de données en informations. Maintenant que vous maîtrisez le processus, passons au niveau supérieur. Dans le prochain chapitre, nous allons extraire le plus de valeur possible des données, en ajustant le pipeline en fonction des objectifs spécifiques.

Exemple de certificat de réussite
Exemple de certificat de réussite