Documentez, visualisez et exécutez votre pipeline dbt

Votre pipeline dbt transforme maintenant les données de MadeInFrance et garantit leur qualité. Mais votre travail ne s’arrête pas là : l’équipe Data n’est pas composée d’une seule personne, et votre pipeline doit être compréhensible, transparent et simple à maintenir pour tous ceux qui en dépendent.

Depuis plusieurs semaines, les analystes vous sollicitent régulièrement pour comprendre l’origine d’une colonne, la logique derrière un calcul ou l’impact d’une modification sur un autre modèle. Sans documentation claire ni vision d’ensemble, un pipeline devient rapidement une boîte noire, difficile à faire évoluer et risquée à manipuler.

Vous allez maintenant apprendre à documenter vos modèles, à visualiser la structure complète du pipeline grâce au DAG, et à exécuter ou automatiser vos transformations dans dbt Cloud. Vous allez offrir à MadeInFrance un pipeline clair, lisible et industrialisé — un pipeline qui peut évoluer sans craindre la régression et sur lequel toute l’équipe pourra s’appuyer avec confiance.

Documentez vos modèles dbt

Avec plusieurs modèles, tests et transformations en place, votre pipeline doit maintenant être rendu lisible pour l’ensemble de l’équipe. Les analystes de MadeInFrance s’appuient sur vos modèles pour créer des dashboards ; votre manager doit comprendre l’impact d’une modification ; un nouveau membre de l’équipe doit pouvoir explorer le pipeline sans repartir de zéro.

C’est précisément le rôle de la documentation intégrée à dbt. Elle se fait directement dans les fichiers YAML associés à vos modèles. Vous pouvez y décrire :

  • le rôle d’un modèle,

  • la signification métier d’une colonne,

  • la provenance d’une source Snowflake,

  • les tests associés (génériques ou personnalisés),

  • les règles métier importantes.

Cette approche a deux avantages :

  1. La documentation vit avec le code. Tout changement dans un modèle peut être documenté immédiatement.

  2. Elle rend le pipeline accessible à toute l’équipe. L’analyste n’a pas besoin d’ouvrir un fichier SQL pour comprendre une transformation.

Dans cette vidéo, vous allez apprendre à décrire vos modèles et colonnes dans les fichiers YAML.

Dans cette vidéo, on a :

  • ajouté des descriptions aux modèles et colonnes,

  • documenté une source,

  • associé des tests dans les fichiers YAML.

Visualisez les dépendances dans le DAG

Documenter vos modèles est essentiel, mais comprendre visuellement comment ils s’enchaînent l’est tout autant. C’est là que le DAG (Directed Acyclic Graph) de dbt devient un outil précieux.

Chez MadeInFrance, les analystes consultent souvent le DAG pour comprendre quelles transformations précèdent leurs données finales. Cela améliore la collaboration entre l’équipe Data et les équipes métier.

Le DAG est généré automatiquement par dbt, et il évolue à chaque nouveau modèle ajouté.

Cette vidéo vous montrera comment utiliser le DAG pour comprendre les relations entre vos modèles et identifier l’impact des transformations dans votre pipeline.

Dans cette vidéo, on a :

  • exploré le DAG pour visualiser les dépendances entre les modèles,

  • navigué dans la structure du pipeline et

  • compris comment les transformations s’enchaînent.

Exécutez et maintenez votre pipeline

Votre pipeline dbt est désormais documenté, testé et parfaitement structuré en couches. Il peut maintenant être exécuté autant pour vos analyses ponctuelles que dans un cadre opérationnel où les données doivent être mises à jour régulièrement.

Pour MadeInFrance, cela signifie que les équipes Marketing et Produit disposeront toujours de données mises à jour et validées.

dbt propose plusieurs commandes importantes pour orchestrer ces exécutions :

  • dbt run: exécute uniquement les modèles (transformations).

  • dbt test: exécute les tests de qualité.

  • dbt build: exécute modèles + tests + documentation en un seul flux.

  • dbt compile: génère le SQL final compilé, utile pour vérifier la logique d’un modèle sans l’exécuter.

Dans dbt Cloud, ces commandes peuvent être lancées manuellement depuis l’IDE ou automatisées via des jobs planifiés.

Enfin, dbt est conçu pour être orchestré au-delà de dbt Cloud.

Grâce à sa structure déclarative (models → tests → documentation), un pipeline dbt peut être déclenché par un planificateur externe comme Airflow, Dagster, ou tout autre orchestrateur.

Cela permet à une équipe Data plus mature d’intégrer dbt dans un écosystème opérationnel plus large.

Dans la vidéo, vous verrez comment exécuter votre pipeline dans dbt Cloud et créer un job automatisé pour planifier son exécution régulière.

Dans cette vidéo, on a :

  • exécuté un pipeline manuellement,

  • automatisé son exécution via un job planifié,

  • configuré les commandes dbt clés,

  • exploré les logs et

  • vérifié la réussite des transformations et des tests, garantissant un pipeline fiable et opérationnel dans la durée.

À vous de jouer

Contexte

Votre pipeline transforme désormais les données brutes de MadeInFrance, applique des règles métier et garantit leur qualité grâce aux tests. Pour qu’il soit réellement exploitable par toute l’équipe, il doit maintenant être documenté, lisible et entièrement exécutable.

Votre objectif : rendre votre travail compréhensible et opérationnel, aussi bien pour vous que pour les autres membres de l’équipe Data.

Consigne

En vous appuyant sur les explications du chapitre :

1. Documentez au moins deux modèles

  • Ajoutez une description au modèle et à ses colonnes principales.

  • Faites-le dans le ou les fichiers YAML associés (*.yml).

2. Consultez le DAG

  • Explorez la structure du pipeline via le DAG pour vérifier la cohérence de vos dépendances.

3. Exécutez le pipeline complet avecdbt build

  • Cela lancera modèles + tests.

  • Vérifiez que tout s’exécute correctement.

Livrable

À la fin de l’activité, vous devez obtenir :

  • Documentation de deux modèles, incluant descriptions et colonnes, dans un ou plusieurs fichiers YAML.

  • Exploration du DAG.

  • Exécution complète du pipeline viadbt build.

En résumé

  • La documentation dans dbt permet de rendre les modèles compréhensibles et faciles à maintenir pour toute l’équipe.

  • Les descriptions des modèles, colonnes, sources et tests se font dans les fichiers YAML associés.

  • Le DAG (Directed Acyclic Graph) visualise l’ensemble du pipeline et permet d’identifier les dépendances entre les transformations.

  • dbt run,dbt test,dbt buildetdbt compilesont les commandes principales pour exécuter ou valider un pipeline.

  • dbt Cloud permet d'exécuter le pipeline manuellement ou automatiquement via des jobs planifiés.

  • Un pipeline bien structuré et orchestré garantit des données fraîches, fiables et utilisables par l’ensemble des équipes métier.

Félicitations ! Vous avez désormais toutes les bases pour construire un pipeline dbt propre, fiable et professionnel. Vous avez appris à transformer des données brutes, à les enrichir, à tester leur qualité, à documenter vos modèles et à orchestrer leur exécution dans un environnement réel.

En quelques chapitres, vous êtes passé d’un simple jeu de données e-commerce à un pipeline organisé, contrôlé et compréhensible — un pipeline digne de ce que l’on attend dans une équipe Data. MadeInFrance (tout comme n’importe quelle entreprise) pourrait s’appuyer sur votre travail pour alimenter ses analyses, suivre ses performances ou prendre des décisions éclairées.

Continuez à pratiquer, à explorer et à expérimenter : dbt est un outil puissant qui se révèle encore plus riche lorsqu’on commence à le maîtriser. Vous avez posé des fondations solides. À vous maintenant de construire la suite !

Et si vous obteniez un diplôme OpenClassrooms ?
  • Formations jusqu’à 100 % financées
  • Date de début flexible
  • Projets professionnalisants
  • Mentorat individuel
Trouvez la formation et le financement faits pour vous