Installez Airbyte sur votre ordinateur

En tant que Data Engineer chez Click et Achète, votre mission est claire : centraliser toutes les données dispersées pour en faire un véritable levier stratégique. Pour y parvenir, votre team leader, Sophie, vous a confié l’outil idéal, Airbyte. Avant de foncer tête baissée dans l’utilisation de cet outil, vous décidez de prendre un peu de temps pour comprendre ses objectifs et découvrir ses avantages. C’est parti !

Découvrez les avantages d’Airbyte

Airbyte est un outil open source d'intégration de données qui facilite l’extraction et le transfert de données entre différentes sources et destinations grâce à une multitude de connecteurs prêts à l'emploi. Sa version open source est gratuite.

Les sources sont une base de données, un fichier JSON ou un CRM. Les destinations sont une base de données ou un bucket S3. Airbyte est placé au milieu.
Airbyte, intermédiaire entre la source de données et la destination

Dans cette vidéo, nous allons examiner les avantages d'Airbyte et découvrir comment cet outil peut optimiser la gestion de vos flux de données (flow en anglais).

Maintenant que nous avons découvert les avantages d'Airbyte et ses cas d'utilisation, il est temps de passer à l'installation. Vous avez deux options :

  1. Installer Airbyte pour profiter de toutes ses fonctionnalités via son interface graphique (c’est l’option qui a été choisie pour votre première mission).

  2. Installer PyAirbyte, une solution plus légère permettant d'interagir avec Airbyte via son API (c’est l’option qui a été choisie pour votre seconde mission).

Option 1 : Installez Airbyte

Airbyte est composé de plusieurs éléments clés qui travaillent ensemble pour faciliter l'intégration et la gestion des données.

Voici une description des principaux composants qui constituent l'architecture d'Airbyte.

Composant

Description

WebApp/UI

Interface utilisateur accessible via le port 8000, permettant de configurer les sources, les destinations et les connecteurs.

Server (API)

API d'Airbyte qui permet de créer et de gérer des ressources de manière programmée, facilitant l'automatisation des flux de données.

Database Config & Jobs

Stocke toutes les configurations (identifiants, fréquence, etc.) ainsi que l'historique des tâches.

Temporal (Scheduler)

Gère la planification et l'ordonnancement des files de tâches et des flux de travail.

Worker

Responsable de l'exécution des tâches assignées par le scheduler. Il récupère les tâches qui sont placées dans la file d’attente, s’assure de leur traitement en parallèle et les isole dans des environnements dédiés. Dans un même temps, il communique aussi l'état de chaque tâche (succès, échec, ou en cours) au scheduler.

Découvrons maintenant comment installer Airbyte en local sur votre ordinateur.

Dans cette vidéo, vous avez vu :

  • L’installation de abctl pour gérer l'instance Airbyte.

  • Le lancement d'Airbyte et l’accès à l'interface utilisateur.

Dans ce cours, nous nous concentrons sur l'utilisation d'Airbyte en version open source, mais il existe également des versions managées disponibles (Self-Managed Enterprise, Cloud Teams & Cloud), qui ne seront pas abordées ici. Pour plus d'informations sur ces options, vous pouvez consulter la page “Airbyte Overview”.

Après avoir installé Airbyte et exploré ses composants, il est intéressant de considérer l'utilisation de PyAirbyte. Contrairement à Airbyte, qui est plus lourd à installer en raison de son framework complet, PyAirbyte est une bibliothèque Python permettant d'interagir avec l'API d'Airbyte de manière plus légère et flexible. C’est particulièrement avantageux si vous recherchez une solution simple et rapide sans avoir à installer l'intégralité du framework Airbyte.

Option 2 : Installez PyAirbyte

Vous avez installé Airbyte pour centraliser et intégrer les données de différentes sources dans un entrepôt de données Amazon S3, afin d’aider l’équipe marketing à analyser le comportement des clients.

Sophie vous a maintenant partagé une nouvelle mission : automatiser l’intégration des données provenant d’une API tierce, mais cette fois pour une autre équipe de l'entreprise. Cette équipe est indépendante et n'utilise pas Airbyte. Elle gère son propre système d'intégration de données, avec très peu de sources dans son pipeline. Pour cette tâche, Sophie vous recommande d’utiliser PyAirbyte, qui vous permettra de manipuler les données avant ou après leur transfert, offrant ainsi plus de flexibilité sans avoir besoin d'installer l'intégralité du framework Airbyte.

Avant d’installer PyAirbyte sur votre machine, voici les avantages et inconvénients principaux liés à son utilisation.

Avantages

Inconvénients

  • Solution simple et rapide : PyAirbyte offre une méthode directe pour intégrer des données sans avoir à configurer l'ensemble du framework Airbyte.

  • Librairies avec sources et destinations préconfigurées : Cela facilite le développement et l'intégration de nouvelles sources et destinations.

  • Nécessité d'écrire du code manuellement : L'utilisation de PyAirbyte implique d'avoir des connaissances en programmation pour écrire les scripts nécessaires.

  • Pas de surveillance ni de planification centralisée : Contrairement à l'interface d'Airbyte, PyAirbyte ne permet pas de gérer la surveillance et la planification des flux de données à un seul endroit.

Pour utiliser PyAirbyte, il suffit d’installer la librairie associée dans votre environnement de développement intégré (IDE). Voici le code à intégrer.

pip install airbyte

Pour prendre en main la librairie : 

  1. Sur la page Using PyAirbyte, regardez la vidéo Youtube dans la partie Demos. Cette vidéo fournit une démonstration complète de la version 1.0 de PyAirbyte, présentant ses principales fonctionnalités.

  2. Sur la même page, vous pouvez également suivre les différents liens dans la partie Quickstarts si vous désirez aller plus loin.

  3. Pour obtenir la liste complète des classes, méthodes et exemples d'utilisation, veuillez consulter la documentation de référence de l’API PyAirbyte.

En résumé

  • Airbyte est un outil d'intégration de données open source qui facilite le transfert de données entre diverses sources et destinations grâce à une multitude de connecteurs prêts à l'emploi.

  • Vous avez exploré les avantages d'Airbyte, y compris sa capacité à centraliser et automatiser les mises à jour de données, ainsi que sa flexibilité pour gérer des systèmes hétérogènes.

  • Pour installer Airbyte sur votre ordinateur, il faut l'outil de ligne de commande abctl et suivre des étapes simples pour configurer la première instance.

  • PyAirbyte est une bibliothèque Python qui permet d'interagir avec l'API d'Airbyte de manière plus légère et flexible, facilitant l'intégration de données sans avoir à installer l'intégralité du framework.

Maintenant que vous avez découvert les bases d'Airbyte et sa configuration initiale, passons à l'exploration de ses principales fonctionnalités. Dans cette section, nous allons apprendre à gérer les connecteurs de données, synchroniser vos données PostgreSQL vers S3, et bien plus encore.

Et si vous obteniez un diplôme OpenClassrooms ?
  • Formations jusqu’à 100 % financées
  • Date de début flexible
  • Projets professionnalisants
  • Mentorat individuel
Trouvez la formation et le financement faits pour vous