Utilisez Redpanda Connect et le Schema Registry pour une gestion fluide des données

Maintenant que vous avez acquis les bases de Redpanda et compris son rôle dans le streaming de données, cette section vous permettra d'aller plus loin en explorant des outils et systèmes complémentaires comme Redpanda Connect et Schema Registry. Ces derniers vous permettent de gérer efficacement l’ingestion, le traitement et la validation des données en temps réel.

Utilisez Redpanda Connect

Après avoir exploré les bases du streaming de données avec Spark Streaming, il est important de comprendre qu'il existe différentes manières d’ingérer et de traiter les données en temps réel. Redpanda Connect se présente comme une alternative légère et efficace aux solutions comme Spark, offrant une approche plus simple pour gérer des pipelines de données. Contrairement à Spark, qui excelle dans les transformations complexes et massives, Redpanda Connect permet de gérer l’ingestion et la distribution des données en temps réel sans transformations lourdes, tout en garantissant une livraison fiable des événements provenant d’un topic Redpanda.

Un peu à l’image d'Airbyte, qui facilite la connexion entre différentes sources et destinations de données, Redpanda Connect se concentre sur l’ingestion, la transformation minimale et la distribution des données, tout en restant simple à déployer et à configurer. Il est conçu pour résoudre une large gamme de problèmes de traitement des données en utilisant des étapes simples et chaînées.

OK, mais concrètement, ça donnerait quoi pour l’entreprise Click et Achète ?

Vous pourriez utiliser Redpanda Connect pour :

  • Centraliser les données provenant des différentes bases PostgreSQL locales (par exemple, les commandes des utilisateurs en fonction des pays).

  • Envoyer les données directement vers un datalake comme Amazon S3 ou GCP Cloud Storage, sans avoir besoin d’utiliser Spark Streaming pour des transformations complexes.

Cela permettrait de collecter les données en temps réel, telles que les informations relatives aux commandes d'un utilisateur (produit acheté, quantité, montant), de manière simple et rapide, et de les stocker pour une utilisation future ou des analyses supplémentaires sans transformer les données avant le stockage.

Temps estimé pour suivre cette ressource : 1 heure

Suivez le Chapitre 1 du cours Redpanda ecosystem sur Redpanda Academy. Dans ce cours, vous apprendrez à :

  • Déployer un cluster local de Kafka Connect avec Redpanda.

  • Configurer des connecteurs source et destination (ex : PostgreSQL → Redpanda -> Redpanda Connect → MySQL).

  • Utiliser Redpanda Console pour gérer vos connecteurs de manière visuelle.

  • Vérifier que vos données sont bien ingérées et diffusées entre vos systèmes.

Une fois que vous avez configuré vos pipelines de données avec Redpanda Connect, il est crucial d'assurer la cohérence et la validité des données provenant des topics Redpanda. C'est ici qu'intervient Schema Registry

Gérez vos schémas de données avec Schema Registry

Lorsque plusieurs producteurs (qui envoient des messages) et consommateurs (qui lisent les messages) interagissent avec les mêmes topics, il devient essentiel d’avoir une structure de données bien définie. Le système appelé  Schema Registry permet d’imposer et de contrôler le format des messages échangés.

Chez Click et Achète, chaque pays possède sa propre base de données PostgreSQL. Le  Schema Registry garantit que toutes les bases envoient des messages au bon format, sans risque d’incohérence entre les systèmes.

Utiliser Redpanda Schema Registry a plusieurs avantages :

Avantage

Description

Compatibilité des schémas

Un Schema Registry garantit que les producteurs et consommateurs de données respectent un format de données défini. Cela permet d’assurer que les producteurs et les consommateurs sont synchronisés sur la même structure des données.

Centralisation des schémas

Un Schema Registry centralise la gestion des schémas de données utilisés dans le système Kafka ou Redpanda. 

Cela permet à toutes les applications d'avoir une source unique de vérité pour les schémas, évitant ainsi les erreurs liées aux versions incompatibles ou obsolètes.

Validation des messages avant l'envoi

Avant d'envoyer des messages dans Kafka ou Redpanda, un Schema Registry peut être utilisé pour valider que les messages respectent bien le schéma défini. Cela permet d'éviter les erreurs de formatage ou les incohérences de données avant qu'elles ne se propagent dans le système.

Évolution fluide des schémas

Un Schéma Registry assure une évolution fluide des schémas tout en évitant les interruptions de service. 

Compatibilité ascendante et descendante

Un Schema Registry permet de gérer les versions des schémas. Par exemple, vous pouvez ajouter de nouveaux champs à un message sans perturber les consommateurs existants. Il vérifie que les modifications apportées sont compatibles avec les versions précédentes des schémas, garantissant ainsi la compatibilité ascendante (les anciens consommateurs peuvent toujours lire les nouveaux messages) et descendante (les nouveaux consommateurs peuvent lire les anciens messages).

Temps estimé pour suivre cette ressource : 1 heure

Suivez le Chapitre 2 du cours Redpanda ecosystem sur Redpanda Academy. Dans ce cours, vous apprendrez à :

  • Déployer Redpanda Schema Registry sur votre cluster local.

  • Créer, modifier et gérer vos schémas de données avec l'API Schema Registry.

  • Inspecter et valider vos schémas avec Redpanda Console.

  • Utiliser Schema Registry avec Kafka Connect pour garantir la conformité des messages.

En résumé

  • Redpanda Connect simplifie l’ingestion et la distribution des données en temps réel en permettant de connecter différentes sources et destinations à Redpanda sans nécessiter de transformations lourdes.

  • Redpanda Connect offre une alternative légère à Spark Streaming, garantissant la livraison fiable des événements tout en restant facile à déployer et configurer.

  • Le système de Schema Registry centralise la gestion des formats de données en imposant un schéma commun entre producteurs et consommateurs pour assurer la cohérence des messages.

  • L'utilisation du Schema Registry permet une validation automatique des messages avant leur envoi, évitant ainsi les erreurs de format et les incohérences de données.

  • Schema Registry facilite l’évolution des schémas sans rupture de service, en assurant une compatibilité ascendante et descendante entre différentes versions des données.

Félicitations, vous avez terminé ce cours sur Redpanda ! Vous avez exploré les concepts essentiels du streaming de données, de l’ingestion à la gestion des flux en temps réel, en passant par l’utilisation de Redpanda Connect et Schema Registry. Vous avez acquis des compétences clés pour travailler avec des systèmes de messagerie événementielle à haute performance, et vous êtes maintenant capable de concevoir des pipelines de données robustes et évolutifs.

Ne vous arrêtez pas ici ! Continuez à pratiquer et à appliquer ces concepts dans des projets réels. Plus vous manipulerez de données en temps réel et intégrerez de systèmes, plus vous affinerez vos compétences. Vous êtes désormais prêt à relever de nouveaux défis et à appliquer ces connaissances dans vos futures missions.

N'hésitez pas à échanger avec la communauté open source de Redpanda (via Slack ou GitHub) pour partager vos expériences, poser des questions et découvrir des solutions à vos problématiques. La collaboration est un excellent moyen d'apprendre et d'avancer dans vos projets.

Bravo et continuez sur cette lancée !

Et si vous obteniez un diplôme OpenClassrooms ?
  • Formations jusqu’à 100 % financées
  • Date de début flexible
  • Projets professionnalisants
  • Mentorat individuel
Trouvez la formation et le financement faits pour vous