Data quality Hive, des outils ?

19 août 2019 à 15:35:52

Bonjour à tous,

Je reviens ici après quelque temps parce que j'ai besoin de trouver un outils, une solution de contrôle de qualité de données pour des tables Hive.

A l'origine, le soucis est que de dans en temps, notre mapping fait de la merde (on part d'un fichier plat, qu'on transforme en table via un job talend). Ce n'est pas que ca plante, juste que ca ne fait pas ce qu'on veut. Si bien que de temps en temps, au lieu d'avoir des champs avec des valeurs utiles, on a des valeurs NULL.

Avec un exemple plus précis, on a des cas ou on a des fichiers csv qu'il faut simplement prendre comme fichiers de données pour nos tables. Sauf que dans notre super fichier csv (avec ";" comme séparateurs), on peut avoir des zones de texte de saisie, et rien n'empêche l'utilisateur de saisir un ";" dans son texte, ce qui fout le bordel par la suite, logique.

Donc à partir de la, on a besoin d'une solution pour contrôler que nos données ont bien le format attendu. Dans un 1er temps vérifier que les champs sont alimentés et qu'on a pas de NULL qui traîne, puis dans l'idéal améliorer ca en posant pourquoi pas des des regex pour voir si les valeurs de certaines colonnes les respectent, ou bien vérifier que les valeurs d'une autre colonne sont présentes dans une liste fixe de valeur.

J'ai regardé quelques outils comme Apache Griffin, mais je pense que ca colle pas complètement avec mon besoin. Ou encore www.agilelab.it/data-quality-for-big-data/ mais qui pour le coup regarde les données bruts, et justement, moi je veux faire mon contrôle sur les données mappées...

En vrai, je suis même pas sur d'avoir besoin d'un outils, genre une "simple" requête à l'air de pouvoir faire le boulot (surtout pour les valeurs null et les regex). Mais c'est p'tet réinventer la roue ?

Je ne sais pas s'il y a des trucs qui existent déjà et qui collent à mon besoin ? Ou bien si je dois me contenter de faire des jobs talend qui vont juste faire des requêtes sur mes tables pour faire les vérifs une à une (ce qui risque de plomber un peu le cluster si on exagère les tests...)

Merci merci

-
Edité par Tiffado 19 août 2019 à 15:36:46

TechFlow

14 février 2023 à 9:07:17

Bonjour Tiffado ,

Je ne sais pas si ton problème est toujours d'actualité... Si c'est le cas, je pense que le logiciel Tale of Data peut t'intéresser. Le logiciel dispose d'algorithmes IA qui permet de détecter, corriger et normaliser les données automatiquement. Dans le cadre de ton problème, le logiciel est capable de comprendre les différences entre les ";", il peut aussi faire du dédoublonnage, enrichissement, automatisation en no-code et tout ce qui suit...

Si tu as besoin de plus d'infos, je te donne le lien de leur site, tu pourras les contacter si tu en as envie : https://www.taleofdata.com/

J'espère avoir pu t'aider !

Tiffado

17 février 2023 à 15:00:45

Salut,

Non ce n'est plus trop d'actualité, mais ca m'intéresse quand meme, je vais y jeter un oeil

Merci!