Identifiez les données qui entrent dans votre entreprise
Au sein de votre entreprise, les données vont suivre ce que l’on appelle un « cycle de vie de la donnée » :
D’abord elles vont naître, c’est-à-dire qu’elles vont entrer dans votre entreprise.
Ensuite elles vont y vivre, c’est-à-dire que vous allez les envoyer, vous allez les modifier, les regarder, les analyser, les télécharger, les corriger…
Et enfin, elles vont disparaître : c’est-à-dire que vous allez devoir, à un moment ou un autre, les supprimer.
Moralité ? Avant de pouvoir faire quoi que ce soit avec de la donnée, il faut d'abord qu'elle naisse !
Cette première étape de la vie d'une donnée nous amène à un enjeu critique de la gouvernance des données : la provenance. En effet, il vous faut identifier très précisément les portes d'entrée de vos données afin de bien les répertorier. Oubliez une porte d’entrée, et vous oublierez toutes les données qui passent par elle !
À vous de jouer !
Répondez à ces questions, qui vous diront où sont vos portes :
Avez-vous acheté une base de données à un prestataire ?
S’agit-il de données produites par votre entreprise ? (Soit par la réalisation de ses services, soit par son organisation interne, comme pour les données RH, par exemple.)
Avez-vous récupéré ces données gratuitement, quelque part sur Internet ? Sur un réseau social ? Sur un site administratif ?
Ou peut-être les avez-vous récupérées physiquement, lors d’un événement ou d’un salon professionnel ?
Ou encore, peut-être les collectez-vous directement via votre site web, par un formulaire d’inscription ou un formulaire de contact ?
Adrien Bouhot, Directeur du département Données et Intelligence Artificielle chez Brut, se pose ces questions régulièrement. Découvrez son témoignage dans cette vidéo !
Répertoriez les données de votre entreprise
Une fois que vous avez identifié ces portes, il vous faut clarifier ce que sont vos données. Et il en existe beaucoup de différentes, qu’on peut classer en 3 grandes catégories.
1. Les données à caractère personnel
Il y a d’abord les données à caractère personnel, c’est-à-dire les données qui permettent d’identifier une personne : un nom, un prénom, une photo, une date de naissance, une adresse e-mail ou postale, un numéro de téléphone, des coordonnées bancaires… Mais également des informations moins évidentes, comme par exemple une adresse IP, des données de consommation ou des données de comportement sur Internet.
2. Les données publiques
D’autres données vont être publiques, comme les « documents administratifs » : en bref, toutes les données produites par une administration dans l’exercice de ses missions de service public (dossiers, rapports, avis, codes sources, statistiques, etc.). Ces données sont librement accessibles par tous, mais pas forcément librement réutilisables : on parlera ici d’un nouveau type de données, les informations publiques.
3. Les données privées
D’autres données, enfin, vont simplement être des données « privées », car protégées par d’autres types de droits qui encadrent et restreignent leur utilisation (des droits d’auteur par exemple, ou le secret des affaires).
Bien noté. Mais à quoi ça me sert de connaître ces types de données ?
Listez toutes vos données et construisez votre répertoire de données ! Ce répertoire consistera en une cartographie globale qui va d’abord vous permettre de connaître l’ensemble des données dont dispose votre entreprise. Elle va surtout vous aider à identifier et différencier les processus et les règles que vous serez amené à respecter.
Hiérarchisez les données de votre entreprise
La hiérarchisation de vos données correspond essentiellement à l’intérêt qu’elles ont pour votre entreprise, et à l’usage qu’elle en fera.
Nous pouvons définir 3 grandes catégories de données :
1. Les données de base
Les données de base sont les données majoritaires qui constituent le noyau de votre entreprise. Ce sont les données communes largement partagées, sur lesquelles tout le monde peut s’entendre et se comprendre, comme :
Les données transactionnelles (numéro de commande, quantité de produits, etc.) ;
Les données analytiques (valeur moyenne des commandes, etc.) ;
Et d’autres encore.
Les métiers s’appuient largement sur ces données pour réaliser leurs missions quotidiennes.
2. Les données de référence (ou données « maîtres »)
Les données de référence sont les données stratégiques de l’entreprise, les données qui servent à structurer et contraindre d’autres données.
Quelle est leur caractéristique ?
Ce sont des données qui vont permettre de décrire et de rechercher d’autres informations, notamment des données de base. Par exemple, pour rechercher une transaction à une date précise, vous allez utiliser le nom du client, ou la référence du produit.
3. Les métadonnées (métiers, techniques, opérationnelles)
Les métadonnées sont les « données sur vos données », c’est-à-dire des informations sur celles-ci : type de fichier, format, origine, date, etc.
Pourquoi est-ce important ?
Maîtriser vos métadonnées permet d’améliorer la gestion de ces données, par exemple en harmonisant les types de fichiers, ce qui permettra une interopérabilité et un meilleur échange de vos données en interne. Si la donnée est le contenu, la métadonnée est le contexte !
Une fois que vous avez hiérarchisé vos données, créez un dictionnaire de données, c’est-à-dire une nomenclature qui va définir ces différentes catégories et les lister concrètement. C’est une boussole qui va permettre à tous de comprendre votre classification interne, et ainsi mieux se repérer dans vos données.
Supprimez les données de votre entreprise
Ça vous est sans doute déjà arrivé : en fouillant dans vos archives, vous retrouvez plusieurs anciennes bases de données qui ne vous ont pas servi depuis des années, et vous vous dites : « Je la garde, au cas où ». Voilà exactement le type de réaction à éviter !
Oups… 😨
Si chaque donnée paraît essentielle aux équipes métiers (qui veulent souvent tout garder !), déterminer une durée de vie à vos données fait partie de l’action de tri et de classification nécessaire à une bonne gouvernance. Sous peine d’être enseveli très rapidement par des millions de données inutiles !
Une donnée n’a souvent pas une fin de vie brutale, et sa disparition peut s’étaler dans le temps :
Elle est d’abord dans ce qu’on appelle la base active, et répond à une utilisation courante : elle est nécessaire à vos activités quotidiennes ;
Elle peut ensuite passer dans une phase d’archivage intermédiaire : la donnée ne vous est plus utile tous les jours, mais elle conserve encore un intérêt administratif pour votre société (gestion d’un éventuel contentieux, par exemple) ;
L’archivage définitif est une étape supplémentaire : parce qu’elle a une certaine valeur et un intérêt pour l’entreprise, la donnée peut être archivée de manière pérenne ou définitive ;
Enfin, la donnée peut être supprimée définitivement.
La suppression d’une donnée peut également prendre plusieurs formes. Par exemple, plutôt qu’une suppression sèche, on pourra préférer un processus d’anonymisation.
Un processus d’anonymisation ?
L'anonymisation d’une donnée personnelle est le fait, par la suppression d’autres informations ou par un degré de précision moindre, de rendre totalement impossible l’identification d’une personne.
Par exemple, l’information “David Dupond, 34 ans, est allé voir le dernier film Batman le 28 avril 2022 au Grand Rex” peut devenir… “une personne entre 30 et 35 ans est allée voir le dernier film Batman en avril 2022 à Paris”. Vous conservez une donnée intéressante (qui vous permettra notamment de faire des analyses statistiques), mais avez supprimé celles qui ne l’étaient plus !
À vous de jouer !
Remplissez ce tableau de la manière la plus exhaustive possible afin d’avoir une vision globale et complète des données que vous manipulez dans votre entreprise.
En résumé
Avant de se lancer véritablement dans la gouvernance de vos données, il est essentiel de savoir ce que vous avez dans les mains.
Il va falloir identifier le cycle de vie de vos données : comment arrivent-elles dans votre entreprise ? Comment en sortent-elles ? Et entre les deux, qu’en faites-vous ? Qui les utilise ? Comment ?
En plus d’identifier le cycle de vos données, il va falloir hiérarchiser vos données : quelles sont les données importantes, et quelles sont les données inutiles ?
Déterminez une durée de vie à toutes vos données entrantes : un jour il faudra vous en débarrasser, en l'anonymisant, par exemple.
Vous savez maintenant quel genre de données vous avez dans les mains ? Nous pouvons passer à la rédaction du plan d’action de gouvernance !