3 semaines se sont écoulées depuis le lancement de votre projet ! Vous avez décrit les caractéristiques des données de commandes à exploiter pour votre projet, et vous savez comment vous allez construire la table pour mener à bien votre analyse. Mais en l’état, vos données sont encore une matière “brute” que vous devez collecter et nettoyer avant de réaliser votre analyse.
Collectez les données nécessaires pour le projet
Demandez les autorisations d’accès aux données
Heureusement, chez Omozone, la procédure est simple. II vous a suffi d’envoyer un mail au responsable SI pour demander l’accès à l’outil ERP, en lui précisant :
le projet sur lequel vous travaillez ;
le nom des tables auxquelles vous souhaitez accéder : gestion des stocks et commandes clients ;
les dates de fin et de début du projet.
Une fois votre accès validé, vous vous connectez à l’ERP. Cela vous donne un premier aperçu de la qualité des données.
Stockez les données pour les analyser
Impossible pour vous d’analyser les données directement dans l’ERP ! D’abord parce que cela risquerait d’endommager cet outil utilisé quotidiennement par l’entreprise. Ensuite, parce que la table qui va vous être utile pour résoudre votre problématique n’existe pas telle quelle dans l’ERP ! Par conséquent, vous devez télécharger les tables nécessaires en format CSV.
En fonction de l’ERP que vous utilisez, un bouton dédié dans l’interface utilisateur permet de réaliser cette opération.
Puis vous enregistrez ces fichiers CSV dans un dossier en local sur votre ordinateur.
Nettoyez les données pour répondre à la problématique
Bon, maintenant vous avez les données ! Mais avant de vous lancer dans l’analyse à proprement parler, il va falloir les nettoyer. Pour cela, vous avez deux étapes à suivre :
structurer les données ;
traiter les problèmes de qualité.
Structurez les données
Pour exploiter les deux fichiers CSV commandes.csv et details_commandes.csv, vous effectuez quelques transformations préalables :
supprimer les colonnes inutiles ;
changer le type de données pour certaines colonnes ;
joindre les tables.
Vous devez maintenant construire une nouvelle table, “historique_commandes”, à partir des deux tables “commandes” et “details_commandes”, pour consolider les informations de ventes par produit et par jour.
À l’issue de cette opération, vos données sont donc structurées. Cependant, vous constatez un problème dans la table historique_commandes : la case ID_produit de la commande 78540919 est vide. Aucun produit ne semble avoir été associé à la commande.
Pourtant, cette commande a bien des identifiants produits associés dans la table “details_commandes” :
ID_commande | ID_produit |
7854O919 | 567209 |
7854O919 | 567154 |
Vous regardez attentivement l’identifiant commande, et identifiez l’origine du problème. Dans la table ID_commande, c’est la lettre O qui est le cinquième caractère de l’identifiant commande, alors que dans la table “commande”, c’est un 0.
Vous vous renseignez auprès de vos collègues : il s’agit en réalité d’une faute de frappe. Cette commande a été saisie manuellement à la suite d’un bug informatique.
Calculez des indicateurs statistiques
Vous corrigez cette erreur de saisie et vous avez maintenant une table historique_commandes qui a l’air de tenir la route ! Mais vous avez un doute : est-ce que ces données contiennent bien toutes les commandes ?
C'est aussi un excellent moyen de créer une dynamique autour du projet, car un trop fort écart entre vos valeurs et ce qui est attendu par les équipes métier soulève forcément des questions : parle-t-on du même périmètre ? Y a-t-il eu des erreurs ou des oublis de saisie dans la base ?
Ainsi, vous calculez 3 ordres de grandeur pour vérifier que vous avez bien le périmètre de données pertinent pour mener votre analyse :
la moyenne journalière des commandes ;
le volume total des commandes sur l’année précédente ;
le volume de commandes pour le top 10 des produits sur l’année précédente.
Enfin, vous organisez une réunion avec l’équipe métier pour valider avec elle les ordres de grandeur.
Traitez les problèmes de qualité des données avec l’équipe métier
Lors de la réunion avec l’équipe métier, vous présentez les valeurs que vous avez déterminées :
Vous tombez sur 10 commandes par jour, et ce chiffre est confirmé : ouf, c’est rassurant !
Le volume total des commandes semble aussi cohérent.
Par contre, un des produits phares n’apparaît pas dans le top 10.
Vous évoquez le dernier point avec le responsable du système d'information. Le produit phare n’est plus vendu : la référence a été supprimée. Une erreur de manipulation a malheureusement conduit à la suppression de tout l’historique du produit…
D’un commun accord avec l’équipe métier, vous décidez d’exclure ce produit de l’analyse, et de poursuivre le projet.
Traiter les problèmes ne veut pas dire que vous pouvez tout corriger ! Cette étape doit être réalisée au cas par cas, il n’y a pas de règle absolue. L’essentiel est de trouver la meilleure solution avec les parties prenantes. À ce titre, exclure un élément du périmètre d’analyse initial est parfois la meilleure option…
En résumé
Pour préparer les données de votre projet :
Collectez les données nécessaires :
demandez les autorisations d’accès ;
connectez-vous aux outils contenant les données ;
récupérez et stockez les données.
Nettoyez les données pour répondre à la problématique :
structurez les données ;
calculez des indicateurs statistiques ;
traitez les incohérences et les problèmes de qualité des données en lien avec les équipes métier.
Voilà, vous êtes fin prêt pour passer à la prochaine et dernière étape : la conception de la solution !