Préparez les données de votre projet

Votre proposition a été validée par la DRH. Vous avez convaincu, bravo !

Maintenant vous devez passer en mode action. Certains de vos collègues de l’équipe RH vous ont prévenu pendant la réunion que les données sur les parcours professionnels sont parfois disparates et même incomplètes… Allons jeter un coup d'œil sur ces données.

Collectez les données pour le projet

Les données qui nous intéressent sont stockées dans différents outils et gérées par différents services RH. Elles concernent les fiches de poste, les mobilités internes, les formations disponibles et les niveaux de salaire.

Ces données sont sensibles, car elles contiennent des informations personnelles sur les collaborateurs de Med-Soft. Avant d’y accéder, il nous fallait donc l’autorisation officielle de la DRH et des services concernés (vous l’avez obtenue lors de la dernière réunion).

La plupart de ces données proviennent de systèmes d’information RH (SIRH) qui nous permettent d’extraire directement des données sous un format Excel ou un format simple à utiliser pour les analyses : le format CSV.

Une fois ces extractions récupérées, il faut choisir un mode de stockage temporaire pour travailler :

  • En local, si vous travaillez sur votre poste avec Excel ou un outil similaire.

  • Dans le cloud, via des solutions sécurisées comme Onedrive ou Google Drive. Cette solution présente l’avantage de mieux sécuriser vos données qu’avec une copie locale (en cas de vol de votre ordinateur). De plus, elle vous permet de collaborer avec vos collègues à distance.

  • Sur une base de données relationnelle (ex. : PostgreSQL), si vous avez un projet collaboratif ou plus technique avec de nombreuses tables de données reliées entre elles.

Ce choix dépend de vos contraintes de sécurité, d’accès, et de la taille des jeux de données. Dans votre cas, travailler en local ou dans un cloud personnel sera largement suffisant pour vos besoins car vous travaillez seul, et avec une quantité de données limitée.

Suite à vos e-mails, vos collègues vous ont envoyé les fichiers suivants :

Vous avez observé plusieurs problématiques avec ces fichiers.

Source de données

Problématiques

Fiches de postes

Absence de fiche de poste pour le poste de Data Engineer.

Salaires et anciennetés

  • Intitulés de postes pas homogènes entre les individus (ex. : “Web dév” et “Web développeur”).

  • Absence du département d’appartenance (Data ou Développement Web).

  • Absence d’historique de carrière, seule l'ancienneté sur le poste est accessible.

Catalogue des formations

Pas de liens entre les formations et les emplois de Med-Soft.

Il y a du boulot avant de pouvoir analyser ces fichiers. Commençons par traiter le problème de la fiche de poste absente pour le rôle de Data Engineer. Cette fiche n’a malheureusement jamais été formellement rédigée chez Med-Soft, pourtant plusieurs collaborateurs occupent ce poste.

Qu’à cela ne tienne, en interrogeant un manager du département Data il vous indique que pour proposer un collaborateur sur ce poste il exige au moins 3 ans d’expérience professionnelle sur des projets liés aux données et qu’il ne recrute pas de junior. Cette information est utile pour créer la fiche de poste. 

En plus de cela, vous vous apercevez que les sources externes ne manquent pas pour construire une proposition que nous ferons relire par nos collègues RH et par les managers du département Data. 

Compétences et connaissances essentielles et optionnelles associées au métier de data engineer, incluant la gestion de données, les architectures IT et les outils d’analyse.0Pp6P65432mcwv3Yzyy98ItepixuMc-jYQB7rEbAwIbHYWKyT4pqfDZ5Syf7_csStyMuPrfoZdTT
Exemple de description de l’emploi de Data Engineer
Missions et qualités requises pour le métier de data engineer avec les principales formations universitaires menant à ce métier.
Description du métier de Data Engineer par Welcome To The Jungle

Nettoyez les données pour répondre à la problématique

Une fois nos données complétées, nous devons les transformer en tableaux propres, structurés et prêts à être analysés.

En général, on suit les étapes suivantes :

1. Structurez les données

  • Homogénéisez les formats : vérifiez que les dates sont toutes au même format (ex. : JJ/MM/AAAA), que les colonnes numériques sont bien des nombres et que les noms de postes sont cohérents (ex. : “Développeur front-end” et non pas “Dev Front”).

  • Supprimez les doublons : attention aux lignes en double, souvent générées lors d’exportations multiples ou de concaténations de fichiers.

  • Réorganisez les colonnes utiles : isolez les colonnes pertinentes pour votre analyse. Inutile de tout garder : concentrez-vous sur les données qui répondent aux questions clés de votre projet.

Par exemple, dans les données de Med-Soft, la table des salaires contient des dates d’embauche au format européen (“JJ-MM-AAAA”) pour l’année 2018 et au format américain (“AAAA-MM-JJ”) pour les autres années. Pour corriger cela, il faut imposer un type commun (l’un ou l’autre des formats) sur toute la colonne.

La colonne de dates comprend des formats divers.
Table à nettoyer
La colonne de dates n'utilise que le format européen (“JJ/MM/AAAA”).
Table nettoyée

2. Traitez les problèmes de qualité

  • Gérez les valeurs manquantes : remplacez-les par une valeur neutre (ex. : “Non renseigné”), calculez une moyenne ou une médiane pour les données numériques, ou supprimez la ligne si elle n’est pas exploitable.

  • Corrigez les erreurs de saisie : attention aux fautes de frappe, aux majuscules/minuscules, aux virgules mal placées…

3. Anonymisez les données

  • Retirer les données personnelles : souvent, afin de protéger le caractère sensible des informations que nous traitons en analyse des données RH, on préférera supprimer toutes les données qui permettent d’identifier précisément un individu. Par exemple, les colonnes noms et prénoms, sont-elles utiles pour notre analyse ? Si non, autant les supprimer pour minimiser les risques.

L’objectif n’est pas d’atteindre la perfection. Certaines incohérences resteront peut-être. Ce n’est pas grave. Le but est d’avoir des données suffisamment fiables pour réaliser une analyse pertinente.

À vous de jouer !

Contexte

C’est maintenant à votre tour de préparer les données ! Le fichier des fiches de postes n’a pas de description pour le poste de Data Engineer et le fichier extrait du SIRH avec des informations sur les salariés du service IT présente plusieurs défauts : 

  • Il y a un problème sur la colonne date d’embauche qui contient 2 formats différents.

  • Les intitulés de postes ne sont pas cohérents.

  • Il manque une colonne pour différencier les collaborateurs du département Data et ceux du département Développement Web.

Votre mission est de rendre ces fichiers propres et prêts à être analysés :

Table à nettoyer (fichier ci-dessous)
Table à nettoyer (fichier ci-dessous)

Consignes

  • Pour le fichier “Fiches de postes au format Excel” :

    • Créez une copie du fichier sur votre ordinateur. Si vous n’avez pas Excel, téléchargez le fichier et importer le dans Google Sheets.

    • Ajoutez une ligne pour décrire le poste de Data Engineer à l’aide d’un benchmark externe (ex. : ESCO ou autre ressource externe).

  • Pour le fichier “Salaires et anciennetés sur poste au format Excel” :

    • Créez une copie du fichier sur votre ordinateur. Si vous n’avez pas Excel, téléchargez le fichier et importer le dans Google Sheets.

    • Nettoyez le fichier d’extraction du SIRH à l’aide des outils à votre disposition (Excel, LibreOffice, ou Google Sheets).

      • Homogénéisez le format des dates d’embauches.

      • Homogénéisez les titres des intitulés de poste.

      • Ajoutez une colonne pour identifier le département d’appartenance des collaborateurs.

Livrable

Réalisez deux tables propres, contenant les informations structurées et prêtes à être analysées.

Ce corrigé vous donne les tableaux nettoyés, prêts à l’emploi.

En résumé

  • Le respect de la confidentialité est une obligation dès qu’on manipule des données RH.

  • Pour obtenir l’accès aux données RH pour vos projets il faut demander l’autorisation aux services concernés en informant sur les analyses que vous souhaitez réaliser.

  • Le choix du stockage des données est important, en utilisant votre cloud sécurisé d’entreprise vous protégez davantage vos données qu’avec une copie locale. De plus cela vous permet de collaborer avec vos collègues.

  • Souvent les données brutes ne peuvent pas être exploitées directement, elles doivent être nettoyées et structurées.

  • La préparation des données passe par deux grandes étapes : structuration (formats, colonnes) et nettoyage (valeurs incohérentes, erreurs).

  • Un fichier bien préparé permet d’éviter les erreurs d’analyse et de gagner du temps sur les prochaines étapes. 

Dans le prochain chapitre, vous allez analyser ces données et faire parler vos indicateurs RH. C’est là que le projet prend vie !

Ever considered an OpenClassrooms diploma?
  • Up to 100% of your training program funded
  • Flexible start date
  • Career-focused projects
  • Individual mentoring
Find the training program and funding option that suits you best