• 8 hours
  • Medium

Free online content available in this course.

course.header.alt.is_certifying

Got it!

Last updated on 11/20/23

Collectez et nettoyez les données

Bravo ! Vous avez défini tous les éléments nécessaires à la réalisation de votre tableau de bord. Maintenant, vous allez mettre la main à la pâte ! Dans cette nouvelle partie, nous allons apprendre à utiliser le logiciel Tableau Public.

Collectez et observez les données que nous allons utiliser

C’est l’heure de commencer votre tableau de bord !

Vous recevez ce mail de lancement de la part de Sandrine :

J’ai demandé au service informatique que tu puisses avoir accès aux données.

J’ai aussi fait le point avec la personne garante du règlement RGPD chez nous. Comme tu es freelance, il y a des questions de confidentialité qu’il faut prendre en compte. 

Voici ce qu’elle préconise : 

  • dans un premier temps, nous ne pourrons pas te donner un accès à notre base de données entière car elle contient des données sensibles sur les identités des personnes ;

  • en plus de ces données liées à leur identité, il y a aussi la question de leurs trajets en vélo : étudier les trajets quotidiens de nos utilisatrices et utilisateurs permet de déterminer leurs lieux d’habitation et leurs lieux de travail. 

Ce que nous proposons donc, c’est de travailler plutôt sur des fichiers CSV extraits de notre base de données. Ces données sont formatées exactement de la même manière que dans notre base de données, mais nous y avons juste enlevé les infos sensibles.

Tu peux donc construire le tableau de bord à partir de ces fichiers. Et une fois que ce sera bon, on le connectera à la BDD, et ça devrait marcher.

Je te mets les fichiers CSV en pièces jointes.

C’est parfait ! Avec les fichiers CSV, vous avez tout ce qu’il vous faut. La seule différence avec la vraie BDD, c’est que les données ne s’actualiseront pas en temps réel, mais ça ne devrait pas poser de problème.

Jetons un coup d'œil aux fichiers. Il y en a 2.

Aperçu du fichier abonnements.csv
Aperçu du fichier abonnements.csv

Ici, nous avons des informations relatives aux personnes abonnées. Chaque ligne représente une personne abonnée. Pour chacune d’elle, nous avons :

  • son identifiant ;

  • la date de début d’abonnement ;

  • le type d’abonnement (il y a plusieurs offres, que nous détaillerons plus tard) ;

  • le tarif mensuel de l’abonnement en euros ;

  • l’âge de la personne abonnée.

Aperçu du fichier evenements.csv
Aperçu du fichier evenements.csv

Dans ce fichier, chaque ligne contient un événement. Un événement, c’est soit une arrivée d’un vélo sur une station, soit le départ d’un vélo.

Vous allez le voir, certaines informations ne seront disponibles que pour les arrivées de vélo, pas pour les départs.

Certains trajets sont réalisés par des personnes abonnées (dont nous avons l’identifiant), mais certains trajets sont réalisés par des personnes non abonnées. Ces dernières paient leur trajet à l’unité grâce aux automates de paiement situés sur chaque station.

Pour chaque événement, nous connaissons :

  • l‘identifiant de l’événement ;

  • la date et l’heure de l’événement (timestamp) ;

  • l’information “dernière donnée”, qui est soit VRAIE (True) soit FAUSSE (False) — pour un événement donné, “dernière donnée” est Vraie si l’événement en question est l’événement le plus récent enregistré pour cette station ;

  • l’identifiant de la station sur laquelle un vélo est arrivé/parti ;

  • d’autres infos relatives à la station : 

    • son nom ;

    • sa latitude/longitude ;

    • la capacité totale (le nombre de bornes, qu’elles soient libres ou occupées par un vélo) ;

    • le nombre de places libres ;

    • le nombre de vélos électriques garés en station APRÈS l’événement ;

    • le nombre de vélos mécaniques garés en station APRÈS l’événement ;

  • le type de vélo (vélo à assistance électrique ou vélo mécanique) ;

  • le type d’événement (arrivée ou départ de vélo) ;

  • la fréquence des départs de vélos (nombre de vélos partis de la station dans les 15min ayant précédé l’événement) ;

  • la fréquence d’arrivées (nombre de vélos arrivés sur la station dans les 15 min ayant précédé l’événement) ;

  • le tarif du trajet en euros — le plus souvent, le trajet est gratuit pour les personnes abonnées, à condition que leur trajet ne dépasse pas une certaine durée ; cette information n'est disponible que pour les arrivées de vélo, pas pour les départs ;

  • la durée du trajet effectué — cette information n’est présente que pour les arrivées de vélo, pas pour les départs ;

  • l’identifiant de la personne abonnée, lorsque le trajet est effectué par une personne abonnée — sinon, la cellule est laissée vide ;

  • le taux de remplissage de la station (calculé à partir de la capacité totale et du nombre de places libres).

Maintenant que nous avons découvert les fichiers que nous allons utiliser tout au long de ce cours, je vous invite à les importer dans le logiciel Tableau Public.

Avant ceci, il faut vous créer un profil Tableau Public. C’est entièrement gratuit, il n’y a besoin que d’une adresse mail : https://id.tableau.com/register .

Ensuite, rendez-vous sur la page d’accueil de Tableau Public : https://public.tableau.com .

Voyons comment importer les fichiers dans cette vidéo :

Dans cette vidéo, nous avons vu :

  • comment créer un projet avec Tableau Public : il faut se rendre sur votre profil Tableau Public et cliquer sur “Créer une visualisation” ;

  • comment importer le premier fichier dans Tableau Public : il suffit de sélectionner son emplacement sur votre ordinateur ;

  • comment importer un second fichier : il faut cliquer sur “Modifier la connexion” puis sélectionner le 2e fichier .

Appréhendez la structure du csv

La représentation des données sous forme de tableau comme nous venons de le voir est la forme la plus utilisée dans le monde de la data science. Alors, à ce stade, une petite pause vocabulaire s’impose afin de poser les bases pour la suite. ;)

Souvent, on appelle un tableau une table (jusqu’ici rien de bien compliqué !).

Sur une table, il y a des lignes et des colonnes.

Chaque ligne correspond à “un objet”, qui peut être de nature très variée. Dans nos fichiers CSV, une ligne correspond à un événement (arrivée/départ d’un vélo) dans l’un des fichiers, et à une personne abonnée dans l’autre.

Ces “objets” répertoriés par chacune des lignes de la table, on les appelle les unités d’observation (ou parfois les “unités statistiques” ou “individus” même s’il ne s’agit pas d’êtres humains).

À chaque visualisation que vous créerez, il sera toujours très important de savoir quelle unité d’observation vous souhaitez représenter : voulez-vous représenter des arrivées/départs de vélo ou bien des personnes abonnées ?

Quant aux colonnes de la table, elles contiennent les caractéristiques des unités d’observation : une colonne par caractéristique (exemple : la date de départ du vélo, le type de vélo, la station correspondante, etc.).

Ces caractéristiques sont appelées Variables. Nous allons en parler jusqu’à la fin du cours, donc retenez bien le terme !

Dans Tableau, ce sont les variables que vous allez manipuler : c’est à partir d’elles que vous allez créer vos graphiques.

Comme nous l’avons vu, bien connaître ce que représente une ligne de votre fichier est primordial : cela va déterminer votre unité statistique. Pour mieux appréhender cette notion, je vous conseille cette excellente vidéo.

Associez vos données avec les Relations et les Unions

Nos données sont donc séparées dans 2 tables.

C’est grave si elles sont séparées ?

C’est une question pertinente. En effet, pour certains graphiques du tableau de bord, au aura besoin de données présentes dans les 2 tables en même temps. Par exemple, si on veut un graphique indiquant l’âge moyen des personnes abonnées qui prennent le vélo en heure de pointe (entre 8h et 10h), alors on va avoir besoin de l’âge, stocké dans la table abonnements, et aussi de l’heure des trajets effectués, présente dans la table évènements.

Il va donc falloir faire un lien entre les lignes des abonnements qui correspondent aux lignes des événements. Par exemple, dans la table abonnements, il faudra faire correspondre la ligne de l’abonnement numéro 1439 aux trajets de la table événements réalisés par l’abonné 1439.

“C’est facile” me direz-vous : les 2 tables ont chacune une colonne “id_abo” qui donne le numéro d’abonnement. Il suffit de sélectionner et de regarder dans ces colonnes pour trouver les lignes qui correspondent !

Parfois, Tableau détectera automatiquement quelles colonnes permettent de mettre en relation les tables. Mais, parfois, il faudra rentrer cette information à la main !

Pour cela, on va mettre les 2 tables en relation, puis on va spécifier quelle(s) colonne(s) permettent de faire le lien :

Dans cette vidéo, nous avons vu :

  • comment mettre en relation 2 tables qui contiennent des informations liées ;

  • comment indiquer les colonnes qui permettent de faire le lien entre les informations des 2 tables.

Préparez vos données

Vous avez de la chance, un rapide coup d'œil aux fichiers CSV vous indique que les données sont relativement propres !

Comment cela ? Les données peuvent être “sales” ?

Oh que oui !

Voici quelques exemples de données “sales” :

  • des données qui ne sont pas toujours dans la même unité : ce serait le cas si la colonne “duree_trajet” du fichier “evenements” contenait à la fois des durées en minutes et des durées en heure ;

  • des données totalement aberrantes, par exemple : 

    • des durées de trajets négatives,

    • des durées de trajet supérieures à 24h,

    • un nombre de vélos garés supérieurs à la capacité totale de la station : 20 vélos garés sur une station ayant une capacité de 15 ;

  • des données manquantes : parfois, des données ne sont pas collectées ou même effacées à cause d’un bug informatique, de données mal saisies à la main par une personne humaine, etc. ;

  • … mais il y a encore beaucoup de cas de figure !

À vrai dire, la plupart du temps, quand vous récupérerez des données, il y aura du nettoyage à faire. On appelle ceci la phase de préparation des données. Ce n’est pas la partie la plus fun du travail, mais vous n’aurez pas le choix 🙁.

Au-delà du nettoyage, la préparation de données inclut aussi une phase de mise en forme des données. Dans la vidéo qui suit, nous verrons l’une de ces opérations : la création d’une nouvelle colonne à partir de colonnes existantes : nous allons calculer le nombre de places libres sur la station, que l’on va calculer grâce au calcul “places_libres = capacité_station - nb_velos_mecaniques - nb_velos_electriques” .

Résumé :

  • Après avoir chargé un fichier, il faut vérifier si les colonnes ont bien été interprétées par Tableau : Les nombres sont-ils bien reconnus comme tels ? Les dates sont-elles bien reconnues comme des données temporelles ? Etc.

  • Il est possible de créer de nouvelles colonnes (de nouveaux champs) à partir d’autres colonnes, par exemple grâce à une formule mathématique.

Et si vous pratiquiez à présent avec l’activité suivante ?

À vous de jouer

Contexte

Luc vous a envoyé en pièce jointe d’un mail un export de la base de données. Il y a 2 fichiers CSV, l’un donnant la liste des affichages des bannières publicitaires sur divers sites internets, et l’autre contenant les données des clientes et clients qui, suite à un affichage de bannière, ont cliqué puis ont souscrit à l’une des offres.

Consignes

  1. Téléchargez les 2 fichiers affichages_bannieres.csv et clientele.csv  ici, et analysez-les. 

  2. Importez-les dans Tableau.

  3. Réalisez l’éventuelle relation entre les 2 tables si nécessaire.

Corrigé

Pour importer les 2 fichiers, il faut aller sur l’onglet “source de données” et importer les 2 fichiers grâce au bouton “Nouvelle connexion”.

En analysant les 2 fichiers, on voit que dans chacun d’eux, il y a une colonne “cookie_id”, qui permet de faire le lien entre les 2 tables. Voici comment lier les 2 tables :

Lien entre les deux tables
Lien entre les deux tables

En résumé

  • Les données nécessaires à la réalisation du tableau de bord sont fournies sous la forme de fichiers CSV extraits de la base de données de l’entreprise.

  • Il y a deux fichiers CSV : "abonnements.csv", qui contient des informations sur les personnes abonnées, et "evenements.csv", qui contient des informations sur les événements liés aux vélos (arrivées et départs).

  • Un fichier CSV est un fichier structuré en colonnes et en lignes.

  • Les données sont séparées en deux tables, "abonnements" et "évènements", et il est nécessaire de faire un lien entre les lignes correspondantes dans les deux tables en utilisant la colonne "id_abo".

  • Parfois, il peut y avoir des problèmes de qualité des données, tels que des unités non cohérentes, des valeurs aberrantes, des données manquantes, etc. Une phase de nettoyage est donc nécessaire.

  • Tableau Public offre des possibilités limitées pour le nettoyage des données, et il est recommandé d'utiliser un logiciel spécifique tel que Tableau Prep pour la préparation des données.

Ça y est, nos données sont importées ! Au chapitre suivant, nous allons créer notre toute première visualisation de données !

Example of certificate of achievement
Example of certificate of achievement