Ca va faire bien environ 8 mois que j'apprends en autodidacte (livres, vidéos, exercices sur internet, blog) la data en vue d'une reconversion (chef de projet IT vers data).
J'aimerais m'entrainer à présent sur des cas plus concret et m'appuyer sur les données disponibles par data gouv pour préparer la donnée, la nettoyer, gérer les jointures avec plusieurs sources etc. pour ensuite avoir une sorte de dataset propre pour essayer de produire des analyses suivants mes besoins.
Ent fait, je ne sais pas trop comment m'y prendre et j'ai pas envie de faire n'importe comment. J'aimerais suivre un process tiré le plus possible de la vie professionnelle pour bien apprendre.
L'idée est que j'ai en ma disposition plusieurs sources de données issues de data gouv autour du sujet des logements en France. Dans le cadre de ce projet perso, j'aimerais sortir de nombreux KPIs autour du logement en France. J'aimerais pouvoir en sortir un dataset clair pour manipuler la donnée et extraire des tableau de bord.
Quel est selon vous le process à suivre et quels sont les outils que vous me recommandez ?
J'ai déja étudié la question tout seul voici ce que j'ai trouvé :
1. Comprendre les données de chaque source 2. Nettoyer ces données avec python pandas 3. Identifier les jointures entre les sources avec python pandas ou Talend 4. Transférer ces données dans une base comme SQLlite 5. Réaliser du requetage avec PowerBI et SQL pour sortir les résultats
Merci beaucoup par avance pour votre aide, j'espère que ma demande n'est pas trop confus...