À vous de jouer !
Vous êtes consulté par une agence immobilière pour prédire les loyers des différents arrondissements de Paris, afin de les aider à prendre des décisions d'achat d'appartements.
Pour ce faire, vous allez améliorer le modèle de prédiction de loyer étudié dans un chapitre précédent, à l'aide d'une feature (variable) supplémentaire en entrée, pour obtenir un modèle plus performant.
Votre mission
Vous allez reprendre le code que vous avez appris à faire dans le chapitre Programmez votre première régression linéaire et tester plusieurs manières d'améliorer la modélisation à l'aide de cette nouvelle observation (= ce nouveau dataset).
Vous allez effectuer :
une séparation en training / testing set ;
deux propositions d'amélioration du modèle qui obtiennent de meilleures performances que la "baseline" (la régression linéaire avec une seule feature) ;
une sélection d'un modèle final à partir des performances.
Pour traiter la variable supplémentaire arrondissement, réfléchissez bien à la nature de cette variable et pensez à la traiter comme une variable catégorielle.
Vous pourrez, par exemple, vous inspirer de cette approche proposée sur stackoverflow.
À vos claviers !
Livrable
Un fichier python ou un notebook avec l'ensemble des tests effectués, ainsi que les outputs (images & graphes).
Pensez à bien inclure des explications sur les points d'attention dans les commentaires, ainsi que vos choix d'implémentation. Savoir communiquer ses résultats de façon claire fait partie intégrante du travail de data scientist, ne le négligez pas.