• 12 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 23/12/2019

Pratiquez les bases de l'apprentissage statistique

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

À vous de jouer !

L'objectif est de mettre en oeuvre quelques méthodes de machine learning sur des données réelles en utilisant Scikit-Learn. Deux missions vous sont soumises : réaliser une régression linéaire, réaliser une classification.

Mission 1 : réalisez la régression linéaire

Il faut élaborer un modèle linéaire de prédiction du nombre de locations de vélos, à partir d'informations exogènes comme la température, l'humidité, le nombre d'abonnés, la vitesse du vent, etc. Les données à utiliser sont disponibles ici. Les tâches à réaliser sont les suivantes :

  • charger les données sous Python, identifier la variable de sortie et les entrées,

  • faire une analyse statistique des données,

  • élaborer un modèle de régression linéaire multiple,

  • sélectionner les variables utiles en testant la régularisation ridge puis lasso,

  • évaluer les performances de chacun des modèles et commenter les résultats obtenus.

Vous avez à votre disposition un squelette de programme Python à compléter pour réaliser la mission.

Notebook Python Mission 1

Mission 2 : réalisez la classification de données biologiques

L'objectif est de mettre en œuvre un modèle de classification multiclasse. Le problème à résoudre consiste à identifier automatiquement l'activité d'une personne (marche,  montée escaliers, descente escaliers, assis, debout, couché) à partir de données enregistrées par l'accéléromètre du téléphone. Les données sont téléchargeables ici ; des détails sur les variables et le protocole d'acquisition sont exposées ici. Les tâches à réaliser sont les suivantes :

  • charger les données sous Python,

  • faire tourner et commenter le squelette de code qui vous est fourni,

  • élaborer un modèle SVM linéaire et un SVM non-linéaire (avec noyau gaussien), en détaillant la procédure de sélection du meilleur modèle,

  • évaluez les performances de généralisation de chaque modèle,

  • commentez les résultats.

Comme pour la mission 1, vous avez un squelette de programme à compléter avec les tâches à réaliser.

Notebook Python Mission 2

Vérifiez bien que vous avez les éléments suivants :

  • Pour chaque mission il faut rendre un notebook Python incluant votre code, les résultats d'exécution du code et les commentaires des résultats.

  • Toutes fonctions utiles que vous avez développées pour la réalisation d'une mission doivent être jointes (soit dans le notebook, soit dans des fichiers joints, soit en indiquant comment importer ces fonctions si elles sont dans une librairie externe).

Vérifiez votre travail

  • Les données d'apprentissage sont normalisées avant l'élaboration du modèle de prédiction.

  • La sélection des hyper-paramètres a été faite sur des données de validation ou par validation croisée (et non pas sur le jeu d'apprentissage, ni de test).

  • Les données de test sont normalisées en utilisant les paramètres ayant servi à normaliser les données d'apprentissage.

  • Les performances finales du modèle sont calculées sur les données de test.

  • L'analyse des résultats obtenus est faite.

Exemple de certificat de réussite
Exemple de certificat de réussite