Evaluez les performances d'un modele de machine learning

10 heures
Moyenne

Licence

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 06/02/2024

Entraînez-vous : sélectionnez le nombre de voisins dans un kNN pour une régression

À vous de jouer !

Votre mission

Dans cette activité, vous utiliserez la version régression du K-nn afin de prédire la qualité du vin. Vous évaluerez votre modèle à l’aide des méthodes étudiées dans cette partie pour optimiser votre algorithme et choisir les meilleurs hyper-paramètres (le nombre de voisins), à nouveau à l’aide d’une grid search, à implémenter vous même.

Objectif

Dans cette activité, vous devez optimiser l’erreur quadratique moyenne (Mean Squared Error, MSE). Vous pourrez observer le comportement de la MSE et la comparer à celui de R^2.

Vous comparerez les performances à l’aide d’une baseline naïve ainsi que les différentes heuristiques, comme effectué dans le TP précédent. Pour cela, vous utiliserez cette fois le second dataset (https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv)

À l'issue de votre mission, vous aurez créé un classeur iPython où vous interpréterez les valeurs des différentes heuristiques utilisées ainsi que le choix final.

À vous de jouer !

Vérifiez votre travail

Vérifiez que les interprétations sont correctes :

La meilleure performance en validation croisée est bien obtenue pour la valeur de k choisie.
La performance est meilleure pour le modèle choisi que pour la baseline naïve.
Remarque : on s’attend à obtenir des performances proches pour différentes valeurs de k, et donc à ce que la valeur optimale de k soit différente pour différents étudiants (qui auront utilisé des folds différents).