À vous de jouer !
Votre mission
Dans cette activité, vous utiliserez la version régression du K-nn afin de prédire la qualité du vin. Vous évaluerez votre modèle à l’aide des méthodes étudiées dans cette partie pour optimiser votre algorithme et choisir les meilleurs hyper-paramètres (le nombre de voisins), à nouveau à l’aide d’une grid search, à implémenter vous même.
Objectif
Dans cette activité, vous devez optimiser l’erreur quadratique moyenne (Mean Squared Error, MSE). Vous pourrez observer le comportement de la MSE et la comparer à celui de R^2.
Vous comparerez les performances à l’aide d’une baseline naïve ainsi que les différentes heuristiques, comme effectué dans le TP précédent. Pour cela, vous utiliserez cette fois le second dataset (https://archive.ics.uci.edu/ml/machine-learning-databases/wine-quality/winequality-red.csv)
À l'issue de votre mission, vous aurez créé un classeur iPython où vous interpréterez les valeurs des différentes heuristiques utilisées ainsi que le choix final.
À vous de jouer !
Vérifiez votre travail
Vérifiez que les interprétations sont correctes :
La meilleure performance en validation croisée est bien obtenue pour la valeur de k choisie.
La performance est meilleure pour le modèle choisi que pour la baseline naïve.
Remarque : on s’attend à obtenir des performances proches pour différentes valeurs de k, et donc à ce que la valeur optimale de k soit différente pour différents étudiants (qui auront utilisé des folds différents).