À vous de jouer
Vous allez effectuer une classification multiclasse comme vous l'avez vu dans le chapitre précédent.
Le jeu de données que vous allez utiliser est un dataset de feuilles d’arbres. L’objectif est de les catégoriser par espèce d’arbre à partir de leur caractéristiques. Vous pouvez télécharger le dataset à ce lien et le test-set. Par ailleurs, le dataset original se trouve ici : https://www.kaggle.com/c/leaf-classification/data
Votre Mission
Comme dit plus haut votre objectif sera de déterminer quelle est l’espèce de l’arbre à laquelle appartient la feuille.
Les caractéristiques extraites des images des feuilles sont essentiellement 3 vecteurs de dimension 64 (margin, shape & texture), dont la description du dataset détaillée se trouve ici : https://www.kaggle.com/c/leaf-classification/data
Utilisez bien l’ensemble des notions vues dans cette section (choix des hyperparamètres, régularisation) afin de pouvoir obtenir les meilleurs performances de classification possible.
Vous devrez donc :
Créer une baseline de performances avec le K-NN
Utiliser le SVM multiclasse avec différents paramètres et l’optimiser
Une critique et visualisation des performances des modèles sur ce jeu de données
Une sélection d’un modèle final à partir des performances
Vérifiez votre travail
Vérifiez que les éléments suivants sont présents :
Une baseline de performances avec l’algorithme du k-NN est présente ;
le SVM multiclasse est utilisé avec différents paramètres et optimisé à l’aide d’une cross validation sur C, loss & penalty ;
les visualisation et critiques des performances sont constructives et permettent de choisir le modèle optimal sans hésiter.