À vous de jouer
Vous utiliserez les données « Reuters Corpus Volume » accessible directement dans scikit learn à l’aide de la fonction fetch_rcv1 qui contient 800,000 annonces de presses Reuters étiquetées manuellement. Votre objectif est de réaliser un benchmark de différents types de classifieurs afin de comparer les différentes performances sur ce type de problème.
Consigne
Vous devez réaliser les tâches suivantes :
Charger les données
Créer différents classifieurs (au moins 3)
Effectuer une validation croisée sur les différents classifieurs
Afficher les différentes performances
Le jeu de données est relativement lourd pour un travail en local, avec 650MB compressé de données. Il est conseillé de travailler sur un échantillon dans un premier temps pour s’assurer que tout fonctionne comme prévu pour ensuite traiter tout le jeu de données et obtenir les résultats finaux.
Vérifiez-bien que vous avez les éléments suivants :
Au moins 3 classifieurs différents ont été appliqués par validations croisées sur les données correctement, puis les performances ont été évaluées sur chacun.