• 8 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 24/05/2024

Entraînez-vous à classifier du texte

À vous de jouer

Vous utiliserez les données « Reuters Corpus Volume » accessible directement dans scikit learn à l’aide de la fonction fetch_rcv1 qui contient 800,000 annonces de presses Reuters étiquetées manuellement. Votre objectif est de réaliser un benchmark de différents types de classifieurs afin de comparer les différentes performances sur ce type de problème.

Consigne

Vous devez réaliser les tâches suivantes :

  • Charger les données

  • Créer différents classifieurs (au moins 3)

  • Effectuer une validation croisée sur les différents classifieurs

  • Afficher les différentes performances

Le jeu de données est relativement lourd pour un travail en local, avec 650MB compressé de données. Il est conseillé de travailler sur un échantillon dans un premier temps pour s’assurer que tout fonctionne comme prévu pour ensuite traiter tout le jeu de données et obtenir les résultats finaux.

Vérifiez-bien que vous avez les éléments suivants :

  • Au moins 3 classifieurs différents ont été appliqués par validations croisées sur les données correctement, puis les performances ont été évaluées sur chacun.

Exemple de certificat de réussite
Exemple de certificat de réussite