Partage
  • Partager sur Facebook
  • Partager sur Twitter

Télécharger RCV1 avec scikit-learn

Activité "Classifiez du texte"

Sujet résolu
    17 juillet 2019 à 18:51:00

    Bonjour,

    L'énoncé de la dernière activité du cours "Analysez vos données textuelles" demande de télécharger le dataset RCV1 avec le fonction suivante :

    from sklearn.datasets import fetch_rcv1
    rcv1 = fetch_rcv1()

    Mon notebook arrive bien à télécharger les données mais la fonction fetch_rcv1 fait ensuite appel à load_svmlight_files qui plante au parsage des fichiers décompressés (je vous mets la fin de la trace) :

    /usr/lib/python3/dist-packages/sklearn/datasets/svmlight_format.py in _open_and_load(f, dtype, multilabel, zero_based, query_id)
        154     if hasattr(f, "read"):
        155         actual_dtype, data, ind, indptr, labels, query = \
    --> 156             _load_svmlight_file(f, dtype, multilabel, zero_based, query_id)
        157     # XXX remove closing when Python 2.7+/3.1+ required
        158     else:
    
    sklearn/datasets/_svmlight_format.pyx in sklearn.datasets._svmlight_format._load_svmlight_file (sklearn/datasets/_svmlight_format.c:2552)()
    
    ValueError: could not convert string to float: b'.I'

    Et en effet, les fichiers n'ont pas l'air d'être au format svmlight décrit par scikit-learn. Voilà l'extrait du début d'un fichier :

    .I 2286
    .W
    recov recov recov recov excit excit bring mexic mexic mexic mexic mexic mexic mexic mexic mexic mexic market market market market market market market life emerg evident evident econom econom

    J'utilise scikit-learn 0.19. Je ne sais pas si la version est en cause mais de toute façon je ne peux pas le mettre à jour vers une version plus récente sans casser mon système Debian stable.

    Arrivez-vous à télécharger le dataset avec la version 0.21 ?

    Merci d'avance

    • Partager sur Facebook
    • Partager sur Twitter
      22 juillet 2019 à 9:54:14

      Debian vient de fournir une mise à jour incluant sklearn 0.20 : ça marche !

      Un peu étonnant mais c'est l'essentiel.

      • Partager sur Facebook
      • Partager sur Twitter

      Télécharger RCV1 avec scikit-learn

      × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
      • Editeur
      • Markdown