• 8 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 06/09/2022

Partie 2

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Compétences évaluées

  • Représenter un corpus textuel en bag-of-word
  • Effectuer des plongements de mots
  • Classifier des textes avec une LDA
  • Question 1

    Un plongement de mots (ou word embedding) permet de transformer un mot en un vecteur

    • dense

    • creux

    • ça dépend des cas

  • Question 2

    Quelle est la représentation bag-of-words du corpus de 3 documents suivants ? On représente chaque mot du vocabulaire dans leur ordre d'apparition et chaque ligne représente un document.

    {"Je suis à la maison", "La maison est dans la prairie", "Je suis à la plage"}

     

    •   [jesuisàlamaisonestdansprairieplagephrase 1011110000phrase 2112211100phrase 3001110001]

    • [jesuisàlamaisonestdansprairieplagephrase 1110111000phrase 2100112110phrase 3112100001]

    • [jesuisàlamaisonestdansprairieplagephrase 1111110000phrase 2000211110phrase 3111100001]

  • Question 3

    La matrice TF-IDF est définie pour chaque mot relativement à un corpus, comme le produit TF * IDF où:

    • TF = nombre de fois où le mot est dans le document / nombre de mots dans le document
    • IDF = nombre de documents / nombre de documents où apparaît le mot

    Considérons le mot "la" dans le corpus 

    {"Je suis à la maison", "La maison est dans la prairie", "Je suis à la plage"}

    Quelle est la bonne colonne dans la matrice TF-IDF pour ce mot

    • [laphrase 10.2phrase 20.3phrase 30.2]

    • [laphrase 10.2phrase 20.4phrase 30.1]

    • [laphrase 10.2phrase 23.3phrase 31.2]