8 heures
- Moyenne
Ce cours est visible gratuitement en ligne.
course.header.alt.is_video
course.header.alt.is_certifying
J'ai tout compris !Mis à jour le 06/09/2022
Partie 2
Compétences évaluées
- Représenter un corpus textuel en bag-of-word
- Effectuer des plongements de mots
- Classifier des textes avec une LDA
Question 1
Un plongement de mots (ou word embedding) permet de transformer un mot en un vecteur
dense
creux
ça dépend des cas
Question 2
Quelle est la représentation bag-of-words du corpus de 3 documents suivants ? On représente chaque mot du vocabulaire dans leur ordre d'apparition et chaque ligne représente un document.
{"Je suis à la maison", "La maison est dans la prairie", "Je suis à la plage"}
[jesuisàlamaisonestdansprairieplagephrase 1011110000phrase 2112211100phrase 3001110001]
[jesuisàlamaisonestdansprairieplagephrase 1110111000phrase 2100112110phrase 3112100001]
[jesuisàlamaisonestdansprairieplagephrase 1111110000phrase 2000211110phrase 3111100001]
Question 3
La matrice TF-IDF est définie pour chaque mot relativement à un corpus, comme le produit TF * IDF où:
- TF = nombre de fois où le mot est dans le document / nombre de mots dans le document
- IDF = nombre de documents / nombre de documents où apparaît le mot
Considérons le mot "la" dans le corpus
{"Je suis à la maison", "La maison est dans la prairie", "Je suis à la plage"}
Quelle est la bonne colonne dans la matrice TF-IDF pour ce mot
[⋯la⋯phrase 1⋯0.2⋯phrase 2⋯0.3⋯phrase 3⋯0.2⋯]
[⋯la⋯phrase 1⋯0.2⋯phrase 2⋯0.4⋯phrase 3⋯0.1⋯]
[⋯la⋯phrase 1⋯0.2⋯phrase 2⋯3.3⋯phrase 3⋯−1.2⋯]
- Formations jusqu’à 100 % financées
- Date de début flexible
- Projets professionnalisants
- Mentorat individuel