• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 12/11/2019

Téléchargez les jeux de données analysés dans ce cours

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Nous illustrerons les chapitres qui suivent à l’aide de 3 jeux de données.

Échantillon n°1 : Les cours OpenClassrooms que vous avez suivis

Nous allons utiliser des données que vous connaissez bien : les cours OpenClassrooms que vous avez suivis. La liste de ceux-ci est disponible sur votre page d'accueil : https://openclassrooms.com/dashboard

À l'aide du code Javascript donné ci-dessous, vous allez télécharger les données au format CSV.

Dans cet échantillon, chaque individu est un cours que vous avez suivi. Voici le détail des variables :

  • titreCours : le titre du cours.

  • idCours : l'identifiant du cours.

  • inscription : nombre de jours écoulés depuis votre inscription au cours.

  • progression : votre progression sur le cours (en pourcentage).

  • moyenneDeClasse : moyenne de la classe aux évaluations (en pourcentage).

  • duree : durée estimée du cours (en heures).

  • difficulte : difficulté estimée du cours (1 : facile... 3 : difficile).

  • nbChapitres : nombre de chapitres.

  • nbEvaluations : nombre d'évaluations dans le cours (comprend les quiz et les activités).

  • ratioQuizEvaluation : proportion de quiz par rapport au nombre total d'évaluations (nombre d'évaluations : nombre de quiz + nombre d'activités).

     

À partir de votre navigateur web (Firefox, Chrome, Safari, Edge, ou autre), rendez-vous sur cette page : https://openclassrooms.com/dashboard. Vous devriez y voir la liste des cours que vous avez suivis. Cela devrait ressembler à ceci :

Ensuite, tout en restant sur cette page d'accueil, ouvrez la console du navigateur. En général, il suffit d'appuyer sur la touche F12 pour qu'elle apparaisse en bas de l'écran.

La console du navigateur vous permet d’exécuter du code Javascript. Copiez-collez-y le code présent dans le fichier extract_my_courses.js présent sur le git du cours.

Après quelques secondes d’exécution, une page blanche devrait s'afficher, vous proposant de télécharger un fichier CSV. Téléchargez-le, et retenez l'endroit où vous l'enregistrez sur votre ordinateur. Il devrait ressembler à cela :

Échantillon n°2 : Le texte de cours OpenClassrooms

Le second provient de la plateforme OpenClassrooms. J’ai tout simplement récupéré le texte de différents cours.

Plus précisément, j'ai récupéré les cours de 12 parcours de formation. Un parcours (ex. : le parcours Data Analyst) est composé de plusieurs cours.

Voici la liste de ces parcours, qui est détaillée plus en détail dans le fichier courses_info.csv :

  • Thématique Data :

    • Parcours Data Analyst

    • Parcours Data Architect

    • Parcours Data Scientist

  • Thématique Développement :

    •  Développeur·se d'application - Python

    •  Développeur·se web junior

    • Développeur·se d'application - PHP / Symfony

  • Thématique Marketing :

    • Community manager

    • Responsable marketing opérationnel et communication

    • Expert·e en stratégie marketing et communication

  • Thématique Ressources Humaines :

    • Gestionnaire de paie

    • Manager ressources humaines

    • Chargé·e de gestion des ressources humaines

Dans tous ces textes, nous nous intéresserons aux mots qui les composent.

Mais comment représenter des textes au format dont nous avons l’habitude, c’est-à-dire un tableau avec des lignes et des colonnes ?

En utilisant l’approche « sac de mots », ou « bag of words » en anglais. Elle consiste à représenter les textes en un tableau dans lequel chaque ligne correspond à un texte, et chaque colonne correspond à un mot. Dans chaque case, on indique l’effectif ou la fréquence du mot en question dans le texte. Par exemple, prenons ces 3 textes :

J’aime les statistiques. Surtout les statistiques inférentielles.
J’aime le chocolat noir.
Bonjour !

La représentation en bag of words sera la suivante, en représentant les effectifs des mots :

 

j

aime

les

statistiques

surtout

inférentielles

le

chocolat

noir

bonjour

texte 1

1

1

2

2

1

1

000

0

texte 2

1

1

0000

1

1

1

0

texte 3

000000000

1

Pour avoir la représentation avec les fréquences des mots, il faut diviser chaque nombre par le nombre total de mots que contient le texte. Par exemple, la fréquence de « statistiques » dans le texte 1 est de 2/8 = 0,25.

Voici un aperçu du jeu de données bag_of_words.csv, avec les fréquences des mots :

Ce jeu de données contient 9 343 variables (soit 9 343 colonnes) et 105 individus (correspondant aux 105 cours).

Échantillon n°3 : surprise !

Pour le 3e échantillon… j’ai envie de vous laisser la surprise pour plus tard ! Je ne vous dis pas à quoi il correspond. Je vous dis juste qu’il est composé de 5 000 individus et de 3 variables qualitatives, que nous appellerons x, y et z.

Voici juste deux indices, les graphiques de dispersion de :

  • x et y :

  • x et z :

Exemple de certificat de réussite
Exemple de certificat de réussite