• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 11/12/2023

Êtes-vous prêt à suivre ce cours ?

Bienvenue dans ce cours sur l’analyse exploratoire de données !

Il est composé de trois parties :

  • dans la première, nous comprendrons les enjeux de l’analyse exploratoire de données, et poserons ensemble les bases des 2 parties suivantes ;

  • la seconde partie vous apprendra à réaliser une ACP, ou analyse en composante principale, pour regrouper et réduire le nombre d’attributs d’une liste d’individus. Autrement dit, nous travaillerons sur les colonnes d’un dataframe ;

  • enfin, dans la dernière partie, nous aborderons les méthodes de clustering afin de rassembler des individus similaires au sein de différents groupes. En d'autres termes, nous travaillerons sur les lignes d’un dataframe.

Chaque partie se termine par un quiz et/ou un TP, qui vous permettra de vérifier si vous avez bien acquis les notions importantes, avant de passer à la partie suivante.

La plupart des chapitres sont composés d’un contenu texte, ainsi que d’une courte vidéo qui en résume les points les plus importants.

Prérequis

Ce cours fait partie du parcours Data Analyst. C’est la suite du cours sur les statistiques descriptives intitulé Nettoyez et analysez votre jeu de données. Il est vivement conseillé de le suivre ou de vérifier si vous connaissez bien les concepts qui y sont présentés, avant de vous lancer.

Quelle est la forme des données que nous allons utiliser ?

Pour commencer, remettons-nous rapidement en tête le vocabulaire que nous avons vu dans ce chapitre du cours de statistiques descriptives :

Nous souhaitons étudier une population composée d’individus. Ces individus ne sont pas forcément des personnes, mais peuvent être des objets, des animaux, des relevés effectués par des capteurs (relevés de température, par exemple), ou beaucoup d’autres choses !

Souvent, une population est difficile à étudier dans sa globalité (surtout quand elle contient un grand nombre d’individus, et qu’il est impossible de tous les observer). Pour cela, on extrait un échantillon de la population, c’est-à-dire que l’on sélectionne certains individus pour les étudier précisément. Étudier un individu, c’est observer ses caractéristiques : chaque caractéristique est décrite par une variable.

Ainsi, il est possible de stocker nos observations dans un tableau dans lequel chaque ligne représente un individu, et chaque colonne représente une variable.

Dans le cours précédent, par exemple, nous avons étudié des relevés bancaires : chaque individu (en ligne) est une opération bancaire, et chaque variable (en colonne) est une caractéristique de l’opération (comme sa date, son libellé, son montant, etc.) :

Prêt à vous lancer ? Alors on se retrouve au premier chapitre !

Exemple de certificat de réussite
Exemple de certificat de réussite