Statistiques exploratoires multidimensionnelles
Comme nous l’avons vu dans un cours précédent, le domaine des statistiques est vaste ! Alors où nous situons-nous dans ce cours d'analyse exploratoire ?
Le cours Nettoyez et analysez votre jeu de données traitait déjà de statistiques descriptives. Comme leur nom l’indique, les statistiques descriptives ont pour vocation à décrire des données, c’est tout.
En statistiques descriptives, on étudie un échantillon, c’est-à-dire une proportion plus ou moins grande (souvent même assez petite) d’une population totale.
Analyse exploratoire multidimensionnelle
Le terme d’analyse exploratoire vous évoque peut-être les explorateurs tels Indiana Jones ou Christophe Colomb partant explorer des territoires inconnus. Mais ici, « exploratoire » sera juste synonyme de « descriptif ».
Que signifie le terme multidimensionnel ?
Quand on fait une analyse unidimensionnelle, on étudie les variables une par une, séparément. C'est ce que vous avez vu dans les 2 premières parties de ce cours. Dans la 3e partie, nous avons étudié les relations entre 2 variables, grâce notamment au concept de corrélation. Là, il s'agissait d'analyse multidimensionnelle, mais on se limitait à 2 variables à la fois.
Ici, on ira donc plus loin : on étudiera les relations entre plus de 2 variables à la fois !
Et c’est ici qu’il faudra réveiller votre âme d’explorateur ! En effet, vous partirez à la découverte d'espaces inexplorés, des espaces que le cerveau de l’homme ne peut même pas appréhender, car ce sont des espaces qui possèdent souvent plus de 3 dimensions…
Eh oui ! Sur un papier ou sur un écran, c’est encore facile de faire un graphique à 2 dimensions : avec 2 axes, un horizontal et un vertical. En 3 dimensions, on ajoute la profondeur. Là, on peut encore s’arranger avec des écrans 3D, ou faire une maquette avec des balles de ping-pong pour représenter les points. Mais dès que l’on passe à 4 dimensions, le cerveau humain n’est plus capable de se représenter cet espace, car nous vivons tous dans un espace à 3 dimensions spatiales.
Quel est l'intérêt d'une étude multidimensionnelle ?
La réponse est simple : on voit beaucoup plus de choses quand on étudie les relations entre les variables que quand on étudie les variables séparément (une à une).
Prenons quelques exemples :
Premier exemple
Supposons un échantillon décrit par 2 variables quantitatives. Peu importe ce qu'elles représentent, nous les appellerons donc simplement x et y.
Si l'on commence par une analyse monodimensionnelle (ou univariée), il nous est possible de représenter chaque individu par un point le long d'un axe : c'est un graphique à 1 dimension. Voici celui de la variable x :
Et celui de la variable y :
Maintenant, passons à une analyse bivariée, avec un graphique de dispersion sur lequel nous représentons les variables x et y :
Tout à coup, on peut voir une chose que l'on ne voyait pas avant : les individus sont séparés en 2 groupes bien distincts ! Ceci, nous n'étions pas capables de le voir en analyse univariée !
Deuxième exemple : un questionnaire de satisfaction
Nous demandons aux étudiants qui suivent ce cours s'ils sont satisfaits, à travers 5 critères sur lesquels ils doivent se positionner sur une échelle de 1 à 5, 1 correspondant à "très insatisfait" et 5 à "très satisfait". Voici ces 5 critères :
Clarté du cours écrit.
Fluidité de la lecture du cours écrit.
Les exemples du cours écrit sont-ils faciles à comprendre ?
Clarté des vidéos.
Êtes-vous satisfait du rasage du professeur dans la vidéo ?
8 étudiants ont répondu :
| critère 1 | critère 2 | critère 3 | critère 4 | critère 5 |
individu 1 | 3 | 3 | 3 | 5 | 5 |
ind. 2 | 2 | 3 | 2 | 5 | 4 |
ind. 3 | 2 | 3 | 3 | 4 | 5 |
ind. 4 | 1 | 1 | 1 | 1 | 1 |
ind. 5 | 5 | 5 | 4 | 3 | 3 |
ind. 6 | 4 | 5 | 5 | 2 | 3 |
ind. 7 | 5 | 5 | 5 | 3 | 3 |
ind. 8 | 1 | 1 | 1 | 1 | 1 |
moyenne | 2.875 | 3.25 | 3 | 3 | 3.125 |
Si vous regardez les moyennes pour chaque critère, vous faites une analyse univariée, car vous étudiez chaque variable (chaque colonne) une à une. Cela nous amène à penser que les étudiants ont globalement un niveau de satisfaction qui tourne autour de 3, et ce quel que soit le critère.
Mais ce qui nous intéresse ici, c'est le profil des étudiants : leur profil, c'est l'ensemble de leurs 5 réponses. Ici, un étudiant, c'est un « paquet » de 5 valeurs (on dit plutôt un vecteur de dimension 5). Comme c'est le profil des étudiants qui nous intéresse, on ne peut pas se contenter d'étudier chaque variable séparément, il faut étudier les paquets de 5 valeurs qui caractérisent les étudiants.
Ainsi, on voit par exemple que 2 étudiants ont répondu « 1 » à tous les critères (les individus 4 et 8). C'est un phénomène classique : à chaque fois que l'on propose un questionnaire de satisfaction, certaines personnes souhaitant exprimer leur mécontentement répondent « très insatisfait » (ou l'inverse) à toutes les questions, sans trop regarder l'intitulé de celles-ci.
Ce phénomène, nous ne sommes pas capables de le détecter en analyse univariée (nous ne l'avons pas vu en étudiant la moyenne par colonne, par exemple). À vous de décider ensuite si vous souhaitez garder ces individus « revendicatifs » pour la suite des traitements statistiques.
Nous ne pouvons pas repérer d'autre information en analyse univariée. Hormis les « revendicatifs », il existe 2 groupes bien distincts de personnes : celles qui sont très satisfaites des vidéos, mais moyennement du texte (individus 1, 2 et 3), et celles qui sont au contraire très satisfaites du texte, mais moyennement des vidéos (individus 5, 6 et 7).
En résumé
Contrairement à l'analyse univariée, l'analyse multidimensionnelle permet d'étudier les liens entre plusieurs variables et/ou plusieurs individus.
Même si cette approche peut sembler plus complexe et moins intuitive, elle permet d'accéder à une compréhension beaucoup plus forte des données qu'en analyse univariée.
Cela permet par exemple de mettre en lumière des groupes d'individus similaires ou des groupes de variables qui sont liées les unes aux autres.
Dans le 1er cas on travaille sur les lignes d'un dataframe, dans le 2e sur les colonnes.
Maintenant que vous comprenez l'intérêt d'une analyse multidimensionnelle, suivez-moi au prochain chapitre !