• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 11/12/2023

Soyez attentif aux spécificités de l'ACP

Discutons un peu de l’ACP. C’est une méthode qui nécessite un peu d’entraînement et pour laquelle il faut être prudent, surtout au début. Je vous donne donc ici quelques points d’attention. Nous présenterons ensuite les inconvénients de cette méthode, et nous verrons comment y remédier.

Points d'attention

Voici quelques points sur lesquels il faut être prudent, surtout au début.

Il est fréquent d’être un peu perdu dans toutes ces flèches, ces points, les plans factoriels, les axes d’inertie, etc. Cela conduit parfois à des interprétations un peu incertaines ou erronées. Heureusement, vous avez toujours la possibilité de vérifier vos analyses en revenant aux données initiales.

Par exemple, si les variables d’un groupe vous semblent corrélées, alors calculez les coefficients de corrélation entre elles (ou la matrice de corrélation, c’est plus rapide), et vous en aurez le cœur net !

De même, si certains individus vous semblent similaires, car ils ont des abscisses ou des ordonnées à peu près égales sur un plan factoriel (par exemple F1 en abscisse et F2 en ordonnée), alors vérifiez-le sur vos données initiales. Par exemple, si ces individus ont des abscisses similaires, alors prenez les variables fortement corrélées à F1, et vérifiez si vos individus ont des valeurs semblables pour ces variables. Pour ne pas produire d’analyse erronée, essayez de ne pas sortir de ces 2 objectifs que nous avons rappelés tout du long :

  1. Étudier la variabilité des individus (leurs ressemblances et leurs différences).

  2. Étudier les liaisons entre variables, et trouver de nouvelles variables qui synthétisent les groupes de variables très liées. 

Limites de l’ACP

Depuis le début, nous parlons de corrélations. Cependant, en ACP, nous sommes limités aux corrélations linéaires.

Comme l’ACP utilise ce coefficient r , elle ne peut donc mesurer que les liaisons linéaires entre les variables. Pour passer outre ce problème, on peut utiliser l’ACP avec noyau, ou kernel PCA en anglais.

Le coefficient r est très sensible aux outliers : c’est donc le cas aussi pour l’ACP. Avantage ou inconvénient ? Tout dépend de la situation, mais si vous affichez les plans factoriels, vous verrez très facilement les outliers : sur l’un des axes principaux (F1, F2, etc.), ils se distingueront beaucoup des autres.

En fait, nous en avons déjà parlé dans ce chapitre, quand nous parlions des contributions des individus à un axe. Nous avons dit que, parfois, un axe d’inertie n’était dû qu’à un petit groupe d’individus (ou même à un seul) : ce sont les outliers. Un individu situé très loin de tous les autres a tendance à « attirer » dans sa direction l’un des axes d’inertie (bien souvent le premier).

Si cet outlier (ou ce groupe d’outliers) ne présente pas d’intérêt dans votre analyse, alors il suffit de ne pas analyser l’axe auquel il contribue fortement, et de n’analyser que les autres.

La non-robustesse de l’ACP aux outliers n’est donc pas vraiment problématique. Au contraire, elle permet de détecter facilement les outliers, qu’ils soient intéressants ou non, et de rapidement « passer à autre chose » sans avoir à relancer le calcul de l’ACP.

Autre inconvénient de l’ACP : elle ne se limite qu’aux variables quantitatives ! Heureusement, il existe d’autres méthodes factorielles permettant de remédier à cela, comme :

Allez plus loin

Pour ceux qui veulent aller plus loin dans la compréhension du fonctionnement global de l'ACP , nous vous conseillons 3 vidéos de très bon niveau :

  • Une vidéo de Josh Starmer qui explique la PCA point par point : 

Vous trouverez sur sa chaîne d'autres vidéos intéressantes : vidéo 1vidéo 2,  vidéo 3. De façon générale, je ne peux que vous encourager au visionnage de ses vidéos :)

Cette vidéo fait partie d'une playlist que je ne peux que vous recommander ! 

Et pour ceux qui ne parlent pas anglais ?

Pour ceux qui ne parlent pas anglais, on peut citer une vidéo assez décalée (mais très pertinente) de la chaîne Stat'Apprendra, ou encore l'excellente série de vidéos de Francois Husson sur le sujet.

En résumé

  • Pratiquer l'ACP n'est pas aisé, il faut un peu d'entraînement.

  • Il est facile de se perdre dans les différentes analyses de variables ou d'individus.

  • Il est préférable d'analyser les plans factoriels les plus importants uniquement.

  • L'ACP est très sensible aux outliers.

  • Il est possible d'utiliser des versions alternatives de l'ACP, comme l'ACP à noyau.

  • L'ACP ne travaille que sur les variables quantitatives, à la différence de l'analyse en correspondances multiples.

Ça y est, vous avez réussi à terminer cette deuxième partie du cours. Un petit quiz avant de vous lancer dans la dernière partie, ça vous tente ? Suivez-moi ! 

Et si vous obteniez un diplôme OpenClassrooms ?
  • Formations jusqu’à 100 % financées
  • Date de début flexible
  • Projets professionnalisants
  • Mentorat individuel
Trouvez la formation et le financement faits pour vous
Exemple de certificat de réussite
Exemple de certificat de réussite