• 15 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 12/11/2019

Soyez attentif aux spécificités de l'ACP

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Discutons un peu de l’ACP. C’est une méthode qui nécessite un peu d’entraînement et pour laquelle il faut être prudent, surtout au début. Je vous donne donc ici quelques points d’attention. Nous présenterons ensuite les inconvénients de cette méthode, et nous verrons comment y remédier.

Points d'attention

Voici quelques points sur lesquels il faut être prudent, surtout au début.

Il est fréquent d’être un peu perdu dans toutes ces flèches, ces points, les plans factoriels, les axes d’inertie, etc. Cela conduit parfois à des interprétations un peu incertaines ou erronées. Heureusement, vous avez toujours la possibilité de vérifier vos analyses en revenant aux données initiales.

Par exemple, si les variables d’un groupe vous semblent corrélées, alors calculez les coefficients de corrélation entre elles (ou la matrice de corrélation, c’est plus rapide), et vous en aurez le cœur net !

De même, si certains individus vous semblent similaires, car ils ont des abscisses ou des ordonnées à peu près égales sur un plan factoriel (par exemple F1 en abscisses et F2 en ordonnées), alors vérifiez-le sur vos données initiales. Par exemple, si ces individus ont des abscisses similaires, alors prenez les variables fortement corrélées à F1, et vérifiez si vos individus ont des valeurs semblables pour ces variables. Pour ne pas produire d’analyse erronée, essayez de ne pas sortir de ces 2 objectifs que nous avons rappelés tout du long :

  1. Étudier la variabilité des individus (leurs ressemblances et leurs différences).

  2. Étudier les liaisons entre variables, et trouver de nouvelles variables qui synthétisent les groupes de variables très liées.

Limites de l’ACP

Depuis le début, nous parlons de corrélations. Cependant, en ACP, nous sommes limités aux corrélations linéaires.

Comme l’ACP utilise ce coefficient $\(r\)$ , elle ne peut donc mesurer que les liaisons linéaires entre les variables. Pour passer outre ce problème, on peut utiliser l’ACP avec noyau, ou kernel PCA en anglais.

Le coefficient $\(r\)$ est très sensible aux outliers : c’est donc le cas aussi pour l’ACP. Avantage ou inconvénient ? Tout dépend de la situation, mais si vous affichez les plans factoriels, vous verrez très facilement les outliers : sur l’un des axes principaux (F1, F2, etc.), ils se distingueront beaucoup des autres.

En fait, nous en avons déjà parlé dans ce chapitre, quand nous parlions des contributions des individus à un axe. Nous avons dit que, parfois, un axe d’inertie n’était dû qu’à un petit groupe d’individus (ou même à un seul) : ce sont les outliers. Un individu situé très loin de tous les autres a tendance à « attirer » dans sa direction l’un des axes d’inertie (bien souvent le premier).
Si cet outlier (ou ce groupe d’outliers) ne présente pas d’intérêt dans votre analyse, alors il suffit de ne pas analyser l’axe auquel il contribue fortement, et de n’analyser que les autres.

La non-robustesse de l’ACP aux outliers n’est donc pas vraiment problématique. Au contraire, elle permet de détecter facilement les outliers, et qu’ils soient intéressants ou non, et de rapidement « passer à autre chose » sans avoir à relancer le calcul de l’ACP.

Autre inconvénient de l’ACP : elle ne se limite qu’aux variables quantitatives ! Heureusement, il existe d’autres méthodes factorielles permettant de remédier à cela, comme l'Analyse des Correspondances Multiples pour des variables qualitatives, ou l'Analyse Factorielle des Données Mixtes.

Exemple de certificat de réussite
Exemple de certificat de réussite