Après avoir estimé un modèle de régression linéaire, il faut ensuite analyser :
La significativité des paramètres : un modèle correct doit avoir des paramètres significatifs.
L'atypicité et l'influence éventuelle de certaines données : on pourra retirer les données atypiques et influentes.
Les éventuels problèmes de colinéarité.
Les éventuels problèmes d'hétéroscédasticité (quand la variance des résidus ne peut pas être considérée comme constante).
Dans le cas où plusieurs régresseurs sont disponibles, il faut choisir le meilleur modèle en utilisant un critère de choix et un algorithme de recherche.
Analysez l'atypicité des observations
Sur les variables explicatives :
Les termes diagonaux de H sont appelés "leviers des observations" : hii=X⊤i(X⊤X)−1Xi
où Xi=(xi1,…,xip)⊤
Belsey a proposé de considérer l'observation i comme atypique si :hii>2pnSur la variable à expliquer :
À partir des résidusei=yi−^yiOn considère les résidus studentisés pour évaluer si une observation est atypique. Une forte valeur de ces résidus caractérisera une observation atypique.
Pour i∈{1,…,n} , on définit les résidus studentisés internes par :
ri=ei√^Var(ei)=yi−^yiˆσ√1−hiiri suit approximativement une loi de Student T(n−p−1) . En pratique, on utilise cette approximation lorsque n−p−1>30 .
Au niveau de test α , on considère qu'une observation i est atypique si :|ri|>tn−p−1,1−α2On peut également procéder par validation croisée, en considérant les résidus studentisés dits externes : on calcule alors une erreur de prévision et plus d'ajustement ; on base les calculs sur n−1 observations pour prévoir la n-ième observation.
En pratique, on ne retire que les observations atypiques ET influentes. Le graphique suivant illustre les cas de figure de données atypiques (influentes ou non) dans le cadre de la régression linéaire simple.

Analysez l'influence des observations
La mesure de l'influence d'une observation s'effectue à l'aide de la distance de Cook qui mesure un écart entre ˆβ et ˆβ(−i) (calculs effectués sans la i -ème observation).
La distance de Cook pour l'observation i vaut :
Cook a proposé de considérer l'observation i comme influente si :
Détectez les problèmes de colinéarité
Parlons maintenant du problème de colinéarité.
L'estimateur des MCO existe si toutes les variables sont non colinéaires entre elles, c'est-à-dire seulement si l'on peut trouver une variable qui peut s'exprimer comme une combinaison linéaire des autres (par exemple Ne12=0.3 max03v+1.1 Ne9 ). Dans ce cas, il n'existe pas de solution unique au problème.
Heureusement, la colinéarité est facile à détecter.
Cependant, il n'en est pas de même pour une colinéarité "presque" exacte. Dans ce cas, il y a deux manières de procéder :
utiliser des indicateurs comme le VIF ou le TOL (la définition est donnée juste après) ;
utiliser dans le modèle des coefficients appelés "indices de conditionnement", puis analyser une décomposition de la variance.
Si les colonnes de X sont colinéaires, alors la matrice n'est pas de rang plein, ce qui conduit à une solution des MCO non unique.
La colinéarité exacte peut facilement s'éviter, contrairement à une colinéarité approchée.
Le facteur d'influence de la variance ou la tolérance
On effectue la régression de Xj , pour j∈{1,…,p} sur les p autres variables (dont la constante), et l'on calcule le coefficient de détermination R2j .
Le facteur d'influence de la variance, noté VIF (Variance Inflation Factor), de la variable Xj , j∈{1,…,p} , est défini par :
La tolérance, notée TOL, est définie comme l'inverse du facteur d'influence de la variance :
En pratique, une valeur VIFj>10 ( TOLj<0.1 ) indique un problème de colinéarité éventuel.
Analysez la structure des variables explicatives
On se place ici dans le cas d'une régression sans constante, ou dans le cas d'une régression avec constante pour laquelle on omet ce régresseur particulier.
On considère les p valeurs propres (λ1,…,λp) de la matrice de corrélation des variables explicatives (à l'exception de la constante) ordonnées par ordre décroissant.
Les indices de conditionnement sont définis pour j∈{1,…,p} par :
Des valeurs élevées des indices de conditionnement traduisent la présence de colinéarité.
En pratique, une valeur CIj>30 indique un problème de colinéarité éventuel.
On cherche ensuite à déterminer les groupes de variables concernés. On calcule pour cela la proportion πlk de variance du coefficient ˆβk due à la variable explicative Xℓ .
Voici les différents indices de conditionnement :
Valeurs propres | CI | Var(ˆβ1) | … | Var(ˆβk) | … | Var(ˆβp) |
λ1 | 1 | π11 | … | π1k | … | π1p |
⋮ | ⋮ | ⋮ |
| ⋮ |
| ⋮ |
λj | √λ1λj | πj1 | … | πjk | … | πjp |
⋮ | ⋮ | ⋮ |
| ⋮ |
| ⋮ |
λp | √λ1λp | πp1 | … | πpk | … | πpp |
En pratique, il faut étudier les variables explicatives Xj avec un CI élevé.
Pour cette variable Xj , s'il existe au moins deux variables explicatives Xk et Xk′ telles que πjk et πjk′ soient élevés (supérieurs à 0.5, en pratique), alors un problème de colinéarité est suspecté entre ces variables.
Analysez l'homoscédasticité des résidus
On peut notamment étudier l'homoscédasticité des résidus, c'est-à-dire la constance de leur variance, en représentant graphiquement les résidus studentisés en fonction des valeurs ajustées. Un nuage avec une forme conique peut laisser présager un effet hétéroscédastique.
Vous avez analysé un certain nombre de vos résultats. Dans le prochain chapitre, vous verrez comment choisir le modèle qui répond le mieux à votre problématique.