Après avoir estimé un modèle de régression linéaire, il faut ensuite analyser :
La significativité des paramètres : un modèle correct doit avoir des paramètres significatifs.
L'atypicité et l'influence éventuelle de certaines données : on pourra retirer les données atypiques et influentes.
Les éventuels problèmes de colinéarité.
Les éventuels problèmes d'hétéroscédasticité (quand la variance des résidus ne peut pas être considérée comme constante).
Dans le cas où plusieurs régresseurs sont disponibles, il faut choisir le meilleur modèle en utilisant un critère de choix et un algorithme de recherche.
Analysez l'atypicité des observations
Sur les variables explicatives :
Les termes diagonaux de sont appelés "leviers des observations" :
où
Belsey a proposé de considérer l'observation comme atypique si :Sur la variable à expliquer :
À partir des résidusOn considère les résidus studentisés pour évaluer si une observation est atypique. Une forte valeur de ces résidus caractérisera une observation atypique.
Pour , on définit les résidus studentisés internes par :
suit approximativement une loi de Student . En pratique, on utilise cette approximation lorsque .
Au niveau de test , on considère qu'une observation est si :On peut également procéder par validation croisée, en considérant les résidus studentisés dits externes : on calcule alors une erreur de prévision et plus d'ajustement ; on base les calculs sur observations pour prévoir la n-ième observation.
En pratique, on ne retire que les observations atypiques ET influentes. Le graphique suivant illustre les cas de figure de données atypiques (influentes ou non) dans le cadre de la régression linéaire simple.
Analysez l'influence des observations
La mesure de l'influence d'une observation s'effectue à l'aide de la distance de Cook qui mesure un écart entre et (calculs effectués sans la -ème observation).
La distance de Cook pour l'observation vaut :
Cook a proposé de considérer l'observation comme influente si :
Détectez les problèmes de colinéarité
Parlons maintenant du problème de colinéarité.
L'estimateur des MCO existe si toutes les variables sont non colinéaires entre elles, c'est-à-dire seulement si l'on peut trouver une variable qui peut s'exprimer comme une combinaison linéaire des autres (par exemple ). Dans ce cas, il n'existe pas de solution unique au problème.
Heureusement, la colinéarité est facile à détecter.
Cependant, il n'en est pas de même pour une colinéarité "presque" exacte. Dans ce cas, il y a deux manières de procéder :
utiliser des indicateurs comme le VIF ou le TOL (la définition est donnée juste après) ;
utiliser dans le modèle des coefficients appelés "indices de conditionnement", puis analyser une décomposition de la variance.
Si les colonnes de sont colinéaires, alors la matrice n'est pas de rang plein, ce qui conduit à une solution des MCO non unique.
La colinéarité exacte peut facilement s'éviter, contrairement à une colinéarité approchée.
Le facteur d'influence de la variance ou la tolérance
On effectue la régression de , pour sur les autres variables (dont la constante), et l'on calcule le coefficient de détermination .
Le facteur d'influence de la variance, noté VIF (Variance Inflation Factor), de la variable , , est défini par :
La tolérance, notée TOL, est définie comme l'inverse du facteur d'influence de la variance :
En pratique, une valeur ( ) indique un problème de colinéarité éventuel.
Analysez la structure des variables explicatives
On se place ici dans le cas d'une régression sans constante, ou dans le cas d'une régression avec constante pour laquelle on omet ce régresseur particulier.
On considère les valeurs propres de la matrice de corrélation des variables explicatives (à l'exception de la constante) ordonnées par ordre décroissant.
Les indices de conditionnement sont définis pour par :
Des valeurs élevées des indices de conditionnement traduisent la présence de colinéarité.
En pratique, une valeur indique un problème de colinéarité éventuel.
On cherche ensuite à déterminer les groupes de variables concernés. On calcule pour cela la proportion de variance du coefficient due à la variable explicative .
Voici les différents indices de conditionnement :
Valeurs propres |
|
|
|
|
|
|
| 1 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| ||
|
|
|
|
|
|
|
En pratique, il faut étudier les variables explicatives avec un élevé.
Pour cette variable , s'il existe au moins deux variables explicatives et telles que et soient élevés (supérieurs à 0.5, en pratique), alors un problème de colinéarité est suspecté entre ces variables.
Analysez l'homoscédasticité des résidus
On peut notamment étudier l'homoscédasticité des résidus, c'est-à-dire la constance de leur variance, en représentant graphiquement les résidus studentisés en fonction des valeurs ajustées. Un nuage avec une forme conique peut laisser présager un effet hétéroscédastique.
Vous avez analysé un certain nombre de vos résultats. Dans le prochain chapitre, vous verrez comment choisir le modèle qui répond le mieux à votre problématique.