• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 14/02/2020

Analysez les résultats

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Après avoir estimé un modèle de régression linéaire, il faut ensuite analyser :

  • La significativité des paramètres : un modèle correct doit avoir des paramètres significatifs.

  • L'atypicité et l'influence éventuelle de certaines données : on pourra retirer les données atypiques et influentes.

  • Les éventuels problèmes de colinéarité.

  • Les éventuels problèmes d'hétéroscédasticité (quand la variance des résidus ne peut pas être considérée comme constante).

Dans le cas où plusieurs régresseurs sont disponibles, il faut choisir le meilleur modèle en utilisant un critère de choix et un algorithme de recherche.

Analysez l'atypicité des observations

  • Sur les variables explicatives :
    Les termes diagonaux de H sont appelés "leviers des observations" : hii=Xi(XX)1Xi
    Xi=(xi1,,xip)
    Belsey a proposé de considérer l'observation i comme atypique si :

    hii>2pn
  • Sur la variable à expliquer :
    À partir des résidus 

    ei=yi^yi

    On considère les résidus studentisés pour évaluer si une observation est atypique. Une forte valeur de ces résidus caractérisera une observation atypique.
    Pour i{1,,n} , on définit les résidus studentisés internes par :
     

    ri=ei^Var(ei)=yi^yiˆσ1hii

     ri suit approximativement une loi de Student T(np1) . En pratique, on utilise cette approximation lorsque np1>30 .
    Au niveau de test α , on considère qu'une observation i est atypique si :

    |ri|>tnp1,1α2

    On peut également procéder par validation croisée, en considérant les résidus studentisés dits externes : on calcule alors une erreur de prévision et plus d'ajustement ; on base les calculs sur n1 observations pour prévoir la n-ième observation.

     

En pratique, on ne retire que les observations atypiques ET influentes. Le graphique suivant illustre les cas de figure de données atypiques (influentes ou non) dans le cadre de la régression linéaire simple.

Figure 3.1 : Influence de données atypiques
Influence de données atypiques

Analysez l'influence des observations

La mesure de l'influence d'une observation s'effectue à l'aide de la distance de Cook qui mesure un écart entre ˆβ et ˆβ(i) (calculs effectués sans la i -ème observation).

La distance de Cook pour l'observation i vaut :

Di=1p(ˆβˆβ(i))XX(ˆβˆβ(i))ˆσ2

Cook a proposé de considérer l'observation i comme influente si : 

Di>4np

Détectez les problèmes de colinéarité

Parlons maintenant du problème de colinéarité.

L'estimateur des MCO existe si toutes les variables sont non colinéaires entre elles, c'est-à-dire seulement si l'on peut trouver une variable qui peut s'exprimer comme une combinaison linéaire des autres (par exemple Ne12=0.3 max03v+1.1 Ne9 ). Dans ce cas, il n'existe pas de solution unique au problème.

Heureusement, la colinéarité est facile à détecter.

Cependant, il n'en est pas de même pour une colinéarité "presque" exacte. Dans ce cas, il y a deux manières de procéder :

  • utiliser des indicateurs comme le VIF ou le TOL (la définition est donnée juste après) ;

  • utiliser dans le modèle des coefficients appelés "indices de conditionnement", puis analyser une décomposition de la variance.

Si les colonnes de X sont colinéaires, alors la matrice n'est pas de rang plein, ce qui conduit à une solution des MCO non unique.

La colinéarité exacte peut facilement s'éviter, contrairement à une colinéarité approchée.

Le facteur d'influence de la variance ou la tolérance

On effectue la régression de Xj , pour j{1,,p} sur les p autres variables (dont la constante), et l'on calcule le coefficient de détermination R2j .
Le facteur d'influence de la variance, noté VIF (Variance Inflation Factor), de la variable Xj , j{1,,p} , est défini par :

VIFj=11R2j

La tolérance, notée TOL, est définie comme l'inverse du facteur d'influence de la variance :

TOLj=1VIFj

En pratique, une valeur VIFj>10 ( TOLj<0.1 ) indique un problème de colinéarité éventuel.

Analysez la structure des variables explicatives

On se place ici dans le cas d'une régression sans constante, ou dans le cas d'une régression avec constante pour laquelle on omet ce régresseur particulier.
On considère les p valeurs propres (λ1,,λp) de la matrice de corrélation des variables explicatives (à l'exception de la constante) ordonnées par ordre décroissant.
Les indices de conditionnement sont définis pour j{1,,p} par : 

CIj=λ1λj

Des valeurs élevées des indices de conditionnement traduisent la présence de colinéarité.
En pratique, une valeur CIj>30 indique un problème de colinéarité éventuel.
On cherche ensuite à déterminer les groupes de variables concernés. On calcule pour cela la proportion πlk de variance du coefficient ˆβk due à la variable explicative X .

Voici les différents indices de conditionnement :

Valeurs propres

 CI

 Var(ˆβ1)

 

 Var(ˆβk)

 

 Var(ˆβp)

 λ1

1

 π11

 

 π1k

 

 π1p

 

 

 

 

 

 

 

 λj

 λ1λj

 πj1

 

 πjk

 

 πjp

 

 

 

 

 

 λp

 λ1λp

 πp1

 

 πpk

 

 πpp

En pratique, il faut étudier les variables explicatives Xj avec un  CI élevé.
Pour cette variable Xj , s'il existe au moins deux variables explicatives Xk et Xk telles que πjk et πjk soient élevés (supérieurs à 0.5, en pratique), alors un problème de colinéarité est suspecté entre ces variables.

Analysez l'homoscédasticité des résidus

On peut notamment étudier l'homoscédasticité des résidus, c'est-à-dire la constance de leur variance, en représentant graphiquement les résidus studentisés en fonction des valeurs ajustées. Un nuage avec une forme conique peut laisser présager un effet hétéroscédastique.

Vous avez analysé un certain nombre de vos résultats. Dans le prochain chapitre, vous verrez comment choisir le modèle qui répond le mieux à votre problématique.

Exemple de certificat de réussite
Exemple de certificat de réussite