• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Réalisez une analyse de la variance

Réalisez une ANOVA à un facteur

On se place dans le cas plus général où la variable qualitative a I niveaux ( I=4 pour la variété de blé, dans le cas d'étude). On considère que l'on dispose de ni observations pour la modalité i de la variable.

On parle d'un plan d'expérience :

  • complet si i{1,,I}:ni>0 ;

  • équilibré si n1==nI=r .

Dans le cas d'étude, le plan est équilibré (donc forcément complet).

Le modèle s'écrit :

yi,j=μ+αi+εi,j

pour i{1,,I} et j{1,,ni} .

 μ,α1,,αI sont des paramètres inconnus, et les εi,j sont des v.a.r. indépendantes de loi N(0,σ2) , où σ2>0 est inconnue.

On considère par la suite les notations suivantes :

yi,=1ninij=1yi,j(moyenne sur la modalité i)
y,=1nIi=1nij=1yi,j(moyenne globale)

Pour aller plus loin : l'estimation du modèle

Afin de résoudre le problème, il faut poser une contrainte supplémentaire (les variables explicatives sont strictement colinéaires), par exemple :

  • μ=0

  •  α1=0 (on peut choisir une autre cellule que la première)

  • Ii=1niαi=0

  •  Ii=1αi=0

Les estimateurs de (μ,α1,,αI) sont alors :

  • ˆμ=0 ; i{1, ,I}:ˆαi=yi,

  •  ˆμ=y1, ; ˆα1=0 ; i{2,,I}:ˆαi=yi,y1,

  •  ˆμ=y, ; i{1,,I1}:ˆαi=yi,y, ; ˆαI=I1i=1niˆαinI

  •  ˆμ=1IIi=1yi, ; i{1,,I1}:ˆαi=yi,1IIi=1yi, ; ˆαI=I1i=1ˆαi 

L'estimateur de σ2 est dans tous les cas :

ˆσ2=1nIIi=1nij=1(yi,jyi,)2 .

Réalisez le test d'influence d'une variable qualitative

Ce n'est pas l'estimation de ces paramètres inconnus qui nous intéresse ici, mais bien notre capacité à tester une hypothèse H0 du type la variété de blé n'a pas d'effet, ce qui se traduit statistiquement par : H0:α1==αI=0 .

On rejette d'autant plus facilement cette hypothèse que les moyennes sont différentes les unes des autres. La statistique de test utilisée à cet effet est :

F=CMECMR

où :

  • CME=SCEI1

  • SCE=Ii=1ni(yi,y,)2

  • CMR=SCRnI

  • SCR=Ii=1nij=1(yi,jyi,)2

La terminologie employée ici est :

  • Variation interclasse : en français SCE (Somme des Carrés Expliqués), en anglais SSM (Sum of Squares of the Model).

  • Variation intraclasse : en français SCR (Somme des Carrés Résiduels), en anglais SSE (Sum of Squares of the Error).

  • Variation totale : en français SCT (Somme des Carrés Totaux), en anglais SST (Total Sum of Squares).

  • Degrés de liberté : en français ddl, en anglais df (degrees of freedom).

  • Carrés moyens : en français CM, en anglais MS (Mean Squares).

On peut montrer également que la somme des carrés totaux, définie par :

SCT=Ii=1nij=1(yi,jy,)2

vérifie :

SCT=SCE+SCR

On présente classiquement les résultats sous forme de tableau d'analyse de la variance :

Source

ddl

 SC

 CM

F

 p -valeur

E

 I1

 SCE

 CME

 CMECMR

influence du facteur

R

 nI

SCR

 CMR

 

T

 n1

SCT

 

On rejette H0 au niveau de test α si f>f(I1,nI),1αf(I1,nI),1α est le quantile d'ordre 1α de la loi de Fisher à (I1,nI) degré de liberté.

On peut également lire le résultat de ce test via la p-valeur. On rappelle que l'on rejette H0 au niveau de test α si p-valeur<α .

En pratique, rejeter H0 revient à déclarer que la variable qualitative a un effet significatif sur notre phénomène ( Y ).

Voilà pour l'ANOVA à un facteur. Passons maintenant à l'ANOVA à... deux facteurs ! C'est parti.

Réalisez une ANOVA à deux facteurs

On souhaite désormais étudier l'influence de deux facteurs qualitatifs A et B , avec respectivement I et J modalités, sur une variable quantitative.

On suppose ici que l'on dispose d'un plan d'expériences équilibré (avec r observations pour chaque croisement des facteurs).

Le modèle considéré est le suivant :

yi,j,k=μ+αi+βj+γi,j+εi,j,k

pour i{1,,I}, j{1,,J} et k{1,,r}

μ , les αi , les βj et les γi,j sont des paramètres inconnus, et les εi,j,k sont des v.a.r. indépendantes de loi N(0,σ2) , où σ2>0 est inconnu.

On considère les quantités suivantes (moyennes : globales, par modalité sur A et sur B ) :

yi,j,=1rrk=1yi,j,k yi,,=1JrJj=1rk=1yi,j,k y,j,=1IrIi=1rk=1yi,j,k y,,=1IJrIi=1Jj=1rk=1yi,j,k 

Les différents tests d'influence

Les tests effectués sont les suivants :

 HA0:αi=0,i{1,,I}

 HB0:βj=0,j{1,,J}

 HAB0:γij=0,i{1,,I},j{1,,J}

Ils permettent respectivement de tester l'influence du facteur A , du facteur B et de l'interaction des facteurs A et B .

On considère les quantités suivantes :

SCEA=JrIi=1(yi,,y,,)2

 SCEB=IrJj=1(y,j,y,,)2

SCEAB=Ii=1Jj=1rk=1(yi,j,yi,,y,j,+y,,)2

SCR=Ii=1Jj=1rk=1(yi,j,kyi,j,)2

SCT=Ii=1Jj=1rk=1(yi,j,ky,,)2

On présente classiquement les résultats sous forme de tableau :

Source

ddl

SC

  CM

F

 p -valeur

  EA

 I1

  SCEA

CMEA

 CMEACMR

influence de A

  EB

 J1

  SCEB

 CMEB

 CMEBCMR

influence de B

  EAB

 (I1)(J1)

  SCEAB

  CMEAB

  CMEABCMR

influence de AB

R

nIJ

  SCR

 CMR

 

 

T

 n1

  SCT

 

 

 

On teste tout d'abord l'impact de l'interaction des 2 variables qualitatives sur Y .

Voilà comment l'analyse de la variance se déroule en principe. Maintenant, ouvrez votre logiciel de code préféré, nous allons réaliser une analyse de la variance pour comprendre ce qui influence les rendements de blé.

Et si vous obteniez un diplôme OpenClassrooms ?
  • Formations jusqu’à 100 % financées
  • Date de début flexible
  • Projets professionnalisants
  • Mentorat individuel
Trouvez la formation et le financement faits pour vous
Exemple de certificat de réussite
Exemple de certificat de réussite