Réalisez une ANOVA à un facteur
On se place dans le cas plus général où la variable qualitative a I niveaux ( I=4 pour la variété de blé, dans le cas d'étude). On considère que l'on dispose de ni observations pour la modalité i de la variable.
On parle d'un plan d'expérience :
complet si ∀i∈{1,…,I}:ni>0 ;
équilibré si n1=…=nI=r .
Dans le cas d'étude, le plan est équilibré (donc forcément complet).
Le modèle s'écrit :
pour i∈{1,…,I} et j∈{1,…,ni} .
μ,α1,…,αI sont des paramètres inconnus, et les εi,j sont des v.a.r. indépendantes de loi N(0,σ2) , où σ2>0 est inconnue.
On considère par la suite les notations suivantes :
Pour aller plus loin : l'estimation du modèle
Afin de résoudre le problème, il faut poser une contrainte supplémentaire (les variables explicatives sont strictement colinéaires), par exemple :
μ=0
α1=0 (on peut choisir une autre cellule que la première)
∑Ii=1niαi=0
∑Ii=1αi=0
Les estimateurs de (μ,α1,…,αI) sont alors :
ˆμ=0 ; ∀i∈{1, …,I}:ˆαi=yi,⋅
ˆμ=y1,⋅ ; ˆα1=0 ; ∀i∈{2,…,I}:ˆαi=yi,⋅−y1,⋅
ˆμ=y⋅,⋅ ; ∀i∈{1,…,I−1}:ˆαi=yi,⋅−y⋅,⋅ ; ˆαI=∑I−1i=1niˆαinI
ˆμ=1I∑Ii=1yi,⋅ ; ∀i∈{1,…,I−1}:ˆαi=yi,⋅−1I∑Ii=1yi,⋅ ; ˆαI=∑I−1i=1ˆαi
L'estimateur de σ2 est dans tous les cas :
Réalisez le test d'influence d'une variable qualitative
Ce n'est pas l'estimation de ces paramètres inconnus qui nous intéresse ici, mais bien notre capacité à tester une hypothèse H0 du type la variété de blé n'a pas d'effet, ce qui se traduit statistiquement par : H0:α1=…=αI=0 .
On rejette d'autant plus facilement cette hypothèse que les moyennes sont différentes les unes des autres. La statistique de test utilisée à cet effet est :
où :
CME=SCEI−1
SCE=∑Ii=1ni(yi,⋅−y⋅,⋅)2
CMR=SCRn−I
SCR=∑Ii=1∑nij=1(yi,j−yi,⋅)2
La terminologie employée ici est :
Variation interclasse : en français SCE (Somme des Carrés Expliqués), en anglais SSM (Sum of Squares of the Model).
Variation intraclasse : en français SCR (Somme des Carrés Résiduels), en anglais SSE (Sum of Squares of the Error).
Variation totale : en français SCT (Somme des Carrés Totaux), en anglais SST (Total Sum of Squares).
Degrés de liberté : en français ddl, en anglais df (degrees of freedom).
Carrés moyens : en français CM, en anglais MS (Mean Squares).
On peut montrer également que la somme des carrés totaux, définie par :
vérifie :
On présente classiquement les résultats sous forme de tableau d'analyse de la variance :
Source | ddl | SC | CM | F | p -valeur |
E | I−1 | SCE | CME | CMECMR | influence du facteur |
R | n−I | SCR | CMR |
| |
T | n−1 | SCT |
|
On rejette H0 au niveau de test α si f>f(I−1,n−I),1−α où f(I−1,n−I),1−α est le quantile d'ordre 1−α de la loi de Fisher à (I−1,n−I) degré de liberté.
On peut également lire le résultat de ce test via la p-valeur. On rappelle que l'on rejette H0 au niveau de test α si p-valeur<α .
En pratique, rejeter H0 revient à déclarer que la variable qualitative a un effet significatif sur notre phénomène ( Y ).
Voilà pour l'ANOVA à un facteur. Passons maintenant à l'ANOVA à... deux facteurs ! C'est parti.
Réalisez une ANOVA à deux facteurs
On souhaite désormais étudier l'influence de deux facteurs qualitatifs A et B , avec respectivement I et J modalités, sur une variable quantitative.
On suppose ici que l'on dispose d'un plan d'expériences équilibré (avec r observations pour chaque croisement des facteurs).
Le modèle considéré est le suivant :
pour i∈{1,…,I}, j∈{1,…,J} et k∈{1,…,r}
μ , les αi , les βj et les γi,j sont des paramètres inconnus, et les εi,j,k sont des v.a.r. indépendantes de loi N(0,σ2) , où σ2>0 est inconnu.
On considère les quantités suivantes (moyennes : globales, par modalité sur A et sur B ) :
yi,j,⋅=1r∑rk=1yi,j,k yi,⋅,⋅=1Jr∑Jj=1∑rk=1yi,j,k y⋅,j,⋅=1Ir∑Ii=1∑rk=1yi,j,k y⋅,⋅,⋅=1IJr∑Ii=1∑Jj=1∑rk=1yi,j,k
Les différents tests d'influence
Les tests effectués sont les suivants :
HA0:αi=0,∀i∈{1,…,I}
HB0:βj=0,∀j∈{1,…,J}
HAB0:γij=0,∀i∈{1,…,I},∀j∈{1,…,J}
Ils permettent respectivement de tester l'influence du facteur A , du facteur B et de l'interaction des facteurs A et B .
On considère les quantités suivantes :
SCEA=Jr∑Ii=1(yi,⋅,⋅−y⋅,⋅,⋅)2
SCEB=Ir∑Jj=1(y⋅,j,⋅−y⋅,⋅,⋅)2
SCEAB=∑Ii=1∑Jj=1∑rk=1(yi,j,⋅−yi,⋅,⋅−y⋅,j,⋅+y⋅,⋅,⋅)2
SCR=∑Ii=1∑Jj=1∑rk=1(yi,j,k−yi,j,⋅)2
SCT=∑Ii=1∑Jj=1∑rk=1(yi,j,k−y⋅,⋅,⋅)2
On présente classiquement les résultats sous forme de tableau :
Source | ddl | SC | CM | F | p -valeur |
EA | I−1 | SCEA | CMEA | CMEACMR | influence de A |
EB | J−1 | SCEB | CMEB | CMEBCMR | influence de B |
EAB | (I−1)(J−1) | SCEAB | CMEAB | CMEABCMR | influence de AB |
R | n−IJ | SCR | CMR |
|
|
T | n−1 | SCT |
|
|
|
On teste tout d'abord l'impact de l'interaction des 2 variables qualitatives sur Y .
Voilà comment l'analyse de la variance se déroule en principe. Maintenant, ouvrez votre logiciel de code préféré, nous allons réaliser une analyse de la variance pour comprendre ce qui influence les rendements de blé.