• 12 heures
  • Difficile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 18/11/2022

Réalisez une analyse de la variance

Réalisez une ANOVA à un facteur

On se place dans le cas plus général où la variable qualitative a $\(I \)$ niveaux ( $\(I=4\)$ pour la variété de blé, dans le cas d'étude). On considère que l'on dispose de $\(n_i\)$ observations pour la modalité $\(i \)$ de la variable.

On parle d'un plan d'expérience :

  • complet si $\(\forall i\in\left\{ 1, \ldots,I\right\} :n_{i} > 0\)$ ;

  • équilibré si $\(n_{1}=\ldots=n_{I}=r\)$ .

Dans le cas d'étude, le plan est équilibré (donc forcément complet).

Le modèle s'écrit :

$\[y_{i,j}=\mu+\alpha_{i}+\varepsilon_{i,j}\]$

pour $\(i\in\left\{ 1,\ldots,I\right\}\)$ et $\(j\in\left\{ 1,\ldots,n_{i}\right\}\)$ .

 $\(\mu,\alpha_{1},\ldots,\alpha_I\)$ sont des paramètres inconnus, et les $\(\varepsilon_{i,j}\)$ sont des v.a.r. indépendantes de loi $\(\mathcal{N}\left( 0,\sigma^{2}\right)\)$ , où $\(\sigma^{2}>0\)$ est inconnue.

On considère par la suite les notations suivantes :

$\[y_{i,\cdot} =\frac{1}{n_{i}}\sum_{j=1}^{n_{i}}y_{i,j}\quad\text{(moyenne sur la modalité $i$)}\]$

$\[y_{\cdot,\cdot} =\frac{1}{n}\sum_{i=1}^{I}\sum_{j=1}^{n_{i}}y_{i,j}\quad\text{(moyenne globale)}\]$

Pour aller plus loin : l'estimation du modèle

Afin de résoudre le problème, il faut poser une contrainte supplémentaire (les variables explicatives sont strictement colinéaires), par exemple :

  • $\(\mu=0\)$

  •  $\(\alpha_{1}=0\)$ (on peut choisir une autre cellule que la première)

  • $\(\sum_{i=1}^{I}n_{i}\alpha_{i}=0\)$

  •  $\(\sum_{i=1}^{I}\alpha_{i}=0\)$

Les estimateurs de $\(\left( \mu,\alpha_{1},\ldots,\alpha_{I}\right)\)$ sont alors :

  • $\(\widehat{\mu}=0\ ; \ \forall i\in\left\{ 1,\ \ldots,I\right\} :\widehat{\alpha}_{i}=y_{i,\cdot}\)$

  •  $\(\widehat{\mu}=y_{1,\cdot}\ ;\ \widehat{\alpha}_{1}=0\ ;\ \forall i\in\left\{2,\ldots,I\right\} :\widehat{\alpha}_{i}=y_{i,\cdot}-y_{1,\cdot}\)$

  •  $\(\widehat{\mu}=y_{\cdot,\cdot}\ ;\ \forall i\in\left\{ 1,\ldots,I-1\right\} :\widehat{\alpha}_{i}=y_{i,\cdot}-y_{\cdot,\cdot}\ ;\ \widehat{\alpha}_{I}=\sum_{i=1}^{I-1}\frac{n_{i}\widehat{\alpha}_{i}}{n_{I}}\)$

  •  $\(\widehat{\mu}=\frac{1}{I}\sum_{i=1}^{I}y_{i,\cdot}\ ;\ \forall i\in\left\{1,\ldots,I-1\right\} :\widehat{\alpha}_{i}=y_{i,\cdot}-\frac{1}{I}\sum_{i=1}^{I}y_{i,\cdot}\ ;\ \widehat{\alpha}_{I}=\sum_{i=1}^{I-1}\widehat{\alpha}_{i}\)$ 

L'estimateur de $\(\sigma^{2}\)$ est dans tous les cas :

$\[\widehat{\sigma}^{2}=\frac{1}{n-I}\sum_{i=1}^{I}\sum_{j=1}^{n_{i}}\left(y_{i,j}-y_{i,\cdot}\right)^{2}\ .\]$

Réalisez le test d'influence d'une variable qualitative

Ce n'est pas l'estimation de ces paramètres inconnus qui nous intéresse ici, mais bien notre capacité à tester une hypothèse $\(H_{0} \)$ du type la variété de blé n'a pas d'effet, ce qui se traduit statistiquement par : $\(H_{0}:\alpha_{1}=\ldots=\alpha_{I}=0\ .\)$

On rejette d'autant plus facilement cette hypothèse que les moyennes sont différentes les unes des autres. La statistique de test utilisée à cet effet est :

$\[F=\frac{\operatorname{CME}}{\operatorname{CMR}}\]$

où :

  • $\(\operatorname{CME}=\frac{\operatorname{SCE}}{I-1}\)$

  • $\(\operatorname{SCE}=\sum_{i=1}^{I}n_{i}\left( y_{i,\cdot}-y_{\cdot,\cdot}\right) ^{2}\)$

  • $\(\operatorname{CMR}=\frac{\operatorname{SCR}}{n-I}\)$

  • $\(\operatorname{SCR}=\sum_{i=1}^{I}\sum_{j=1}^{n_{i}}\left( y_{i,j}-y_{i,\cdot}\right) ^{2}\)$

La terminologie employée ici est :

  • Variation interclasse : en français SCE (Somme des Carrés Expliqués), en anglais SSM (Sum of Squares of the Model).

  • Variation intraclasse : en français SCR (Somme des Carrés Résiduels), en anglais SSE (Sum of Squares of the Error).

  • Variation totale : en français SCT (Somme des Carrés Totaux), en anglais SST (Total Sum of Squares).

  • Degrés de liberté : en français ddl, en anglais df (degrees of freedom).

  • Carrés moyens : en français CM, en anglais MS (Mean Squares).

On peut montrer également que la somme des carrés totaux, définie par :

$\[\operatorname{SCT} =\sum_{i=1}^{I}\sum_{j=1}^{n_{i}}\left( y_{i,j}-y_{\cdot,\cdot}\right) ^{2}\]$

vérifie :

$\[\operatorname{SCT} =\operatorname{SCE}+\operatorname{SCR}\]$

On présente classiquement les résultats sous forme de tableau d'analyse de la variance :

Source

ddl

 $\(SC\)$

 $\(CM\)$

F

 $\(p\)$ -valeur

E

 $\(I-1\)$

 $\(SCE\)$

 $\(CME\)$

 $\(\frac{CME}{CMR}\)$

influence du facteur

R

 $\(n-I\)$

$\(SCR\)$

 $\(CMR\)$

 

T

 $\(n-1\)$

$\(SCT\)$

 

On rejette $\(H_{0}\)$ au niveau de test $\(\alpha \)$ si $\(f>f_{\left( I-1,n-I\right),1-\alpha}\)$$\(f_{\left( I-1,n-I\right),1-\alpha} \)$ est le quantile d'ordre $\(1-\alpha\)$ de la loi de Fisher à $\(\left( I-1,n-I\right)\)$ degré de liberté.

On peut également lire le résultat de ce test via la p-valeur. On rappelle que l'on rejette $\(H_{0}\)$ au niveau de test $\(\alpha\)$ si $\(\operatorname{p-valeur}<\alpha\)$ .

En pratique, rejeter $\(H_{0}\)$ revient à déclarer que la variable qualitative a un effet significatif sur notre phénomène ( $\(Y\)$ ).

Voilà pour l'ANOVA à un facteur. Passons maintenant à l'ANOVA à... deux facteurs ! C'est parti.

Réalisez une ANOVA à deux facteurs

On souhaite désormais étudier l'influence de deux facteurs qualitatifs $\(A \)$ et $\(B\)$ , avec respectivement $\(I \)$ et $\(J\)$ modalités, sur une variable quantitative.

On suppose ici que l'on dispose d'un plan d'expériences équilibré (avec $\(r \)$ observations pour chaque croisement des facteurs).

Le modèle considéré est le suivant :

$\[y_{i,j,k}=\mu+\alpha_{i}+\beta_{j}+\gamma_{i,j}+\varepsilon_{i,j,k} \]$

pour $\(i\in\left\{ 1,\ldots,I\right\}\)$, $\(j\in\left\{ 1,\ldots,J\right\}\)$ et $\(k\in\left\{ 1,\ldots,r\right\}\)$

$\(\mu\)$ , les $\(\alpha_{i}\)$ , les $\(\beta_{j}\)$ et les $\(\gamma_{i,j}\)$ sont des paramètres inconnus, et les $\(\varepsilon_{i,j,k}\)$ sont des v.a.r. indépendantes de loi $\(\mathcal{N}\left( 0,\sigma^{2}\right)\)$ , où $\(\sigma^{2}>0\)$ est inconnu.

On considère les quantités suivantes (moyennes : globales, par modalité sur $\(A \)$ et sur $\(B\)$ ) :

$\(y_{i,j,\cdot} =\frac{1}{r}\sum_{k=1}^{r}y_{i,j,k}\ \\y_{i,\cdot,\cdot} =\frac{1}{Jr}\sum_{j=1}^{J}\sum_{k=1}^{r}y_{i,j,k}\ \\y_{\cdot,j,\cdot} =\frac{1}{Ir}\sum_{i=1}^{I}\sum_{k=1}^{r}y_{i,j,k}\ \\y_{\cdot,\cdot,\cdot} =\frac{1}{IJr}\sum_{i=1}^{I}\sum_{j=1}^{J}\sum_{k=1}^{r}y_{i,j,k}\\)$

Les différents tests d'influence

Les tests effectués sont les suivants :

 $\(H_{0}^{A} :\alpha_{i}=0,\forall i\in\left\{ 1,\ldots,I\right\} \)$

 $\(H_{0}^{B} :\beta_{j}=0,\forall j\in\left\{ 1,\ldots,J\right\} \)$

 $\(H_{0}^{AB} :\gamma_{ij}=0,\forall i\in\left\{ 1,\ldots,I\right\} ,\forall j\in\left\{ 1,\ldots,J\right\}\)$

Ils permettent respectivement de tester l'influence du facteur $\(A\)$ , du facteur $\(B \)$ et de l'interaction des facteurs $\(A \)$ et $\(B\)$ .

On considère les quantités suivantes :

$\(\operatorname{SCE}_{A} =Jr\sum_{i=1}^{I}\left( y_{i,\cdot,\cdot}-y_{\cdot,\cdot,\cdot}\right) ^{2}\)$

 $\(\operatorname{SCE}_{B} =Ir\sum_{j=1}^{J}\left( y_{\cdot,j,\cdot}-y_{\cdot,\cdot,\cdot}\right) ^{2}\)$

$\(\operatorname{SCE}_{AB} =\sum_{i=1}^{I}\sum_{j=1}^{J}\sum_{k=1}^{r}\left( y_{i,j,\cdot}-y_{i,\cdot,\cdot}-y_{\cdot,j,\cdot}+y_{\cdot,\cdot,\cdot}\right) ^{2}\)$

$\(\operatorname{SCR} =\sum_{i=1}^{I}\sum_{j=1}^{J}\sum_{k=1}^{r}\left( y_{i,j,k}-y_{i,j,\cdot}\right) ^{2}\)$

$\(\operatorname{SCT} =\sum_{i=1}^{I}\sum_{j=1}^{J}\sum_{k=1}^{r}\left( y_{i,j,k}-y_{\cdot,\cdot,\cdot}\right) ^{2}\)$

On présente classiquement les résultats sous forme de tableau :

Source

ddl

$\(\operatorname{SC}\)$

  $\(\operatorname{CM}\)$

$\(\operatorname{F}\)$

 $\(p\)$ -valeur

  $\(\operatorname{E_A} \)$

 $\(I-1\)$

  $\(\operatorname{SCE_A} \)$

$\(\operatorname{CME}_A\)$

 $\(\frac{\operatorname{CME}_A}{\operatorname{CMR}}\)$

influence de $\(A\)$

  $\(\operatorname{E_B} \)$

 $\(J-1\)$

  $\(\operatorname{SCE_B} \)$

 $\(\operatorname{CME}_B\)$

 $\(\frac{\operatorname{CME}_B}{\operatorname{CMR}}\)$

influence de $\(B\)$

  $\(\operatorname{E_{AB}} \)$

 $\((I-1)(J-1)\)$

  $\(\operatorname{SCE_{AB}} \)$

  $\(\operatorname{CME}_{AB}\)$

  $\(\frac{\operatorname{CME}_{AB}}{\operatorname{CMR}}\)$

influence de $\(AB\)$

$\(R\)$

$\(n-IJ\)$

  $\(\operatorname{SCR} \)$

 $\(\operatorname{CMR}\)$

 

 

$\(\operatorname{T}\)$

 $\(n-1\)$

  $\(\operatorname{SCT} \)$

 

 

 

On teste tout d'abord l'impact de l'interaction des 2 variables qualitatives sur $\(Y\)$ .

Voilà comment l'analyse de la variance se déroule en principe. Maintenant, ouvrez votre logiciel de code préféré, nous allons réaliser une analyse de la variance pour comprendre ce qui influence les rendements de blé.

Exemple de certificat de réussite
Exemple de certificat de réussite