Initiez-vous à la statistique inférentielle

12 heures
Moyenne

Licence

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 13/03/2024

Comparez deux échantillons gaussiens (test de comparaison)

L'idée

Si on souhaite comparer deux échantillons (i.i.d) gaussiens, il nous suffit en fait de comparer leurs paramètres : leur moyenne $$$\mu_1$$$ et $$$\mu_2$$$ , et leur variance $$$\sigma_1^2$$$ et $$$\sigma_2^2$$$ .
La méthodologie la plus classique est d'effectuer de manière séquentielle :

Un test d'égalité des variances.
Un test d'égalité des moyennes.

Si les variances ne sont pas considérées comme égales, les deux échantillons n'ont pas la même loi. Si les variances sont considérées comme égales, il est alors possible d'estimer cette variance sur les deux échantillons à la fois, et de tester l'égalité des moyennes en utilisant cette variance empirique globale.
Notons qu'il est néanmoins possible d'effectuer un test de comparaison des moyennes sous hypothèse de variances différentes. Il ne s'agit pas d'une comparaison des lois, mais alors d'une comparaison simple des moyennes.

Le coin méthodologique

Soient deux échantillons i.i.d gaussiens $$$\left( X_{1,i}\right) _{i\in\left\{1,\ldots,n_{1}\right\} }$$$ et $$$\left( X_{2,i}\right) _{i\in\left\{1,\ldots,n_{2}\right\} }$$$ , indépendants entre eux :

$$$X_{1}\sim\mathcal{N}\left( \mu_{1},\sigma_{1}^{2}\right)$$$ ,
$$$X_{2}\sim\mathcal{N}\left( \mu_{2},\sigma_{2}^{2}\right)$$$ .

On considère :

Le test d'égalité des variances :

$$\[\begin{cases} H_{0}:\sigma_{1}^{2}=\sigma_{2}^{2}\\ H_{1}:\sigma_{1}^{2}\neq\sigma_{2}^{2} \end{cases}\]$$

Le test d'égalité des moyennes :

$$\[\begin{cases} H_{0}:\mu_{1}=\mu_{2}\\ H_{1}:\mu_{1}<>\mu_{2} \end{cases}\]$$

Pour effectuer les tests, on se base encore sur les moyennes et variances empiriques des deux échantillons :

$$\[ \begin{align*} \overline{X}_{1}&=\frac{1}{n_{1}}\sum_{i=1}^{n_1}X_{i}\ ,\\ \ S_{1}^{\prime 2}&=\frac{1}{n_{1}-1}\sum_{i=1}^{n_1}\left( X_{1,i}-\overline{X}_{1}\right)^2\ ,\\ \overline{X}_{2}&=\frac{1}{n_{2}}\sum_{i=1}^{n_2}X_{i}\ ,\\ S_{2}^{\prime 2}&=\frac{1}{n_{2}-1}\sum_{i=1}^{n_2}\left( X_{2,i}-\overline{X}_{2}\right)^2\ . \end{align*}\]$$

Résolution du test d'égalité des variances

On utilise comme statistique de test :

$$\[F=\frac{S_{1}^{\prime 2}}{S_{2}^{\prime 2}}\]$$

On peut montrer que sous $$$H_{0}$$$ ( $$$\sigma_{1}^2=\sigma_{2}^2$$$ ) :

$$\[F\sim\mathcal{F}\left( n_{1}-1,n_{2}-1\right) \]$$

On comprend aisément qu'on rejettera d'autant plus facilement l'égalité des variances que ce ratio s'éloignera de 1.

La région critique au niveau $$$\alpha$$$ est :

$$\[W=\left\{ F<f_{\left(n_{1}-1,n_{2}-1\right) ,\frac{\alpha}{2}}\text{ ou }F>f_{\left(n_{1}-1,n_{2}-1\right) ,1-\frac{\alpha}{2}}\right\}\]$$

où $$$f_{\left(n_{1}-1,n_{2}-1\right) ,\frac{\alpha}{2}}$$$ et $$$f_{\left(n_{1}-1,n_{2}-1\right) ,1-\frac{\alpha}{2}}$$$ désignent respectivement les quantiles d'ordres $$$\frac{\alpha}{2}$$$ et $$$1-\frac{\alpha}{2}$$$ de la loi $$$\mathcal{F}\left( n_{1}-1,n_{2}-1\right)$$$ .

En pratique, les décisions prises sont, pour un niveau de test $$$\alpha$$$ :

le rejet de $$$H_{0}$$$ si $$$f<f_{\left(n_{1}-1,n_{2}-1\right) ,\frac{\alpha}{2}}$$$ ou si $$$f>f_{\left(n_{1}-1,n_{2}-1\right) ,1-\frac{\alpha}{2}}$$$ ,
le non-rejet de $$$H_{0}$$$ si $$$f_{\left(n_{1}-1,n_{2}-1\right) ,\frac{\alpha}{2}}\leq f \leq f_{\left(n_{1}-1,n_{2}-1\right) ,1-\frac{\alpha}{2}}$$$ .

On peut résumer cette règle de décision par le schéma suivant :

Résolution du test d'égalité des moyennes

On est dans le cas où $$$\sigma_{1}^2=\sigma_{2}^2=\sigma^2$$$ .
Pour des arguments du même type (non énoncés ici) que ceux évoqués lors du test sur la moyenne, on considère comme statistique de test :

$$\[T=\frac{\sqrt{n_{1}+n_{2}-2}\left( \overline{X}_{1}-\overline{X}_{2}\right)}{\sqrt{\frac{1}{n_{1}}+\frac{1}{n_{2}}}\sqrt{\left( n_{1}-1\right) S_{1}^{\prime 2}+\left( n_{2}-1\right) S_{2}^{\prime 2}}}\]$$

On constate que le numérateur fait apparaître l'écart entre les deux moyennes empiriques. Plus cet écart sera important plus on sera enclin de rejeter l'égalité des moyennes.

On peut montrer que sous $$$H_{0}$$$ :

$$\[T\sim\mathcal{N}(0,1)\]$$

La région critique au niveau $$$\alpha$$$ est :

$$\[W=\left\{ \left| T\right| >t_{n_{1}+n_{2}-2,1-\frac{\alpha}{2}}\right\}\]$$

où $$$t_{n_{1}+n_{2}-2,1-\frac{\alpha}{2}}$$$ désigne le quantile d'ordre $$$1-\frac{\alpha}{2}$$$ de la loi $$$\mathcal{T}\left(n_{1}+n_{2}-2\right)$$$ .

En pratique, les décisions prises sont, pour un niveau de test $$$\alpha$$$ :

le rejet de $$$H_{0}$$$ si $$$\left| t\right| >t_{n_{1}+n_{2}-2,1-\frac{\alpha}{2}}$$$ ,
le non-rejet de $$$H_{0}$$$ si $$$\left| t\right| \leq t_{n_{1}+n_{2}-2,1-\frac{\alpha}{2}}$$$ .

On peut résumer cette règle de décision par le schéma suivant :

La p-valeur vaut :

$$\[\operatorname{p-valeur}=\mathbb{P}\left( \left| \mathcal{T}\left( n_{1}+n_{2}-2\right) \right| >t\right)\]$$

Le coin R : exemple des iris de Fisher

Considérons dans le (fameux) jeu de données historique des iris de Fisher la longueur des pétales d’iris des variétés Versicolor et Virginica, sachant que nous disposons d’échantillons de 50 individus de chaque variété.

versi <- iris[iris$Species=="versicolor",]$Petal.Length
virgi <- iris[iris$Species=="virginica",]$Petal.Length

On teste tout d’abord l’égalité des variances à l’aide de la commande var.test :

var.test(versi,virgi)

## 
## Results of Hypothesis Test
## --------------------------
## 
## Null Hypothesis: ratio of variances = 1
## 
## Alternative Hypothesis: True ratio of variances is not equal to 1
## 
## Test Name: F test to compare two variances
## 
## Estimated Parameter(s): ratio of variances = 0.7249678
## 
## Data: versi and virgi
## 
## Test Statistic: F = 0.7249678
## 
## Test Statistic Parameters: num df = 49
## denom df = 49
## 
## P-value: 0.2637454
## 
## 95% Confidence Interval: LCL = 0.411402
## UCL = 1.277530

La p-valeur valant 0.26, on ne rejette donc pas l’égalité des variances au niveau de test 5%.

On teste ensuite l’égalité des moyennes à l’aide de la commande t.test :

t.test(versi,virgi,var.equal=TRUE)

## 
## Results of Hypothesis Test
## --------------------------
## 
## Null Hypothesis: difference in means = 0
## 
## Alternative Hypothesis: True difference in means is not equal to 0
## 
## Test Name: Two Sample t-test
## 
## Estimated Parameter(s): mean of x = 4.260
## mean of y = 5.552
## 
## Data: versi and virgi
## 
## Test Statistic: t = -12.60378
## 
## Test Statistic Parameter: df = 98
## 
## P-value: 3.17882e-22
## 
## 95% Confidence Interval: LCL = -1.495426
## UCL = -1.088574

On obtient une p-valeur égale à environ $$$3.2\times 10^{-22}$$$ . On constate donc que l’hypothèse d’égalité des longueurs moyennes de pétales est (très facilement) rejetée à un niveau de test de 5%.

Au-delà de l’aspect gaussien que nous n’avions pas vérifié rigoureusement (on pourrait l’éprouver via des tests d’adéquation à une loi), on rejette que les longueurs des pétales d’iris des variétés et suivent la même distribution, on a en effet rejeté l’hypothèse d’égalité des moyennes.

Pour aller plus loin

On distingue ici les échantillons :

appariés : on applique deux traitements sur les mêmes individus et on compare leur effet sur deux échantillons qui ne sont donc pas indépendants.
non-appariés : on compare deux échantillons indépendants.

On considère ici des tests non-paramétriques : on les appelle ainsi car ils ne dépendent pas des distributions des deux échantillons :

Le test de Wilcoxon pour des échantillons appariés.
Le test de Mann et Whitney pour des échantillons non-appariés.