• 12 heures
  • Moyenne

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 30/03/2020

Comparez deux échantillons gaussiens (test de comparaison)

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

L'idée

Si on souhaite comparer deux échantillons (i.i.d) gaussiens, il nous suffit en fait de comparer leurs paramètres : leur moyenne μ1 et μ2, et leur variance σ21 et σ22.
La méthodologie la plus classique est d'effectuer de manière séquentielle :

  • Un test d'égalité des variances.

  • Un test d'égalité des moyennes.

Si les variances ne sont pas considérées comme égales, les deux échantillons n'ont pas la même loi. Si les variances sont considérées comme égales, il est alors possible d'estimer cette variance sur les deux échantillons à la fois, et de tester l'égalité des moyennes en utilisant cette variance empirique globale.
Notons qu'il est néanmoins possible d'effectuer un test de comparaison des moyennes sous hypothèse de variances différentes. Il ne s'agit pas d'une comparaison des lois, mais alors d'une comparaison simple des moyennes.

Le coin méthodologique

Soient deux échantillons i.i.d gaussiens (X1,i)i{1,,n1} et (X2,i)i{1,,n2}, indépendants entre eux :

  • X1N(μ1,σ21) ,

  • X2N(μ2,σ22) .

On considère :

  • Le test d'égalité des variances :

{H0:σ21=σ22H1:σ21σ22
  • Le test d'égalité des moyennes :

{H0:σ21=σ22H1:σ21σ22

Pour effectuer les tests, on se base encore sur les moyennes et variances empiriques des deux échantillons :

¯X1=1n1n1i=1Xi , S21=1n11n1i=1(X1,i¯X1)2 ,¯X2=1n2n2i=1Xi ,S22=1n21n2i=1(X2,i¯X2)2 .

Résolution du test d'égalité des variances

On utilise comme statistique de test :

F=S21S22

On peut montrer que sous H0 (σ21=σ22) :

FF(n11,n21)

On comprend aisément qu'on rejettera d'autant plus facilement l'égalité des variances que ce ratio s'éloignera de 1.

La région critique au niveau α est :

W={F<f(n11,n21),α2 ou F>f(n11,n21),1α2}

f(n11,n21),α2 et f(n11,n21),1α2 désignent respectivement les quantiles d'ordres α2 et 1α2 de la loi F(n11,n21).

En pratique, les décisions prises sont, pour un niveau de test α :

  • le rejet de H0 si f<f(n11,n21),α2 ou si f>f(n11,n21),1α2 ,

  • le non-rejet de H0 si f(n11,n21),α2ff(n11,n21),1α2 .

On peut résumer cette règle de décision par le schéma suivant :

Résolution du test d'égalité des moyennes

On est dans le cas où σ21=σ22=σ2.
Pour des arguments du même type (non énoncés ici) que ceux évoqués lors du test sur la moyenne, on considère comme statistique de test :

T=n1+n22(¯X1¯X2)1n1+1n2(n11)S21+(n21)S22

On constate que le numérateur fait apparaître l'écart entre les deux moyennes empiriques. Plus cet écart sera important plus on sera enclin de rejeter l'égalité des moyennes.

On peut montrer que sous H0 :

TN(0,1)

La région critique au niveau α est :

W={|T|>tn1+n22,1α2}

tn1+n22,1α2 désigne le quantile d'ordre 1α2 de la loi T(n1+n22).

En pratique, les décisions prises sont, pour un niveau de test α :

  • le rejet de H0 si |t|>tn1+n22,1α2 ,

  • le non-rejet de H0 si |t|tn1+n22,1α2 .

On peut résumer cette règle de décision par le schéma suivant :

La p-valeur vaut :

p-valeur=P(|T(n1+n22)|>t)

.

Le coin R : exemple des iris de Fisher

 Considérons dans le (fameux) jeu de données historique des iris de Fisher la longueur des pétales d’iris des variétés Versicolor et Virginica, sachant que nous disposons d’échantillons de 50 individus de chaque variété.

versi <- iris[iris$Species=="versicolor",]$Petal.Length
virgi <- iris[iris$Species=="virginica",]$Petal.Length

On teste tout d’abord l’égalité des variances à l’aide de la commande  var.test  :

var.test(versi,virgi)
## 
## Results of Hypothesis Test
## --------------------------
## 
## Null Hypothesis: ratio of variances = 1
## 
## Alternative Hypothesis: True ratio of variances is not equal to 1
## 
## Test Name: F test to compare two variances
## 
## Estimated Parameter(s): ratio of variances = 0.7249678
## 
## Data: versi and virgi
## 
## Test Statistic: F = 0.7249678
## 
## Test Statistic Parameters: num df = 49
## denom df = 49
## 
## P-value: 0.2637454
## 
## 95% Confidence Interval: LCL = 0.411402
## UCL = 1.277530

La p-valeur valant 0.26, on ne rejette donc pas l’égalité des variances au niveau de test 5%.

On teste ensuite l’égalité des moyennes à l’aide de la commande  t.test  :

t.test(versi,virgi,var.equal=TRUE)

## 
## Results of Hypothesis Test
## --------------------------
## 
## Null Hypothesis: difference in means = 0
## 
## Alternative Hypothesis: True difference in means is not equal to 0
## 
## Test Name: Two Sample t-test
## 
## Estimated Parameter(s): mean of x = 4.260
## mean of y = 5.552
## 
## Data: versi and virgi
## 
## Test Statistic: t = -12.60378
## 
## Test Statistic Parameter: df = 98
## 
## P-value: 3.17882e-22
## 
## 95% Confidence Interval: LCL = -1.495426
## UCL = -1.088574

On obtient une p-valeur égale à environ 3.2×1022 . On constate donc que l’hypothèse d’égalité des longueurs moyennes de pétales est (très facilement) rejetée à un niveau de test de 5%.

Au-delà de l’aspect gaussien que nous n’avions pas vérifié rigoureusement (on pourrait l’éprouver via des tests d’adéquation à une loi), on rejette que les longueurs des pétales d’iris des variétés et suivent la même distribution, on a en effet rejeté l’hypothèse d’égalité des moyennes.

Pour aller plus loin

On distingue ici les échantillons :

  • appariés : on applique deux traitements sur les mêmes individus et on compare leur effet sur deux échantillons qui ne sont donc pas indépendants.

  • non-appariés : on compare deux échantillons indépendants.

On considère ici des tests non-paramétriques : on les appelle ainsi car ils ne dépendent pas des distributions des deux échantillons :

  • Le test de Wilcoxon pour des échantillons appariés.

  • Le test de Mann et Whitney pour des échantillons non-appariés.

Exemple de certificat de réussite
Exemple de certificat de réussite