Nous passons maintenant à la réponse à la troisième question, à laquelle nous répondons grâce aux tests statistiques.
Cas du taux de guérison
Le laboratoire cherche à savoir si la nouvelle composition du médicament présente un taux de guérison meilleur que le précédent. Il considère a priori que son efficacité est similaire au précédent médicament et ne prendra la responsabilité de proposer la nouvelle composition que si le nouveau taux de guérison s'avère être significativement supérieur à celui de l'ancien médicament p0=0.75.
Son a priori correspond à ce qu'on appellera l'hypothèse nulle, notée H0. Quant à l'autre hypothèse, l'alternative, notée H1, elle permet d'indiquer dans quel cas de figure on rejettera cet a priori.
On considère donc ici le test suivant :
L'hypothèse p=p0 paraît intuitivement d'autant moins crédible que ¯x, proportion de guérison, est plus forte. Quand ¯x sera jugé "suffisamment plus élevé" que p0 (significativement supérieur à p0), le laboratoire pourra rejeter l'hypothèse p=p0.
C'est le rejet de H0 qui, s'il est fait à mauvais escient, sera considéré comme le plus coûteux pour le laboratoire, car ayant des répercussions humaines et économiques néfastes : on parle de risque de première espèce.
En pratique on recherche la valeur c (≥0) telle qu'on rejettera l'hypothèse nulle si :
c'est-à-dire quand la proportion de guérison observée est "vraiment" supérieure à p0.
Pour fixer ce seuil c qui détermine la région de rejet, le data analyst doit demander au laboratoire de fixer une borne supérieure à la probabilité qu'il juge tolérable pour ce rejet à mauvais escient : le niveau de test.
Ensuite, sous cette contrainte, on cherchera à choisir c de manière à minimiser la probabilité de non-rejet de H0 à mauvais escient : le risque de seconde espèce.
Cas de la consommation d'essence
Le fabricant de cars souhaite communiquer sur une consommation moyenne (théorique) d'essence égale à μ0=31 litres aux 100. Il ne souhaite pas sous-estimer ou sur-estimer cette valeur seuil.
De la même manière que précédemment, on considère le test :
Ce test est dit bilatère car il existe deux motifs de rejet de son hypothèse de travail.
L'hypothèse μ=μ0 paraît intuitivement d'autant moins crédible que ¯x, consommation moyenne observée sur son échantillon, est jugé "suffisamment différente" de μ0 (significativement inférieure ou supérieure à μ0). C'est toujours ce rejet qui, s'il est fait à mauvais escient, sera considéré comme plus coûteux pour le constructeur...
On pratique on recherche la valeur c>0 telle qu'on rejette l'hypothèse nulle si :
c'est-à-dire si la consommation d'essence moyenne observée est "vraiment différente" de μ0.
Pour fixer ce seuil c qui détermine la région de rejet, le data analyst doit là-encore demander au constructeur de fixer une borne supérieure pour son risque de première espèce, celui de rejeter à tort son a priori.