Nous passons maintenant à la réponse à la troisième question, à laquelle nous répondons grâce aux tests statistiques.
Cas du taux de guérison
Le laboratoire cherche à savoir si la nouvelle composition du médicament présente un taux de guérison meilleur que le précédent. Il considère a priori que son efficacité est similaire au précédent médicament et ne prendra la responsabilité de proposer la nouvelle composition que si le nouveau taux de guérison s'avère être significativement supérieur à celui de l'ancien médicament .
Son a priori correspond à ce qu'on appellera l'hypothèse nulle, notée . Quant à l'autre hypothèse, l'alternative, notée , elle permet d'indiquer dans quel cas de figure on rejettera cet a priori.
On considère donc ici le test suivant :
L'hypothèse paraît intuitivement d'autant moins crédible que , proportion de guérison, est plus forte. Quand sera jugé "suffisamment plus élevé" que (significativement supérieur à ), le laboratoire pourra rejeter l'hypothèse .
C'est le rejet de qui, s'il est fait à mauvais escient, sera considéré comme le plus coûteux pour le laboratoire, car ayant des répercussions humaines et économiques néfastes : on parle de risque de première espèce.
En pratique on recherche la valeur () telle qu'on rejettera l'hypothèse nulle si :
c'est-à-dire quand la proportion de guérison observée est "vraiment" supérieure à .
Pour fixer ce seuil qui détermine la région de rejet, le data analyst doit demander au laboratoire de fixer une borne supérieure à la probabilité qu'il juge tolérable pour ce rejet à mauvais escient : le niveau de test.
Ensuite, sous cette contrainte, on cherchera à choisir de manière à minimiser la probabilité de non-rejet de à mauvais escient : le risque de seconde espèce.
Cas de la consommation d'essence
Le fabricant de cars souhaite communiquer sur une consommation moyenne (théorique) d'essence égale à litres aux 100. Il ne souhaite pas sous-estimer ou sur-estimer cette valeur seuil.
De la même manière que précédemment, on considère le test :
Ce test est dit bilatère car il existe deux motifs de rejet de son hypothèse de travail.
L'hypothèse paraît intuitivement d'autant moins crédible que , consommation moyenne observée sur son échantillon, est jugé "suffisamment différente" de (significativement inférieure ou supérieure à ). C'est toujours ce rejet qui, s'il est fait à mauvais escient, sera considéré comme plus coûteux pour le constructeur...
On pratique on recherche la valeur telle qu'on rejette l'hypothèse nulle si :
c'est-à-dire si la consommation d'essence moyenne observée est "vraiment différente" de .
Pour fixer ce seuil qui détermine la région de rejet, le data analyst doit là-encore demander au constructeur de fixer une borne supérieure pour son risque de première espèce, celui de rejeter à tort son a priori.