Ce chapitre est facultatif si vous souhaitez vous former au métier de Data Analyst. Par contre, il est obligatoire pour ceux qui visent le métier de Data Scientist.
Notez que, contrairement à ce que nous avons vu dans le chapitre précédent, il n'est pas toujours aussi simple de trouver des estimateurs. Il existe des méthodologies pour imaginer des estimateurs, en sus des idées "naturelles", parmi lesquelles la méthode des moments et la méthode du maximum de vraisemblance.
Méthode des moments
La méthode des moments consiste à trouver une fonction m , continue et inversible, et une fonction (continue) φ telles que m(θ)=E[φ(X1)] .
L'estimateur des moments pour θ vaut :
On sait que cet estimateur est consistant.
Estimateur du maximum de vraisemblance
L'estimateur du maximum de vraisemblance, comme son nom l'indique, maximise la vraisemblance définie comme suit :
Dans le cas discret i.i.d :
Dans le cas continu i.i.d :
Maximum de vraisemblance
La vraisemblance mesure la probabilité que les observations proviennent effectivement d'un échantillon de loi paramétrée par θ . Trouver le maximum de vraisemblance consiste donc à trouver le paramètre le plus vraisemblable pour notre échantillon !
On considère usuellement la log-vraisemblance (qui facilite les calculs pour des lois de probabilité appartenant à la famille dite exponentielle) :
Application à la loi exponentielle
Estimateur du maximum de vraisemblance
Soit un échantillon (X1,…,Xn) de loi E(θ) .
Rappelons que la densité de cette loi exponentielle est :
On a :
Il suffit donc de dériver les deux premiers termes par rapport à θ pour déterminer l'extremum (et on vérifie qu'il s'agit bien d'un maximum !) :
On obtient :
1¯X est donc l'estimateur du maximum de vraisemblance de θ .
Méthode des moments
On aurait également pu obtenir cette solution par la méthode des moments en notant que pour une loi E(θ) :
Il suffisait de considérer les fonctions :
Notons qu'on aurait également pu se baser sur le résultat suivant :
E(X2)=2θ2
pour obtenir un autre estimateur, mais celui-ci aurait été moins performant que l'estimateur du maximum de vraisemblance.