Partage
  • Partager sur Facebook
  • Partager sur Twitter

Estimer la moyenne et l'écart type de variables aléatoires

Sujet résolu
    16 janvier 2012 à 21:40:32

    Bonjour à tous.
    J'ai commencé un cours de modélisation aujourd'hui et je suis déjà perdu.
    On souhaite estimer la moyenne et l'écart-type de plusieurs variables aléatoires suivant la même loi. Voici le bout de cours sur lequel je bloque ainsi que mes interrogations.

    Estimation d'une moyenne et d'un écart-type à partir d'observations indépendantes:
    Soient n variables aléatoires <math>\(X_1,X_2,...,X_n\)</math> qui suivent la même loi. Cette loi ayant comme moyenne μ et écart-type σ.

    Estimation de la moyenne:
    On prend <math>\(\bar{X}=\frac{X_1+...+X_n}{n}\)</math>
    En effet, l'espérance de <math>\(\bar{X}\)</math> vaut <math>\(\frac{E(X_1)+...+E(X_n)}{n}=\frac{\mu+...+\mu}{n}=\mu\)</math>

    Déjà trois questions:
    - Pourquoi une telle vérification? Ne peut-on pas se contenter de simplement prendre la moyenne des variables <math>\(X_1,...,X_n\)</math> ?
    - Pourquoi a-t-on <math>\(E(X_i)=\mu\)</math> ?
    - Je ne comprends pas pourquoi le fait que l'espérance de la formule (supposée donner la moyenne) soit égale à la moyenne montre que la formule utilisée est correcte.


    Estimation de l'écart type:
    On part de la variance de l'échantillon: Y=<math>\(\sum_{i=1}^n \frac{(X_i-\bar{X})^2}{n}\)</math>, a-t-on E(Y)=<math>\(\sigma^2\)</math> ?
    On calcule l'espérance de Y. Le professeur trouve <math>\(E(Y)=(n-1)\sigma^2\frac{1}{n}\)</math>.

    Or, je ne trouve pas ça, voici mes calculs, pouvez-vous me dire ou se situe mon erreur?
    <math>\(\sum_{i=1}^n (X_i-\bar{X})^2=\sum_{i=1}^n X_i^2 -n\bar{X}^2\)</math>(Je ne détaille pas cette partie car le professeur l'a corrigée.)
    Donc <math>\(E(Y)=E(\frac{\sum_{i=1}^n X_i^2 -n\bar{X}^2}{n}) =E(\frac{\sum_{i=1}^n X_i^2 -(\sum_{i=1}^n X_i)^2}{n}) =\frac{\sum_{i=1}^n E(X_i^2) -E((\sum_{i=1}^n X_i)^2)}{n}\)</math>

    Or <math>\(E(X_i^2)=(\mu^2+\sigma^2)\)</math> (d'après le prof)
    Donc <math>\(E(Y)=\frac{\sum_{i=1}^n (\mu^2+\sigma^2) -E((\sum_{i=1}^n X_i)^2)}{n}=(\mu^2+\sigma^2)-\frac{E((\sum_{i=1}^n X_i)^2)}{n}\)</math>

    Or <math>\(E((\sum_{i=1}^n X_i)^2)=E(X_1^2)+...+E(X_n^2)+\sum_{i\neq j} E(X_i) E(X_j)=n(\mu^2+\sigma^2)+n(n-1)\mu^2\)</math>
    Donc <math>\(E(Y)=(\mu^2+\sigma^2)-(\mu^2+\sigma^2)-(n-1)\mu^2=-(n-1)\mu^2\)</math>

    A ce stade, j'ai encore trois autres questions:
    - Où ai-je fait une erreur?
    - Pourquoi <math>\(E(X_i^2)=(\mu^2+\sigma^2)\)</math> ?
    - Et encore une fois, pourquoi ne peut-on pas simplement appliquer la formule de l'écart-type?


    Pour la suite, j'ai compris, en partant de son résultat, le professeur conclut qu'il lui faut utiliser la formule: <math>\(\sqrt{\frac{\sum_{i=1}^n (X_i - \bar{x} )^2}{n-1}}\)</math> pour estimer <math>\(\sigma\)</math>.

    J'ai conscience qu'il s'agit d'un gros boulot que de comprendre tout ça et de répondre à mes questions.
    Je vous remercie donc par avance si vous avez le courage de me lire et de répondre (mais je comprendrai si ce n'étais pas le cas).
    • Partager sur Facebook
    • Partager sur Twitter
      16 janvier 2012 à 22:37:34

      Je vais essayer de répondre dans la mesure de mes connaissances :

      Estimation de la moyenne :



      Pourquoi a-t-on <math>\(E(X_i)=\mu\)</math> ?

      Par définition, toutes tes variables aléatoires suivent une loi de moyenne <math>\(\mu\)</math>.

      Pourquoi une telle vérification? Ne peut-on pas se contenter de simplement prendre la moyenne des variables X_1,...,X_n ?
      Je ne comprends pas pourquoi le fait que l'espérance de la formule (supposée donner la moyenne) soit égale à la moyenne montre que la formule utilisée est correcte.

      Ces deux questions sont en faite liées.
      On essaye de retrouver "la vraie moyenne" de la loi des variables qu'on observe. Or, on ne dispose que d'un nombre limité d'échantillon. La première idée qui nous vient est de faire la moyenne arithmétique des différents échantillons et on espère que ça se rapprochera du résultat.

      La première vérification qu'il faudrait faire (et qui n'est pas faite ici) serait de vérifier que si on dispose d'un nombre d'échantillons tendant vers l'infini, on retombe bien sur le résultat souhaite, c'est à dire <math>\(\mu\)</math>, ici, c'est le cas (loi des grands nombres)

      La seconde vérification est de voir si notre estimateur est biaisé, c'est-a-dire qu'on se pose la question suivante : si on prend plusieurs tirages de <math>\(X_i\)</math> quelconques, est-ce qu'on tombe en moyenne sur la valeur que l'on souhaite estimer ?
      Pour cela, on calcule l'espérance de notre estimateur. Ici, on trouve bien <math>\(\mu\)</math>, notre estimateur est sans biais.

      Une remarque : les estimateurs sans biais ne sont pas forcement toujours les meilleurs, on pourrait imaginer un estimateur sans biais mais dont les réalisations se trouvent toujours à une certaine distance de l'espérance théorique (avec un grand ecart-type) alors qu'un estimateur un peu biaisé pourrait avoir un petit ecart-type et donc se tromperait "un peu moins" (on tombe certes autour d'une valeur différente du paramètre à estimer, mais cette valeur biaisée peut être proche de la vraie valeur et comme on atterrit pas loin de la valeur biaisé, on atterrit pas loin de la vraie valeur).
      Pour illustrer cette remarque, deux schémas : dans le premier, l'estimateur est sans biais mais est toujours très loin de la valeur à estimer, dans le second, l'estimateur est biaisé, mais on reste très proche de la valeur à estimer. Les points rouges représente les différentes réalisations de notre estimateur (pour différents lots d'échantillons) :
      Image utilisateurImage utilisateur

      Estimation de l'écart type:



      Où ai-je fait une erreur?

      <math>\(n\bar{X}^2 = n\left(\sum_{i=1}^n\frac{X_i}{n}\right)^2 = \frac{n}{n^2}\left(\sum_{i=1}^n X_i\right)^2 = \frac{1}{n}\left(\sum_{i=1}^n X_i\right)^2\)</math>, du coup, il y a un <math>\(n\)</math> de plus au dénominateur dans la ligne suivante :
      <math>\(E(Y)=(\mu^2+\sigma^2)-\frac{E((\sum_{i=1}^n X_i)^2)}{n^2}\)</math>
      Ensuite,comme tu l'as dit <math>\(E((\sum_{i=1}^n X_i)^2)=n(\mu^2+\sigma^2)+n(n-1)\mu^2=n\sigma^2+n^2\mu^2\)</math>
      En injectant ça, on arrive à :
      <math>\(E(Y)=(\mu^2+\sigma^2)-\frac{n\sigma^2+n^2\mu^2}{n^2} = \mu^2+\sigma^2-\frac{\sigma^2}{n}-\mu^2 = \sigma^2\left(1-\frac{1}{n}\right)\)</math>, soit le résultat attendu.

      On constate d'ailleurs que l'estimateur est biaisé (l'espérance n'est pas la valeur du paramètre que l'on voulait estimer) mais il est consistant (il va bien tendre vers <math>\(\sigma^2\)</math> si le nombre d'échantillon tend vers l'infini, mais il faudrait le démontrer)

      Pourquoi <math>\(E(X_i^2)=(\mu^2+\sigma^2)\)</math> ?

      C'est la définition de l'écart-type écrit dans l'autre sens :
      <math>\(\sigma^2 = E(X_i^2)-(\underbrace{E(X_i)}_{\mu})^2\)</math>

      Et encore une fois, pourquoi ne peut-on pas simplement appliquer la formule de l'écart-type?

      Encore une fois parce que l'on ne dispose que d'un nombre fini d'échantillons. On applique une formule empirique de l'écart-type et on espère que ça se comporte comme il faut.
      Il faut bien comprendre que <math>\(\bar{X}\)</math> et <math>\(Y\)</math> sont des variables aléatoires (car combinaison linéaire de variable aléatoire) et que donc elles prennent des valeurs différentes pour différents échantillon, hors il n'y a qu'une seule moyenne et qu'un seul écart-type.

      Remarque : ici, la formule empirique "basique" donne un estimateur biaisé, si on veut un estimateur sans biais, on peut prendre <math>\(Y_2 = \frac{Y}{1-\frac{1}{n}} = \frac{n}{n-1}Y = \sum_{i=1}^n \frac{(X_i-\bar{X})^2}{n-1}\)</math>, mais qui ne correspond plus à la formule empirique intuitive.

      Je viens de remarquer que ma dernière remarque correspond à la fin de ton post (je répondait au fur et à mesure ^^ )

      J'espère que ça va t'aider, si tu as d'autres questions, n'hésite pas.
      • Partager sur Facebook
      • Partager sur Twitter
        17 janvier 2012 à 23:16:04

        Merci beaucoup Rushia, ta réponse est vraiment claire.
        Je me rends compte que j'étais passé à côté de l'essentiel.
        Je comprends tout maintenant.
        • Partager sur Facebook
        • Partager sur Twitter

        Estimer la moyenne et l'écart type de variables aléatoires

        × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
        × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
        • Editeur
        • Markdown