Partage
  • Partager sur Facebook
  • Partager sur Twitter

importance du coefficiant de correlation

19 mai 2019 à 22:25:06

Bonjour,

Jusque-là j'ai étudié les tests d'hypothèse pour savoir si, oui ou non, la moyenne Xmean d'un échantillon et suffisamment différente de ce qui est attendue. Pour cela on utilise n échantillon à partir desquels (utilisant le théorème limite central), on calcule la distribution suivit par Xmean. Par la suite, on regarde si la moyenne de l'échantillon et suffisamment peut probable avec un seuil donné (usuellement 5%).

Concernant le coefficient de corrélation de deux variables X, Y, il semble qu'il soit possible de vérifier sa pertinence en faisant un test d'hypothèse là aussi. Mais je ne suis pas sûr de comprendre. J'ai l'impression qu'il est nécessaire d'obtenir un nombre suffisant de coefficient de corrélation pour établir une distribution, et ensuite on compare le coefficient à cette distribution pour voir s'il est peu probable ou non. Ainsi, il n'y pas besoin du théorème limite central. Est-ce que je me trompe ??

J'ai aussi lue des articles qui verifiaient la pertinance du coefficiant de correlation avec la formule que vous trouverez dans le lien suivant :
http://www.vassarstats.net/rsig.html
Je ne suis pas sûr de saisir pourquoi ceci est suffisant ? visiblement seul la taille de l'échantillon est pertinant ?

-
Edité par adrien050356 19 mai 2019 à 22:45:20

  • Partager sur Facebook
  • Partager sur Twitter
20 mai 2019 à 2:50:26

Il n'y a pas besoin de plusieurs coefficients de corrélation. A partir d'un jeu de données (100 individus adultes, leur âge, et leur poids par exemple), on peut calculer un coefficient de corrélation. Plus ce coefficient est proche de 1 (ou de -1), plus on peut affirmer avec certitude que les données sont corrélées.
  • Partager sur Facebook
  • Partager sur Twitter
20 mai 2019 à 12:15:48

la question posée par adrien050356 me parait aller plus loin que les seules  considérations qualitatives suggérées.

C'est, si j'ai bien compris, se demander comment étendre la théorie classique de l'estimation pour une variable aléatoire à partir d'un échantillon de taille n extrait d'une population. La moyenne ou la variance de l'échantillon de taille n sont elles -mêmes des variables aléatoires .

Ici, le coefficient de corrélation calculé pour un  échantillon extrait  est donc lui-même la valeur d' une variable aléatoire dépendant de n et   des deux variables aléatoires d'une population dont on ne connait pas nécessairement les propriétés statistiques

Je pense que dans le document conséquent ci-après (89 pages) entièrement consacré à l'analyse du coefficient de corrélation , on peut  trouver certaines réponses aux  interrogations posées, en particulier à partir du § 2.4 sur les tests de significativité à mettre en oeuvre .

On y trouve en particulier les conditions d'utilisation de la relation du lien du premier post d'adrien050356 ( formule 2. 12 du document)

 http://www.info.univ-angers.fr/~gh/wstat/Eda/Analyse_de_Correlation.pdf

-
Edité par Sennacherib 20 mai 2019 à 12:16:52

  • Partager sur Facebook
  • Partager sur Twitter
tout ce qui est simple est faux, tout ce qui est compliqué est inutilisable
21 mai 2019 à 21:12:23

C'est précisément cela Sennacherib, je te remercie pour le lien.

Finallement, toute les variables utilisées dans un test d'hypothese sont, du point de vue du test, seulement des variables aléatoire. Ainsi, le théorème limite central n'a de sens que lorsqu'il sagit de voir si une moyenne d'échantillon est peu probable ou non. Mais le test en lui même peut être fait sur n'importe qu'elle variable aléatoire, comme par exemple un coefficient de correlation (j'imagine que ceci n'a de sens que lorsque les deux échantillons à correler sont de petite taille, pour vérifier la pertinance du facteur).

Ca plus le fait que j'ai revu plus en détails la différence entre une lois de Student et un lois Normal, et j'ai fini par comprendre l'équation de mon premier lien :D .
Quoi que, juste une question pour être certain. Le terme du dénominateur correspond à l'estimation de la variance de l'échantillon, c'est bien ça ?

-
Edité par adrien050356 21 mai 2019 à 21:17:07

  • Partager sur Facebook
  • Partager sur Twitter
23 mai 2019 à 16:01:20

adrien050356 a écrit:

Quoi que, juste une question pour être certain. Le terme du dénominateur correspond à l'estimation de la variance de l'échantillon, c'est bien ça ?

-
Edité par adrien050356 21 mai 2019 à 21:17:07


il y a une  similitude avec  la théorie de l'estimation pour une seule variable où on considère une variable réduite  obéissant à la loi de Student où intervient bien au dénominateur l'écart-type \(S\) de l'échantillon sous la forme  \(\frac{S}{\sqrt{n}}\) .

La transposition à la statistique d’échantillonnage du coefficient de corrélation \(r\)  est néanmoins à adapter  en tenant compte de la variance de X et Y et de la covariance pour l'échantillon.

Le dénominateur \(\frac{\sqrt{1-r^2}}{\sqrt{n-2}}\) correspond à l'erreur standard de la distribution d'échantillonnage de \(r\)  avec \(1-r^2\) qui s'exprime en fonction de l'erreur type d'estimation de \(y\) pour   \(x\) fixé, notée \(s_{x,y}\) et de l'écart type sur \(y\) . D'après un vieux cours sous la main, on a \(s_{y,x}^2=s_y^2(1-r^2)\) .

Bref, ce dénominateur est une interprétation de la variance ou de l'écart type adapté au  coefficient de corrélation. Le \(n-2\) vient , je pense, de la correction apportée pour une estimation non biaisée de l'erreur-standard. 

-
Edité par Sennacherib 23 mai 2019 à 16:05:01

  • Partager sur Facebook
  • Partager sur Twitter
tout ce qui est simple est faux, tout ce qui est compliqué est inutilisable