Partage
  • Partager sur Facebook
  • Partager sur Twitter

information mutuelle

18 juillet 2018 à 0:45:14

Bonjour,

je viens car j'aimerais comprendre le concepte d'information mutuelle.

https://en.wikipedia.org/wiki/Mutual_information

https://en.wikipedia.org/wiki/Conditional_entropy

Le premier lien nous dit que l'informatiln mutuelle I(Y,X) entre deux variable aléatoire X et Y se calcule à partir de l'entropy de y, H(Y), et l'entropy conditionnel de Y sashant X, H(Y|X).

Pour ce qui est de l'entropy, je pense avoir compris. Mais l'entropy conditionnelle, je sèche. Le deuxième lien donne une définition que je n'arrive pas à interpreter. Dans le premier lien en revanche, section "Relation to conditionnal and joint entropy", il est dit ceci "H(Y|X) est la quantité d'incertitude restante sur Y après que X soit connue". Cette phrase se veut intuitive mais ça ne m'aide pas plus.

Quelqu'un pour m'aider ?

EDIT : J'utilise des signaux. Et je pense qu'une partie de mon incompréhension vient du fait que je suis pas sûr de sasir ce que veut dire la probabilité conditionelle p(Y|X) lorsqu'il s'agit de signaux. lorsque l'on a deux variable explicative du type X = fille ou garçon et Y = mineur ou majeur par exemple, si je fait P(Y|X = fille) alors c'est facile conceptualiser. Mais pour des signaux ca veut dire quoi ?

-
Edité par adrien050356 18 juillet 2018 à 1:38:18

  • Partager sur Facebook
  • Partager sur Twitter
18 juillet 2018 à 13:20:51

Bonjour, 

Pour être sûr que tu aies bien compris, l'entropie est la quantité d'information moyenne contenu dans un bit de signal. La quantité d'information est en fait comme tu le dis, un synonyme pour incertitude. L'entropie est donc la somme des probabilités pondérées par le log_2 de ces mêmes probabilités. Imaginons une source de bit, c'est à dire un alphabet binaire avec comme lettre possible 0 et 1. Appelons la proba d'avoir 0 p. alors si tu traces le graphe de l'entropie en fonction de p, tu auras une cloche qui est max en p=0.5 et 0 en p=0 et p=1. Que cela veut-il dire? Que l'entropie est maximale quand on a autant de chance d'avoir un 0 ou un  1. Ce qui veut dire que ta lettre qui va sortir aura beaucoup d'information. Imaginons le cas trivial ou tu sais que ta source ne ressort que des 0, quel est son entropie? 0, car un 0 qui sort ne donne aucune information sur la source, rien de pertinent puisque tu sais déja que la source ne ressort que des 0. Tu peux remplacer le mot "information" par "incertitude" si tu comprends mieux de cette maniere. L'entropie informatique est évidemment relatée à l'entropie thermodynamique, puisque cela donne une indication intuitive sur le "désordre" du signal. 

Pour l'information mutuelle I(x,y) , c'est l'information ou l'incertitude qu'il reste sur x après avoir obtenu y. Si tu as bien compris ce qu'était l'entropie, il découle facilement que I(x,y) = H(x)-H(x|y), c'est à dire l'incertitude sur x qu'il reste moins l'incertitude que tu aurais sur x si tu observais y. Prenons 1 cas simple : imaginons x=y, alors intuitivement l'information mutuelle vaut l'information obtenue par x, i.e I(x,y) = H(x), car H(x|x) = 0, puisque x n'apporte aucune information si on connait déja x. 

Pour ta question plus générale sur les signaux, il faut déja savoir si tu travailles avec des signaux numériques ou analogiques. Je pars du principe que tu utilises les premiers. Dans ce cas, tu as une source (signal comme tu dis) avec un alphabet composé de lettres qui sont attachées à leur probabilité propre. dans le cas binaire, la source U(n) est donc égal à 0 avec une proba p0 et 1 avec p1. Dans ce cas, la proba d'un évenement est tout simplement la proba que ta source U égale l'une ou l'autre lettres de l'alphabet. Ex : P(U(2) = 0 | U(1) = 1) veut dire la proba que la source au temps 2 sorte un 0 sachant que en t=1, la source sort 1. 

-
Edité par JeanCharles28 18 juillet 2018 à 13:22:32

  • Partager sur Facebook
  • Partager sur Twitter
19 juillet 2018 à 0:43:45

Je te remercie d'avoir pris le temps de répondre ! C'est plutôt clair.

Je trouve que la définition de l'entropie conditionnelle n'est pas si évidante que ça. Intuitivement, on comprends bien le H(X) - H(X|Y). Il y a l'idée que plus les variables X et Y se ressembles, plus la part enlevée par H(X|Y) diminue, donc moins on a d'incertitude sur l'une connaissant l'autre. Mais mathématiquement ca saute pas au yeux.

Mais je pense avoir compris. la définition de H(X,Y) est l'esperence sur X et Y de log(P(X|Y) : https://en.wikipedia.org/wiki/Conditional_entropy

Ton exemple m'a aidé. C'est à dire que, connaissant une réalisation de la variable Y, on regarde la probabilité associé au différente réalisation de X. Ainsi, connaissant Y, si en moyenne on a des réalisation de X peu probable, alors X contient un suplément d'information non présent dans Y . En revanche, si les realisation de X sont en moyenne très probable, alors X n'as pas d'information suplémentaire. En d'autre mot connaissant Y, plus X a des valeurs centré autour des valeurs attenduent, plus X et Y se ressembles. Est-ce que je me trompe ?

Mais ca me fait me poser des questions sur ce qu'est concretement une distribution jointe (bivariée dans ce cas là) et que signifie le fait que deux variables sont indépendantes. Intuitivement, on comprends que si elle sont indépendante, l'une n'influance pas l'autre. Mais qu'elle est la différence entre un distribution jointe de variable dépendante et une distribution jointe de variable indépendante ? le classique P(X,Y) = P(X)P(Y) signifi quoi finallement ?

-
Edité par adrien050356 19 juillet 2018 à 0:44:42

  • Partager sur Facebook
  • Partager sur Twitter
19 juillet 2018 à 1:22:17

Je vais commencer par la dernière question. P(X,Y) = P(X)*P(Y), ça signifie quoi ?   Je n'ai me pas trop la formulation, je préfère dire : Dans quels cas on peut dire P(X,Y) = P(X)*P(Y)... mais peut-être que c'est moi qui me trompe sur ce point.

Quand on sait que les variables sont indépendantes, on peut appliquer P(X,Y) = P(X)*P(Y). Variables indépendantes, ça veut dire quoi ? Ca veut dire que le fait de connaitre le résultat de X n'aide pas du tout à prévoir le résultat de Y.

Si on prend l'exemple classique des dés, j'ai un dé rouge et un dé jaune. Le fait de savoir que le dé rouge a sortie le nombre 1 n'aide pas du tout à prévoir la valeur du dé jaune : les résultats des 2 dés sont indépendants, la formule P(X,Y) = P(X)*P(Y) peut s'appliquer.

Par contre si on s'intéresse d'une part au produit des 2 dés, et d'autre part à la somme, le fait de connaître X aide à prévoir Y, et inversement. Et donc la formule P(XY)= P(X)*P(Y) ne s'applique pas.

Sinon, tu dis : Connaissant Y, plus X a des valeurs centrées autour des valeurs attendues, plus X et Y se ressemblent.

Non.

Prenons cet exemple.

Y peut prendre 4 valeurs : homme jeune, homme âgé , femme jeune et  femme agée

X peut prendre 2 valeurs : homme ou femme.

Connaissant Y, on peut parfaitement prédire X.  Mais l'inverse n'est pas vrai ; connaissant X, on ne peut pas prédire Y. Quand on dit : X et Y se ressemblent, la relation est symétrique : X ressemble à Y et Y ressemble à X. Alors que dans H(X|Y), X et Y ne jouent pas des rôles symétriques.

  • Partager sur Facebook
  • Partager sur Twitter
19 juillet 2018 à 2:05:07

L'exemple sur les dès est parlant. On conceptualise l'idée. Cependant on sait que qu'ils sont indépendant.

Si en revanche j'ai deux variable X et Y dont j'ignore l'origine, comment puis-savoir s'il elles sont indépendante? Ce que je veux dire c'est que P(X,Y) = P(X)P(Y) signifie forcement quelque chose de conceptualisable. D'où ma question précédente, qu'elle est la différence entre un distribution de variable dependante et une distribution de variable indépendantes ?

Concernant l'information mutuelle I(X,Y) = H(Y) - H(Y|X), H(Y|X) quantifie l'information ou l'incertitude présente dans Y qui ne peux pas être expliqué par X. Or, si je calcul l'information mutuel de X, alors I(X,X) = H(X) - H(X|X) = H(X), il y a donc bien, d'une certaine manière, un calcule de "ressemblance" ? en tout cas en terme d'incertitude ? le mot ressemblance est surement mal choisit, mais visiblement si l'incertitude présente dans X et Y est la même, alors l'information mutuel entre X et Y et maximal ? d'ailleurs I(X,Y) = H(Y) - H(Y|X)  = H(X) - H(X|Y).

{\begin{aligned}H(Y|X)\ &\equiv \sum _{{x\in {\mathcal  X}}}\,p(x)\,H(Y|X=x)\\&=-\sum _{{x\in {\mathcal  X}}}p(x)\sum _{{y\in {\mathcal  Y}}}\,p(y|x)\,\log \,p(y|x)\\&=-\sum _{{x\in {\mathcal  X}}}\sum _{{y\in {\mathcal  Y}}}\,p(x,y)\,\log \,p(y|x)\\&=-\sum _{{x\in {\mathcal  X},y\in {\mathcal  Y}}}p(x,y)\log \,p(y|x)\\&=-\sum _{{x\in {\mathcal  X},y\in {\mathcal  Y}}}p(x,y)\log {\frac  {p(x,y)}{p(x)}}.\\&=\sum _{{x\in {\mathcal  X},y\in {\mathcal  Y}}}p(x,y)\log {\frac  {p(x)}{p(x,y)}}.\\\end{aligned}}

-
Edité par adrien050356 19 juillet 2018 à 2:15:10

  • Partager sur Facebook
  • Partager sur Twitter
19 juillet 2018 à 9:47:05

Bonjour, 

pour ta première question, si tu ignores l'origine de 2 variables, tu peux faire le chemin contraires : calculer p(x,y) et p(x)*p(y) et regarder en tout point si tu as une égalité, par exemple. 

Pour ta deuxième question, bien sûr que si l'info mutuelle est maximal dans le cas où x et y sont les mêmes, puisque y donne tout ce qu'il est possible de savoir sur x, ou autrement dit, tout ce que x est capable de nous donner comme information (H(x))

  • Partager sur Facebook
  • Partager sur Twitter
19 juillet 2018 à 10:05:18

Au début, tu dis  H(Y|X) est la quantité d'incertitude restante sur Y après que X soit connue

Autrement dit, si H(Y|X) vaut 0, Y est parfaitement définie par X. On dit que X explique Y.

Si en plus H(X|Y) vaut aussi 0, alors Y explique X, et donc les 2 variables X et Y sont parfaitement liées.

Mais on peut avoir des cas où H(Y|X) vaut 0 , alors que H(X|Y) n'est pas nul. cf l'exemple précédent homme-jeune , homme-âgé ... ...

  • Partager sur Facebook
  • Partager sur Twitter
20 juillet 2018 à 11:51:06

Ok, je pense mieux comprendre. C'est plus clair que au départ. J'ai juste une dernière question pour raccrocher avec le sujet qui m'a fait me poser des question sur l'information mutelle, à savoir l'ACP basée sur Infomax.

Dans l'ACP, l'idée et de calculer Y = W*X avec X une matrice de taille M*N composée de M signaux de N échantillons, chacun des signaux étant un mélange de M sources indépendantes. W une matrice de démélange de taille M*M et Y une matrice de taille M*N contenant les M sources d'origine.

L'idée est alors de maximiser l'information mutuelle entre X et Y afin de retrouver les M sources d'orignes (ou les estimer en tout cas). Quand on dit cela est-ce que l'on dit que l'on cherche à maximer les I(X(i,:),Y(i,:)) avec i=1,2,...,M ? avec X(i,:) la ieme ligne de X (resp Y).

De plus, on cherche à maximer H(Y) et minimiser H(Y|X)

Mais comment cette approche peut elle forcement retrouver les sources d'origines ?

  • Partager sur Facebook
  • Partager sur Twitter
26 juillet 2018 à 10:47:33

Le principe de l'ACP, c'est quoi ? Tu as n individus. Pour chaque individu, tu as p mesures. Imaginons que les mesures sont longueur, largeur, hauteur, et plusieurs autres mesures.

Imaginons que je choisisse de travailler avec d'autres jeux de données. Je choisis de travailler avec longueur, longueur+largeur, longueur+largeur+hauteur/3.

A partir de mon 1er jeu de données, je peux parfaitement bâtir mon 2ème jeu de données. Et à partir de mon 2ème jeu de données, je peux aussi reconstituer mon 1er jeu de données.  Ca répond (partiellement) à ta dernière question.  Dans une ACP : on remplace les données d'origine, par d'autres données, obtenues par combinaison linéaire. Et comme on ne fait que des combinaisons linéaires, on est sûr qu'on pourra remonter aux données initiales. 

Combinaison linéaire, ça veut dire quoi ? Ca veut dire qu'on ne peut pas remplacer nos longueur, largeur, hauteur par longueur+largeur*hauteur, par exemple. 

Maintenant, pourquoi, on choisit de remplacer nos variables (a,b,c) par (a+b, a-c, b+0.1c) par exemple, et pas par (a+b*0.3, a+c, b-c).  Si j'ai des individus, et que pour chaque individu, j'ai la taille , le poids et le tour de taille. Globalement, le nuage qui représente ces individus a une forme assez allongée. Plus la taille est grande, plus le poids est grand. Et plus le tour de taille est élevé, plus le poids est grand.

Les points sont globalement alignés, mais ils ne sont pas alignés sur l'un des axes de notre repère. Ce qu'on cherche à faire, c'est faire un changement de repère, et faire en sorte que notre nuage de points soit aligné, selon le 1er axe de notre repère. Ensuite, les autres axes aussi doivent être le plus représentatif possible. Visuellement, c'est un peu moins évident à expliquer, mais la logique reste exactement la même.

  • Partager sur Facebook
  • Partager sur Twitter