Partage
  • Partager sur Facebook
  • Partager sur Twitter

Interdépendance de deux variables

    19 décembre 2015 à 18:57:58

    Bonjour.

    Les courbes de Lorenz et l'indice de Gini permettent d'évaluer l'interdépendance de deux variables. En d'autres terme, considérant une statistiques, comment évaluer qu'une variable A a une influence sur une variable B.

        On trouve de la documentation sur les courbes de Lorenz mais pas pour le problème posé.

    Si ce sujet intéresse quelqu'un, j'aimerais bien en parler.

    Bonne journée.

    • Partager sur Facebook
    • Partager sur Twitter
      20 décembre 2015 à 10:27:30

      Les courbes de Lorenz s'appliquent avant tout aux distributions de richesses. On peut les étendre aux données statistiques dont la somme a un sens et qui est finie. Elles ne sont donc généralement pas adaptées pour comparer deux variables aléatoires quelconques.

      • Partager sur Facebook
      • Partager sur Twitter
        20 décembre 2015 à 13:43:51

        Merci Me Capello de m'avoir répondu.

        A l'évidence ce sujet ne vous intéresse pas.

        D'ailleurs, où avez-vous lu qu'il s'agissait de variables aléatoires ? J'ignorais que la richesse avait un rapport quelconque avec l'aléatoire.

        J'ai parlé de données statistiques, il n'y a aucune raison que leur répartition ait un caractère aléatoire.

        • Partager sur Facebook
        • Partager sur Twitter
          20 décembre 2015 à 15:14:48

          Quel est le sujet ? Quelle est la question ?
          • Partager sur Facebook
          • Partager sur Twitter
            20 décembre 2015 à 15:45:08

            Bonjour tbc,

            Le sujet consiste à évaluer la relation, l'indépendance, l'implication entre 2 variables d'une statistique.

              Une statistique consiste à lister pour un grand nombre d'individus un certain nombre de caractéristiques. Chaque caractéristique est une variable. Soit deux variables A et B. Comment étudier l'implication ou la relation entre le variable A et la variable B. Mathématiquement-dit  est-ce que "A ==>B" est vrai ? Comment l'évaluer ?

            Application : soit 2 statistiques contenant les mêmes variables, effectués dans des contextes (localisation, époque etc.) différents. Comparaison de cette caractéristique "A ==> B" dans ces différents contextes.

              Exemple bidon : la statistique contient 2 variables A = "mois de naissance" ; B="taille de l'individu".

            Ma question : considérant que je n'ai rien trouvé sur le sujet, j'ai mis au point une méthode basée sur les courbes de Lorentz. Ce sujet intéresse-t-il quelqu'un ?

            • Partager sur Facebook
            • Partager sur Twitter
              20 décembre 2015 à 16:39:14

              PierreDOLEZ1 a écrit:

              D'ailleurs, où avez-vous lu qu'il s'agissait de variables aléatoires ? J'ignorais que la richesse avait un rapport quelconque avec l'aléatoire.

              J'ai parlé de données statistiques, il n'y a aucune raison que leur répartition ait un caractère aléatoire.

              Attention à ne pas tout mélanger ! On parle bien dans ce cas de variables aléatoires, ce qui n'a rien à voir avec une répartition aléatoire !

              Quoi qu'il en soit, pour tracer les courbes de Lorenz, on doit calculer la proportion du revenu d'une tranche de la population sur le revenu cumulé de la population entière. On doit donc avoir une variable que cela a du sens de cumuler, autrement dit d'intégrer, sur la population entière, comme un revenu, une quantité de matières premières produites, un nombre de kilomètres parcourus d'un réseau de distribution… Cela n'a en revanche aucun sens de cumuler la taille de plusieurs individus ou de sommer ou d'intégrer des variables intensives comme des mois de naissance ou des températures. (Cela n'a en effet pas de sens de parler de la taille totale (cumulée) d'une population d'individus, pas plus que cela n'a du sens de parler de la somme de leur mois de naissance.) En bref, pour que cela ait un sens, il faut que l'on puisse dire : « X% de la population produit/consomme/etc. Y% de ce que produit/consomme/etc. la population totale. »

              Quels exemples concrets de variables A et B avez-vous à l'esprit ? Ça nous aiderait d'avoir les détails de ce que vous voulez faire exactement…

              • Partager sur Facebook
              • Partager sur Twitter
                20 décembre 2015 à 17:18:57

                Bon, d'abord, il y a un point important, il n'y a aucune notion d'aléatoire ou de hasard dans ce problème. Sauf que on considère que le nombre d'individus est suffisamment grand pour être considéré comme représentatif (cf la loi des grands nombres).

                Exemple concret : établir une relation entre le rapport de taille d'enfants( par rapport la la moyenne) et le niveau de richesse. C'est cette notion de "richesse" qui a du orienter l'étudiant qui fait ce projet vers les courbes de Lorenz, mais ça aurait très bien pu être un autre critère, d'où mon exemple bidon. 

                Le sujet m'a intéressé alors, j'essaye de développer la méthode. En tout cas les tests que j'ai faits sont très satisfaisants.

                Dans le cas général, comment résout-on ce type de problème ? Je n'ai pas trouvé de référence.

                Concernant le cumul dont vous parlez, une moyenne arithmétique, c'est bien un "cumul" divisé par le nombre de valeurs.

                Pour être tout à fait complet, si je pose la question sur un forum, c'est pour avoir une critique positive, et non pas une affirmation de "non-sens". Il me reste un point à étudier : la substitution de l'indice de Gini par la fonction Y=A + B.exp(CX), ce qui donnerait un critère de comparaison plus efficace, 3 paramètres au lieu d'un seul.  

                • Partager sur Facebook
                • Partager sur Twitter
                  20 décembre 2015 à 17:19:48

                  Ah , Pareto ... si tu nous entendais !

                  Je crois comprendre que PierreDOLEZ n'est pas en attente d'aide, mais propose des solutions.

                  • Partager sur Facebook
                  • Partager sur Twitter
                    20 décembre 2015 à 21:44:11

                    Bonsoir,

                    Ces échanges sont assez étonnants.

                    J'expose un problème assez brièvement, tout simplement pour voir si ce sujet intéresse quelqu'un.

                    Première réponse assez hors sujet, manifestement, Me Capello n'est pas intéressé, mais il parle de variable aléatoire, alors qu'il n'en est pas question dans mon message d'origine.

                    Puis quelques échanges où on peut retenir l'affirmation "non-sens".

                    Enfin une intervention de tbc faisant appel à Paréto, manifestement hors-sujet.

                    Je comprends très bien que ce sujet n'intéresse pas ces deux intervenants, mais imaginez une seconde que ce sujet intéressera quelqu'un d'autre, croyez vous vraiment qu'il osera intervenir ?

                    Bonne soirée.

                    • Partager sur Facebook
                    • Partager sur Twitter
                      20 décembre 2015 à 23:17:58

                      Habituellement, ce forum est destiné aux personnes qui viennent soumettre une question, et demander de l'aide. Et des gens plus pointus essaient d'apporter une réponse.

                      Ici, tu viens expliquer qu'il y a un sujet (lequel, ce n'est toujours pas clair), pour lequel tu aurais découvert une solution.

                      Présenter comme ça, personne ne va s'intéresser à ta découverte. 

                      Si tu y tiens, expose le résultat de tes recherches... pourquoi pas. Mais ne dis pas que tu as trouvé un truc, sans expliquer ce truc.

                      • Partager sur Facebook
                      • Partager sur Twitter
                        20 décembre 2015 à 23:49:08

                        Je pensais avoir exposé le sujet avec précision.

                        Bref, je me répète. On a une statistique sur un très grand nombre. Il y a plusieurs variables, 14 dans le cas présent. Deux en particulier nous intéressent : la taille d'enfants (ramenée à un pourcentage de la taille moyenne) et le niveau de richesse.

                          Un étudiant (probablement dans un contexte géographique/médicale) rédige un rapport et utilise un script R pour représenter la conjonction des facteurs richesse et taille (en fait rachitisme).

                        Ce sujet m'intéresse. L'étudiant cherche à justifier mathématiquement son analyse.

                        Je me suis inscrit sur ce forum pour comprendre son script R. Résultat NUL. ( détails HS)

                        Comme je suis têtu j'ai cherché à comprendre la méthode. J'ai fini par trouver une utilisation intéressante de ces courbes de Lorenz. J'ai écrit un papier sur le sujet, mais avant de le mettre sur mon site, j'aimerai bien avoir un autre avis (autre que "non-sens").

                        En bref, je suis sûr de mon approche, mais il y y des détails dont je ne suis pas sûr. Et en plus j'aimerais bien étendre la numérisation à la formule que j'ai indiquée.

                        Il me parait assez évident que cette préoccupation : relation entre telle observation et telle autre (exemple tabagisme/ mortalité) n'est pas du tout sans intérêt. Je n'ai pas trouvé d'information. Si je suis complètement à côté de la plaque, qu'on me le dise. Mais pas qu'on m'envoie des réflexion du genre "non sens".

                        S'il y a d'autres méthodes, merci de me les indiquer, je les transmettrai à l'étudiant.

                        PM Par précaution, j'ai commencé par poser la question "Où je devais évoquer mon problème ?". On m'a donné un lien sur un autre forum et un autre sur la présente section.  

                        • Partager sur Facebook
                        • Partager sur Twitter
                          21 décembre 2015 à 0:15:48

                          Donc je résume : 

                          Il y a un type qui a écrit un truc avec lequel je ne suis pas d'accord. J'ai écrit un autre truc. Et le domaine d'application de tout cela, c'est l'analyse de corrélation entre différentes mesures. Donnez moi votre avis. 

                          C'est bien ça ? Difficile d'avoir un avis sur une telle question. A part un avis assez critique.

                          Des documentations sur la corrélation, ou plutôt sur le rapport de causalité entre 2 mesures, j'ai l'impression qu'il y en a des tonnes. En tapant 'étude corrélation causalité' sur Google, j'arrive sur 178000 articles. J'attend de voir le 178001-ème.

                          En plus, quand on a 14 mesures et qu'on en isole 2 et donc qu'on fait l'impasse sur les 12 autres, on commence forcément sur de mauvaises bases. Si on a 14 mesures, on garde les 14 mesures, et on part sur des techniques type ACP par exemple.

                          • Partager sur Facebook
                          • Partager sur Twitter
                            21 décembre 2015 à 0:28:33

                            Bon, j'ai compris, rien à faire sur ce forum.

                            Ciao

                            • Partager sur Facebook
                            • Partager sur Twitter
                              21 décembre 2015 à 1:39:14

                              Pourquoi piquez-vous donc la mouche, Pierre ? :-° Nous cherchons seulement à vous aider et à comprendre votre question, ce qui n'est pas chose aisée vu que nous avons dû remonter la piste du Sioux pour le faire…

                              Tout d'abord, il est faux de prétendre que je ne m'intéresse pas au problème. La preuve : je participe à ce fil. Si cette question ne m'intéressait pas, je n'y répondrais tout simplement pas !

                              Ensuite vous faites une fixation sur le concept de variable aléatoire, terme courant en statistiques, que vous refusez de comprendre et que vous confondez avec distribution aléatoire. Si le terme d'« aléatoire » vous dérange tant que ça en dépit de l'usage établi, ignorez-le donc et n'en parlons plus.

                              Je constate enfin que votre méthode employant les courbes de Lorenz ne peut être générale, qu'elle ne peut s'appliquer qu'à un certain types de variables, en raison de la définition même de ces courbes. Je ne dis donc pas que votre idée est stupide. Je dis seulement qu'elle ne peut pas s'appliquer dans beaucoup d'exemples. Vous ne semblez même pas avoir cherché à comprendre ce que j'ai dit et vous ne paraissez pas ouvert à la critique de vos idées, ce qui n'est pas très honnête scientifiquement parlant. Je croyais pourtant que c'était ce que vous étiez venu demander ici… N'êtes-vous pas venu chercher ici d'autres avis ? Sinon, je me perds en conjecture sur ce que vous attendiez de ce fil de discussion…

                              • Partager sur Facebook
                              • Partager sur Twitter
                                21 décembre 2015 à 3:09:35

                                J'avoue que, personnellement, j'ai un peu de mal à accorder du crédit à l'auteur d'une étude sur le calcul statistique qui s'offusque et accuse les critiques de hors-sujet lorsqu'ils emploient des termes tels que « variables aléatoires ». :-°

                                Toutes les remarques de mes collègues ci-dessus étaient pleines de sens et uniquement destinées à vous servir, car c'est l'esprit qui règne ici. Si vous ne supportez pas la critique, alors que c'est ce que vous étiez venu chercher, effectivement, vous avez tout compris :

                                PierreDOLEZ1 a écrit:

                                rien à faire sur ce forum.

                                Ciao

                                • Partager sur Facebook
                                • Partager sur Twitter
                                Free hugs. <3
                                  21 décembre 2015 à 10:39:11

                                  Bonjour,

                                  @ Me Capello, je résume votre première réponse "c'est pas adapté". Si ce sujet vous intéresse vraiment, vous trouverez le PDF http://www.dlzlogic.com/aides/Lorenz_Gini.pdf

                                  @KOala, Qui a parlé de calculs statistiques ? Certainement pas moi. J'ai dit, on a une statistique, c'est à dire le résultat d'une information, on cherche à en tirer des conclusions. Il n'y a rien d'aléatoire là dedans, rien ne dépendant du hasard.

                                  Si vous appelez "critique" dire "c'est faux" avant d'avoir compris le moindre mot, alors, on ne parle pas le même langue.

                                  -
                                  Edité par PierreDOLEZ1 21 décembre 2015 à 10:40:02

                                  • Partager sur Facebook
                                  • Partager sur Twitter
                                    21 décembre 2015 à 19:59:47

                                    On avance à grands pas !

                                    Jusque là, on s'étripait en parlant d'un PDF qu'on n'avait pas lu. Maintenant, on a le lien vers le PDF en question et on peut le lire. Dommage que ça vienne si tard.

                                    Donc normalement, comme on va parler sur du concret, et plus sur un truc qu'on n'a pas lu, ça devrait calmer le débat.

                                    Enfin normalement... parce que de mon point de vue, si je dis ce que je pense de ce document... ça va pas vraiment calmer le débat.  

                                    • Partager sur Facebook
                                    • Partager sur Twitter
                                      21 décembre 2015 à 22:47:41

                                      Bonsoir,

                                      J'allais justement rajouter un message, j'avoue que je me suis énervé trop rapidement.

                                      Je résume la situation : un étudiant pose une question et n'obtient pas de réponse (vous comprendrez ma discrétion).

                                      Le sujet me parait intéressant, la question précisément posée était "traduire en math l'opération réalisée.". Cela m'a conduit à essayer de comprendre le script R.

                                      En lisant beaucoup et en y réfléchissant, la méthode consistant à comparer deux courbes Lorenz me paraissait intéressante. Donc, je l'ai décrite, fait des simulations, mais comme c'est un domaine où je ne suis pas sûr de moi, je voulais avoir d'autres avis. Et pour être complet, la comparaison des 3 paramètres avec la fonction Y=A + B.exp(C.X) reste à préciser et à justifier.

                                          J'accepte toutes les critiques, sauf celle "c'est pas vrai", sans autre commentaire.

                                      Il n'est bien sûr pas question d'aléatoire, on a un fichier, des valeurs, on n'a pas à savoir comment ce fichier a été réalisé, et il est impossible de le savoir.

                                      J'avoue que je n'ai pas compris la différence mathématique entre comparer des "richesses" et comparer des "tailles". Dans les deux cas, ce sont des nombres. On doit comparer les répartitions de ces "nombres" suivant différents contextes.

                                      J'accepte tout critique, sauf si l'introduction est "c'est pas vrai".

                                      Autant être franc, que pensez-vous de mon document ? Il n'a pas l'air de vous plaire.

                                      J'ai certainement pas été assez précis dans mon premier message. Je vous prie de m'en excuser.

                                      Il est vrai que tout ce que j'ai pu lire concernant les courbes de Lorenz parlent de "sous". Mais ce ne sont que ds nombres, pourquoi serait-il interdit d'utiliser la méthode pour d'autres nombres.

                                      Bonne soirée.

                                      • Partager sur Facebook
                                      • Partager sur Twitter
                                        22 décembre 2015 à 0:08:20

                                        Prenons le jeu de données suivant :

                                        Individu n° // Taille // Richesse

                                        1  //  80  //  100

                                        2  //  100 //  120

                                        3  //  110 // 110

                                        4  //  120  //  90

                                        5  //  90  //  80

                                        Si on trace les 2 Courbes de Lorenz de ces 2 séries de données, les courbes vont se superposer parfaitement (Pour tracer une courbe de Lorenz, on classe les valeurs par ordre croissant, ici 80 90 100 110 120 pour les  2 axes, puis on fait un graphique en fréquence cumulée).

                                        Comme les 2 courbes se superposent parfaitement, on va conclure qu'il y a corrélation parfaite.

                                        Alors que la corrélation est faible, voire nulle. 

                                        • Partager sur Facebook
                                        • Partager sur Twitter
                                          22 décembre 2015 à 0:37:29

                                          Bonsoir,

                                          Là, il est un peu tard, mais je vais regarder ça demain.

                                          Il ne faut pas oublier que ce type de calcul que j'explique s'applique à une statistique sur un très grand nombre, disons un millier d'individus.

                                          En d'autres terme, il ne s'agit pas d'un cas théorique, mais de données réelles.

                                          Par ailleurs, la corrélation entre 2 variables est souvent estimée par la covariance. On peut lire que si la covariance est nulle, les variables sont indépendantes. Or, il se trouve que la covariance ne peut pas être nulle (opération arithmétique sur des nombres réels).

                                          Je me demande si on ne se trouve pas dans le type de cas d'école où d'une part, un lot d'expérience type montre une situation, alors que dans la réalité, cette situation ne peut pas arriver.

                                          • Partager sur Facebook
                                          • Partager sur Twitter
                                            22 décembre 2015 à 0:56:47

                                            Là , cette réflexion montre un manque complet de recul vis à vis des chiffres.

                                            Le calcul de covariance donne un nombre. L'analyse de ce nombre n'est pas de savor si ce nombre est égal à 0 ou différent de 0.

                                            La seule question qu'on se pose, c'est de savoir si ce nombre est petit ou grand. Je vous vois venir, et vous allez me rétorquer que petit ou grand, ce ne sont pas des mots mathématiques. 

                                            Ce à quoi, je vais vous répondre que "égal à 0", ce n'est pas un mot statistique.... :)

                                            • Partager sur Facebook
                                            • Partager sur Twitter
                                              22 décembre 2015 à 1:12:49

                                              Si je rejoins la remarque de tbc92 sur le manque apparent de cohésion de la méthode (a priori son exemple tient la route), je ne comprends pas pourquoi ne pas faire une méthode usuelle type ACP ou ANOVA suivant les besoins et bénéficier de l'information potentielle de tes douze autres variables ?

                                              Je veux dire, en l'état, c'est un peu essayer de réinventer une roue, qui est un peu carrée par ailleurs. Je crois que Me Capello t'avait déjà demandé ou signalé que cette méthode ne pourrait s'appliquer que dans un nombre extrêmement restreint de cas.

                                              Je veux pas être méchant hein, je me questionne juste sur l'utilité absolue du truc. Souci de simplicité ? On peut compute une ACP en deux secondes de nos jours. ^^

                                              -
                                              Edité par K0ala 22 décembre 2015 à 1:18:17

                                              • Partager sur Facebook
                                              • Partager sur Twitter
                                              Free hugs. <3
                                                22 décembre 2015 à 10:02:00

                                                Prenons un autre exemple. Dans la lointaine principauté d'Utopia, il y a mille habitants (\(n=1000\)) et chaque habitant possède un jardin. La loi impose à tous les jardins d'être carrés. Il y a par ailleurs de grandes inégalités sociales et il se trouve que si l'on classe la longueur des côtés des jardins \(c\) par ordre croissant, on a : 1, 2, 3, 4,… , 999 et 1000 mètres. La somme de tous ces côtés vaut :

                                                \[C=1+2+3+\ldots+1000=\sum_{i=1}^n i=\frac{(n+1)\,n}2\]

                                                La coordonnée \(x\) allant de 0 à 1, la courbe de Lorenz associée à ces côtés suit donc l'équation :

                                                \[L_c(x)=\frac1C\frac{(x\,n+1)\,x\,n}2=\frac{(x\,n+1)\,x}{n+1}\]

                                                Maintenant, plutôt que de considérer les côtés des jardin, prenons leurs surfaces \(s\), qui valent donc, par ordre croissant : 1, 4, 9, 16, …, 1 000 000 mètres carrés. La somme de toutes ces surfaces vaut :

                                                \[S=1+4+9+\ldots+1\,000\,000=\sum_{i=1}^n i^2=\frac{(n+1)\,(n+\frac12)\,n}3\]

                                                La courbe de Lorenz associée est donc :

                                                \[L_s(x)=\frac1S\frac{(x\,n+1)\,(x\,n+\frac12)\,x\,n}3=\frac{(x\,n+1)\,(x\,n+\frac12)\,x}{(n+1)\,(n+\frac12)}\]

                                                Or ces deux courbes de Lorenz \(L_c\) et \(L_s\) ne sont pas du tout égales et ont donc des coefficients de Gini différents alors que les côtés et les surface des jardins sont 100% corrélés étant donné que \(s=c^2\). Cette méthode ne fonctionne donc pas du tout pour décider si deux variables sont corrélées ou non.

                                                -
                                                Edité par Me Capello 22 décembre 2015 à 10:11:54

                                                • Partager sur Facebook
                                                • Partager sur Twitter
                                                  22 décembre 2015 à 11:22:02

                                                  Bonjour,

                                                  Je vais répondre dans l'ordre.

                                                  @ tbc, j'ai parlé de la covariance à titre d'exemple en citant strictement les termes et expressions qu'on avait employés. Ceci dit, je connais assez bien les nombres.

                                                  Merci en tout cas d'avoir cherché des valeurs numériques pour argumenter. Cependant, je crois avoir posé clairement le problème : on dispose d'une liste dont l'origine et l'honnêteté ne peut pas être mise en doute.

                                                  @ H0ala, Les statistiques, la géographie économie et humaine, c'est pas mon truc. Un étudiant rédige un rapport. Son relecteur lui demande de compléter le paragraphe en expliquant le calcul effectue. Malheureusement, ce calcul a été fait avec R et l'étudiant est un peu perdu.

                                                  Moi, brave pomme, j'essaye de l'aider, je trouve le présent forum où il y a un cours sur R. Finalement, je trouve dans le script une fonction inconnue de la doc. Je contacte l'auteur du cours, pas de réponse. Alors j'abandonne cette piste et je préviens l'étudiant que je ne peux plus l'aider.

                                                  Mais comme je n'ai rien d'autre à faire et que ce sujet m'a occupé un certain temps, je persiste dans la logique et j'essaye de tirer parti de cette courbe de Lorenz que je venais de découvrir. Par contre, le coefficient de Gini, j'en avais entendu parler et j'avais fait une fonction de calcul pour un thésard.

                                                  Ceci dit, s'il y a d'autre méthodes, tout va bien, ce n'est pas mon problème et ces calculs réalisés avec des logiciels qui remplacent le savoir et les compétences des utilisateurs ne m'intéressent pas. Si j'ai un calcul à faire j'ouvre mon compilateur préféré et je fais le calcul.

                                                  Si ce calcul de non-indépendance de variable existe déjà, alors pourquoi cet étudiant veut réinventer la roue ? Après tout c'est son problème et ça ne me regarde pas.

                                                  @ Me Capello. Ma question initiale : "Si ce sujet intéresse quelqu'un, j'aimerais bien en parler." Curieux que ce sujet vous intéresse, puisque votre première réflexion est : "Les courbes de Lorenz s'appliquent avant tout aux distributions de richesses. On peut les étendre aux données statistiques dont la somme a un sens et qui est finie. Elles ne sont donc généralement pas adaptées pour comparer deux variables aléatoires quelconques." Ce qui est très nettement une affirmation de non-sens du sujet que j'évoque.

                                                  J'ai pas lu tout le détail de votre explication de "répartition de terres équitablement". L'idée devrait pourtant m'intéresser, puisque je suis géomètre.

                                                  Il n'y a aucun rapport, mais cela me rappelle une histoire de boules de Pétanque dont on doit vérifier les caractéristiques. Tiens, on retombe sur les probabilités, les statistiques les variables aléatoires ... http://www.dlzlogic.com/aides/Boules.pdf

                                                  Conclusion : l'idée est mauvaise. Merci.

                                                  • Partager sur Facebook
                                                  • Partager sur Twitter
                                                    22 décembre 2015 à 12:19:24

                                                    PierreDOLEZ1 a écrit:

                                                    Bonjour,

                                                    Je vais répondre dans l'ordre.

                                                    @ tbc, j'ai parlé de la covariance à titre d'exemple en citant strictement les termes et expressions qu'on avait employés. Ceci dit, je connais assez bien les nombres.

                                                    Merci en tout cas d'avoir cherché des valeurs numériques pour argumenter. Cependant, je crois avoir posé clairement le problème : on dispose d'une liste dont l'origine et l'honnêteté ne peut pas être mise en doute.

                                                    @ H0ala, Les statistiques, la géographie économie et humaine, c'est pas mon truc. Un étudiant rédige un rapport. Son relecteur lui demande de compléter le paragraphe en expliquant le calcul effectue. Malheureusement, ce calcul a été fait avec R et l'étudiant est un peu perdu.

                                                    Moi, brave pomme, j'essaye de l'aider, je trouve le présent forum où il y a un cours sur R. Finalement, je trouve dans le script une fonction inconnue de la doc. Je contacte l'auteur du cours, pas de réponse. Alors j'abandonne cette piste et je préviens l'étudiant que je ne peux plus l'aider.

                                                    Mais comme je n'ai rien d'autre à faire et que ce sujet m'a occupé un certain temps, je persiste dans la logique et j'essaye de tirer parti de cette courbe de Lorenz que je venais de découvrir. Par contre, le coefficient de Gini, j'en avais entendu parler et j'avais fait une fonction de calcul pour un thésard.

                                                    Ceci dit, s'il y a d'autre méthodes, tout va bien, ce n'est pas mon problème et ces calculs réalisés avec des logiciels qui remplacent le savoir et les compétences des utilisateurs ne m'intéressent pas. Si j'ai un calcul à faire j'ouvre mon compilateur préféré et je fais le calcul.

                                                    Si ce calcul de non-indépendance de variable existe déjà, alors pourquoi cet étudiant veut réinventer la roue ? Après tout c'est son problème et ça ne me regarde pas.

                                                    @ Me Capello. Ma question initiale : "Si ce sujet intéresse quelqu'un, j'aimerais bien en parler." Curieux que ce sujet vous intéresse, puisque votre première réflexion est : "Les courbes de Lorenz s'appliquent avant tout aux distributions de richesses. On peut les étendre aux données statistiques dont la somme a un sens et qui est finie. Elles ne sont donc généralement pas adaptées pour comparer deux variables aléatoires quelconques." Ce qui est très nettement une affirmation de non-sens du sujet que j'évoque.

                                                    J'ai pas lu tout le détail de votre explication de "répartition de terres équitablement". L'idée devrait pourtant m'intéresser, puisque je suis géomètre.

                                                    Il n'y a aucun rapport, mais cela me rappelle une histoire de boules de Pétanque dont on doit vérifier les caractéristiques. Tiens, on retombe sur les probabilités, les statistiques les variables aléatoires ... http://www.dlzlogic.com/aides/Boules.pdf

                                                    Conclusion : l'idée est mauvaise. Merci.

                                                    Je n'ai jamais dit que l'origine des données était à mettre en doute. Je dis simplement qu'en traçant 2 courbes de Lorenz sur un même graphique , on 'dissocie'  les valeurs. En d'autres mots, si les 2 courbes mesurent la richesse d'une part, et la taille de l'individu d'autre part, au départ, dans la base de données, on connait la richesse et la taille de chaque individu. Et pour faire l'analyse, on va regarder l'ensemble des valeurs de richesses d'une part, l'ensemble des valeurs de taille d'autre part, mais on va purement et simplement effacer le lien entre la mesure 1 et la mesure 2.

                                                    Autrement dit, avec cette technique, on commence par effacer l'information qui est indispensable pour une étude de corrélation.



                                                    • Partager sur Facebook
                                                    • Partager sur Twitter
                                                      22 décembre 2015 à 12:49:55

                                                      C'est justement tout le problème.

                                                      Prenons 2 individus dans la liste

                                                      L'un est enfant d'une famille riche, mais suite à je ne sais quoi, il n'a pas grandi comme il aurait dû.

                                                      L'autre est enfant d'une famille pauvre, mais par volonté de sa mère, il a eu une croissance tout à fait normale.

                                                      Ces deux exemples sont des exceptions. En probabilité on considère généralement que 0.7% des résultats sont "hors-norme", mais sur un grand nombre, il n'y a pas de raison de les rejeter.

                                                      C'est exactement ce point que je voudrais bien formaliser, mais apparemment tout le monde est convaincu du contraire.

                                                      Traduction approximatives : les notions de probabilité ne reposent sur rien. Etant donné que je sais que cette affirmation est fausse, je continue d'essayer de trouver l'argumentation que je cherche.

                                                      • Partager sur Facebook
                                                      • Partager sur Twitter
                                                        22 décembre 2015 à 13:30:36

                                                        J'ai testé l'opération suivante :

                                                        Pour les 500 premiers individus, j'ai calculé une valeur égale au produit des nombres caractérisant la taille et des nombres caractérisant la richesse. J'obtiens le résultat suivant :

                                                        Nombre de valeurs = 500  valeur minimale =-6.94 valeur maximami=10.01 
                                                        Rapport Emq/Ema = 1.34 Théorique = 1.25 
                                                        la valeur -6.390040 rang 94 est douteuse
                                                        la valeur 10.014379 rang 304 est douteuse
                                                        la valeur -6.825646 rang 313 est douteuse
                                                        la valeur -6.938756 rang 355 est douteuse
                                                        la valeur -6.030873 rang 380 est douteuse
                                                        la valeur 8.016832 rang 382 est douteuse
                                                        la valeur -5.629305 rang 393 est douteuse
                                                        la valeur -6.536517 rang 429 est douteuse
                                                        la valeur 8.269315 rang 459 est douteuse
                                                        Nombre = 500  Moyenne = 0.83  emq=2.40  ep=1.60
                                                        
                                                        Classe 1  nb=   6  1.20%  théorique 0.35% |HH
                                                        Classe 2  nb=   5  1.00%  théorique 2%	  |H
                                                        Classe 3  nb=  20  4.00%  théorique 7%	  |HHHH
                                                        Classe 4  nb=  65  13.00%  théorique 16%  |HHHHHHHHHHHHH
                                                        Classe 5  nb= 193  38.60%  théorique 25%  |HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH
                                                        Classe 6  nb= 103  20.60%  théorique 25%  |HHHHHHHHHHHHHHHHHHHHH
                                                        Classe 7  nb=  56  11.20%  théorique 16%  |HHHHHHHHHHHH
                                                        Classe 8  nb=  29  5.80%  théorique 7%	  |HHHHHH
                                                        Classe 9  nb=  20  4.00%  théorique 2%	  |HHHH
                                                        Classe 10 nb=   3  0.60%  théorique 0.35% |H

                                                         Puis pour les 378 derniers

                                                        Nombre de valeurs = 378  valeur minimale =-5.74 valeur maximami=8.89 
                                                        Rapport Emq/Ema = 1.32 Théorique = 1.25 
                                                        la valeur 6.651217 rang 11 est douteuse
                                                        la valeur 7.541243 rang 34 est douteuse
                                                        la valeur 8.885777 rang 55 est douteuse
                                                        la valeur 7.009084 rang 223 est douteuse
                                                        la valeur 7.049036 rang 253 est douteuse
                                                        la valeur -5.740710 rang 267 est douteuse
                                                        la valeur -5.147348 rang 294 est douteuse
                                                        la valeur 6.670389 rang 320 est douteuse
                                                        la valeur 8.889247 rang 346 est douteuse
                                                        Nombre = 378  Moyenne = 0.79  emq=2.19  ep=1.46
                                                        
                                                        Classe 1  nb=   2  0.53%  théorique 0.35%     |H
                                                        Classe 2  nb=   4  1.06%  théorique 2%	      |HH
                                                        Classe 3  nb=  18  4.76%  théorique 7%	      |HHHHH
                                                        Classe 4  nb=  49  12.96%  théorique 16%      |HHHHHHHHHHHHH
                                                        Classe 5  nb= 155  41.01%  théorique 25%      |HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH
                                                        Classe 6  nb=  69  18.25%  théorique 25%      |HHHHHHHHHHHHHHHHHHH
                                                        Classe 7  nb=  43  11.38%  théorique 16%      |HHHHHHHHHHHH
                                                        Classe 8  nb=  20  5.29%  théorique 7%	      |HHHHHH
                                                        Classe 9  nb=  11  2.91%  théorique 2%	      |HHH
                                                        Classe 10 nb=   7  1.85%  théorique 0.35%     |HH
                                                        
                                                        

                                                        Cela établie la liaison Richesse x Taille entre les différents individus.

                                                        On remarquera que la répartition n'est pas normale, ce qui présente un défaut majeur pour des études en utilisant cette méthode.

                                                        -
                                                        Edité par PierreDOLEZ1 22 décembre 2015 à 13:35:42

                                                        • Partager sur Facebook
                                                        • Partager sur Twitter
                                                          26 décembre 2015 à 15:00:19

                                                          Bonjour,

                                                          Un petit Up sur le sujet. J'ai complété le pdf : http://www.dlzlogic.com/aides/Lorenz_Gini.pdf

                                                          Merci d'avance pour vos avis.

                                                          • Partager sur Facebook
                                                          • Partager sur Twitter
                                                            26 décembre 2015 à 23:51:29

                                                            Tu écris ce que tu veux sur ton blog. Mais par honnêteté, tu devrais écrire en préambule.

                                                            "J'ai déjà été banni de différents forums parce que j'écrivais n'importe quoi. Par ailleurs, sur ce sujet, on m'a prouvé que j'écrivais n'importe quoi."

                                                            Ainsi, des personnes qui sont en recherche d'information et qui tomberaient sur ton blog sauraient à quoi s'en tenir.

                                                            -
                                                            Edité par tbc92 26 décembre 2015 à 23:52:13

                                                            • Partager sur Facebook
                                                            • Partager sur Twitter
                                                              27 décembre 2015 à 14:35:24

                                                              Il serait peut-être bon que tu précise ta pensée, tes sources, des références.

                                                              Dans tous les cas, c'est de la diffamation.

                                                              Ce que tu expliques ici  

                                                              https://openclassrooms.com/forum/sujet/interdependance-de-deux-variables#message-89614607

                                                              est tout à fait caractéristique. Le but, pour toi n'est pas d'analyser une situation, un document ou je ne sais quoi, mais de montrer que l'interlocuteur a tort.

                                                              Qui es-tu pour t'adjuger un tel pouvoir ?

                                                              PM, Je n'ai pas de blog, mais un site permettant de faire des calculs d'assainissement pluvial. Le volet concernant un sujet dont tu sembles ignorer le premier mot est assez nouveau. http://www.dlzlogic.com

                                                              PS Un petit complément sur Pareto.

                                                              Sauf erreur, ce principe dit que 80% de résultats proviennent de 20% des sources. Ce rapport peut varier suivant les conditions, pays, régions, secteurs etc. Tu développes ce rapport en ne limitant pas à un point fixe, as-tu une raison pour le faire, des arguments, des tests ?

                                                              -
                                                              Edité par PierreDOLEZ1 27 décembre 2015 à 14:47:00

                                                              • Partager sur Facebook
                                                              • Partager sur Twitter

                                                              Interdépendance de deux variables

                                                              × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
                                                              × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
                                                              • Editeur
                                                              • Markdown