Partage
  • Partager sur Facebook
  • Partager sur Twitter

[COURS] Analyse exploratoire de données

ACP et clustering

    20 novembre 2020 à 18:48:31

    Merci Billy.

    Mais le problème persiste ... et le problème initial est même réapparu ...

    En regardant le message d'erreur de plus près, il y a des problème au niveau des commentaires !!! Lorsqu'il y a des accents ...

    Bon je ne comprends toujours pas ce pb car il me semble que j'ai déjà tapé des commentaires avec des accents et il n'y a pas eu de pb apparemment ...

    Donc après suppression des accents, les eboulis et les cercles s'affichent, mais y'a un bug après, je vais voir ça après.

    • Partager sur Facebook
    • Partager sur Twitter
      22 novembre 2020 à 6:11:47

      essaie d'ouvrir le fichier functions.py avec un éditeur de texte, peux-tu me dire les 2 premières lignes que tu vois ?
      • Partager sur Facebook
      • Partager sur Twitter
        22 novembre 2020 à 23:32:24

        Euh, avec mes différentes tentatives, je me retrouve avec :

        - 'functions.py' enregistré avec TextWangler je cherche dans mon Finder (je suis sur Mac)

        - 'functions.py' du 'Home' de Jupyter (je ne sais pas si y'a une différence entre enregistrer par TextWangler ou directement avec l'éditeur du Notebook)

        - dans Finder il y a aussi un 'functions.pyc' qui n'apparaît pas dans Jupyter, et je ne sais pas d'où il vient d'ailleurs !!!

        Je ne peux pas ouvrir celui de Jupyter avec un editeur de texte, mais avec celui de Finder, je ne vois pas de pb d'affichage, ce sont les lignes attendues.

        Je ne sais pas vraiment si TextWrangler est un editeur de texte, mais avec TextEdit, je ne peux pas enregistrer en .py.

        Bon sinon finalement toutes les figures attendues s'affichent au final (éboulis, cercles, plans)

        #####################

        Il y a beaucoup d'info sur l'ACP, j'ai un peu de mal à bien synthétiser ...

        Pour la partie 4 'Représentez les individus sur le plan factoriel' :

        comment savoir sur le plan factoriel lié au nuage des individus NI qu'un point est bien représenté ?

        Sur le cercle, si j'ai bien compris, c'est simple : c'est une flèche longue, proche de 1 (même sis dans l'exemple je tourve les flèches un peu courtes, et on a interpréter quand même ... à moins qu'il y ait un truc qui m'échappe ...)

        Mais dans le cas des individus, comme c'est pas un cercle, comment savoir ?

        ###############

        Mon dendrogramme ne s'affiche pas chez moi ... Apparemment Hadrien a déjà eu un pb aussi.

        J'ai l'impression qu'il y a une virgule en trop dans le programme de functions.py, mais ça ne règle pas le pb ...

        Que faire ? Une idée ?

        -
        Edité par Pierre12345678910%% 24 novembre 2020 à 19:48:42

        • Partager sur Facebook
        • Partager sur Twitter
          23 janvier 2021 à 18:06:45

          Bonsoir. J'ai un soucis avec mes fichiers Excel. Les données sont représentées en désordre dans le fichier. Si vous savez de quoi je parle, veillez m'aider svp

          • Partager sur Facebook
          • Partager sur Twitter
            8 avril 2021 à 16:06:05

            problème résolu en évitant 'enregistrer sous' sur git, plutôt copier le fichier texte dans excel, enregistrer en .csv, puis importer avec Pandas et le bon séparateur. ça marche

            =============

            Bonjour,

            J'ai récupéré le fichier du professeur my_courses.csv, pas de problème.

            A l'exécution du premier code du TP sur l'ACP, j'ai un souci :

            - je vois l'erreur suivante à l'import du fichier. my_courses.csv.. : 

            UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 29: invalid continuation byte
            Quelqu'un peut-il m'aider?
            Merci par avance.
            Bien à vous

            -
            Edité par PhilippeCRhone 8 avril 2021 à 17:11:18

            • Partager sur Facebook
            • Partager sur Twitter
              21 avril 2021 à 11:55:36

              PhilippeCRhone a écrit:


              Bonjour,

              J'ai récupéré le fichier du professeur my_courses.csv, pas de problème.

              A l'exécution du premier code du TP sur l'ACP, j'ai un souci :

              - je vois l'erreur suivante à l'import du fichier. my_courses.csv.. : 

              UnicodeDecodeError: 'utf-8' codec can't decode byte 0xe9 in position 29: invalid continuation byte
              Quelqu'un peut-il m'aider?
              Merci par avance.
              Bien à vous

              -
              Edité par PhilippeCRhone 8 avril 2021 à 17:11:18

              Bonjour ,

              J'ai la même erreur que philippe, concernant l'import du fichier courses_info :

                        courses_info = pd.read_csv('courses_info.csv',encoding = "utf-8", index_col = 0)

               UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 15-16: invalid continuation byte


                      ?? Merci à vous

              • Partager sur Facebook
              • Partager sur Twitter
                26 avril 2021 à 14:10:23

                Bonjour

                pourriez-vous m'aider j'arrive pas à télécharger le fichier "bag_of_words.csv".

                merci

                • Partager sur Facebook
                • Partager sur Twitter
                  29 avril 2021 à 22:27:19

                  Bonjour,

                  J'ai eu le même message d'erreur. Pour le corriger il faut que l'index soit une liste :

                  names = list(data.index)

                  et cela fonctionne.

                  Alice


                  Hadrien.Hubert a écrit:

                  Bonjour,

                  Quelqu'un pourrait il m'aider svp?

                  Je rencontre quelques problèmes parfois à l'exécution du code sur vscode mais tout se passe bien via jupyter notebook.

                  Par exemple pour la création du dendogram aucun problème mais message d'erreur sous vscode

                  Voici le code du cours :

                  import pandas as pd
                  from functions import plot_dendrogram
                  from scipy.cluster.hierarchy import linkage, fcluster
                  from sklearn import preprocessing
                  
                  # import de l'échantillon et des informations relatives aux cours
                  data = pd.read_csv('bag_of_words.csv', index_col = 0)
                  courses_info = pd.read_csv('courses_info.csv',index_col = 0)
                  
                  # Theme du ou des parcours auxquels appartient le cours (data, developpement, marketing, etc.)
                  theme = [courses_info.loc[course_id, "theme"] for course_id in data.index]
                  
                  # préparation des données pour le clustering
                  X = data.values
                  names = data.index
                  
                  # Centrage et Réduction
                  std_scale = preprocessing.StandardScaler().fit(X)
                  X_scaled = std_scale.transform(X)
                  
                  # Clustering hiérarchique
                  Z = linkage(X_scaled, 'ward')
                  
                  # Affichage du dendrogramme
                  plot_dendrogram(Z, names)

                  Et voici le message d'erreur :

                  ---------------------------------------------------------------------------
                  ValueError                                Traceback (most recent call last)
                  <ipython-input-10-9ff203f8e1b3> in <module>
                       23 
                       24 # Affichage du dendrogramme
                  ---> 25 plot_dendrogram(Z, names)
                  
                  d:\Bureau\Data Scientist\VS Code\analyse_exploratoire\functions.py in plot_dendrogram(Z, names)
                      111         Z,
                      112         labels = names,
                  --> 113         orientation = "left",
                      114     )
                      115     plt.show()
                  
                  ~\anaconda3\envs\myenv\lib\site-packages\scipy\cluster\hierarchy.py in dendrogram(Z, p, truncate_mode, color_threshold, get_leaves, orientation, labels, count_sort, distance_sort, show_leaf_counts, no_plot, no_labels, leaf_font_size, leaf_rotation, leaf_label_func, show_contracted, link_color_func, ax, above_threshold_color)
                     3275                          "'bottom', or 'right'")
                     3276 
                  -> 3277     if labels and Z.shape[0] + 1 != len(labels):
                     3278         raise ValueError("Dimensions of Z and labels must be consistent.")
                     3279 
                  
                  ~\anaconda3\envs\myenv\lib\site-packages\pandas\core\indexes\base.py in __nonzero__(self)
                     2148     def __nonzero__(self):
                     2149         raise ValueError(
                  -> 2150             f"The truth value of a {type(self).__name__} is ambiguous. "
                     2151             "Use a.empty, a.bool(), a.item(), a.any() or a.all()."
                     2152         )
                  
                  ValueError: The truth value of a Index is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().

                  Merci d'avance!!

                  Hadrien



                  -
                  Edité par AliceDrahon 30 avril 2021 à 14:23:44

                  • Partager sur Facebook
                  • Partager sur Twitter
                    4 mai 2021 à 11:48:53

                    Salut à tous !

                    Je suis un peu perturbée par le chapitre "Interprétez le cercle des corrélations" ; dans la vidéo il parle de F1, mais j'ai l'impression que c'est en fait F2 (exemple, à 1min35 ; il parle de "la projection de la flèche sur F1" en traçant une ligne rouge sur F2).

                    Ensuite il étudie les variables les plus corrélées à F1, mais de toute évidence celles-ci sont plus proches de F2 sur son schéma que de F1.

                    Je pensais que c'était une erreur de lecture des noms des abscisses et ordonnées, mais dans le cours écrit, ça devient encore plus bizarre, il écrit ; "Qu’y voit-on ?
                    On y voit un cercle, de rayon 1. De plus, l’axe des abscisses représente le premier axe d'inertie. L’axe des ordonnées représente F2 ."

                    Pour moi, l'axe des ordonnées et vertical, donc ça devrait être F1 si on suit son schéma, et non F2.

                    Il refait ensuite la même analyse dans le cours écrit :

                    Est-ce que vous êtes d'accord avec moi ou j'ai loupé un truc style rotation du cercle avant analyse?

                    > Edit car je n'ai pas trouvé où supprimer le commentaire ; je lisais mal le graphique, les axes des abscisses et ordonnées ne sont pas les axes partant de la légende (F1 / F2), mais les axes alignés avec la légende!

                    -
                    Edité par HéloïseGalfré 4 mai 2021 à 18:20:12

                    • Partager sur Facebook
                    • Partager sur Twitter
                      6 mai 2021 à 13:40:38

                      ZeroData a écrit:

                      Bonjour,

                      Il me semble qu'une erreur s'est glissée dans la représentation du cercle des corrélations.

                      Il est tracé avec les valeurs de components_ qui sont les vecteurs propres. Mais pour obtenir la corrélation, et donc avoir une représentation graphique correcte, ne faut-il pas multiplier leur valeur par la racine carrée des valeurs propres ?


                      Effectivement, j'ai remarqué également ce problème. Pourquoi le multiplier par la racine carrée des valeurs propres?
                      • Partager sur Facebook
                      • Partager sur Twitter
                        24 juin 2021 à 16:27:23

                        Remarque d'ordre générale : Je trouve qu'il manque un peu de liant entre la théorie et la pratique dans ce cours, bien que globalement clair et compréhensible. 

                        N'ayant (pour le moment) que très peu de pratique des librairies python qu'on utilise ici, le TP final (juste 4 lignes à compléter certes) est un peu délicat. Notamment la 4eme, j'ai vu dans le corrigé qu'il fallait utiliser la fonction "fcluster" de scipy, mais je n'en avait vu nulle mention nulle part dans le cours ni dans les exemples (je l'ai peut être raté certes). Difficile pour un néophyte dans le domaine de le deviner...  

                        • Partager sur Facebook
                        • Partager sur Twitter
                          20 juillet 2021 à 14:19:43

                          Bonjour 

                          Ce cours as t-il un été traduit en R ?

                          Merci

                          • Partager sur Facebook
                          • Partager sur Twitter
                            10 août 2021 à 11:04:37

                            Bonjour, 

                            Je viens de mettre en place le code du dernier TP sous Jupiter.

                            La generation du graphique des plans factoriels > (0,1) genere une erreur.  obtenez vous la meme erreur ? ai je fait une erreur  ?

                            Merci d avance

                            -
                            Edité par XavierBuisson2 10 août 2021 à 17:34:57

                            • Partager sur Facebook
                            • Partager sur Twitter
                              10 août 2021 à 17:47:42


                              Bonjour Xavier,

                              De mon côté je n'ai pas eu d'erreur. Le premier graph que tu as ressemble au mien, les axes sont les mêmes. Par contre le code du prof génère 4 autres graphs.

                              Pourtant ce bout de code n'avait pas besoin d'être complété, donc peut-être que l'erreur vient d'un bout précédent réutilisé ici ? Ca fait un bail que je ne l'ai pas fait. Vérifie avec le corrigé du prof :)

                              XavierBuisson2 a écrit:

                              Bonjour, 

                              Je viens de mettre en place le code du dernier TP sous Jupiter.

                              La generation du graphique des plans factoriels > (0,1) genere une erreur.  obtenez vous la meme erreur ? ai je fait une erreur  ?

                              Merci d avance

                              -
                              Edité par XavierBuisson2 il y a 3 minutes



                              • Partager sur Facebook
                              • Partager sur Twitter
                                26 octobre 2021 à 19:27:32

                                Bonjour,

                                A quoi correspondent les coefficients dans la combinaison linéaire des variables pour le calcul de F1 (voir copie écran ci-dessous)?

                                Pour vous situer, c'est dans le chapitre "interprétez le cercle des corrélations".

                                Merci beaucoup,

                                -
                                Edité par SamanthaChartrel 26 octobre 2021 à 19:27:56

                                • Partager sur Facebook
                                • Partager sur Twitter

                                [COURS] Analyse exploratoire de données

                                × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
                                • Editeur
                                • Markdown