Partage
  • Partager sur Facebook
  • Partager sur Twitter

[Cours] Entraînez un modèle prédictif linéaire

    16 mars 2020 à 18:11:58

    De toute façon ce n'est pas très grave : ça veut dire que ton modèle n'a pas convergé avec certains hyperparamètres. Mais ces hyperparamètres auront de mauvais scores, donc il ne seront pas choisis par ta validation croisée.

    Ce serait gênant si tu avais ça sur tous les choix d'hyperparamètres. Ça se voit au nombre de warnings affichés.

    • Partager sur Facebook
    • Partager sur Twitter
      17 mars 2020 à 11:45:40

      Bonjour,

      Sur le TP "Entraînez-vous à classer automatiquement des feuilles d’arbres", je ne trouve pas les labels dans le fichier test.csv. J'ai donc splitté les données du fichier Dataset_feuilles_1.csv pour avoir une partie entrainement et une partie test.

      Est-ce correct?

      Merci d'avance,

      -
      Edité par Faduf 17 mars 2020 à 12:11:11

      • Partager sur Facebook
      • Partager sur Twitter
        17 mars 2020 à 16:29:02

        Bonjour,

        @Faduf : C'est normal que les labels ne soient pas présent dans le fichier test.

        Sur Kaggle, le principe c'est de construire son modèle à partir des données train. Puis de faire ses prédictions sur les données test. Ensuite il faut soumettre ces prédictions sur le site de Kaggle et on obtient son résultat et un classement dans le leaderboard.

         Pour ce faire vous devez créer un compte sur Kaggle. Vous pouvez soumettre via cette page : 

        https://www.kaggle.com/c/leaf-classification/submit

        Vous avez un exemple de fichier de submission (sample_submission.csv) sur cette page : https://www.kaggle.com/c/leaf-classification/data

        C'est vraiment dommage que l'auteur du cours ne donne pas ces infos...

        -
        Edité par Jeanval78 18 mars 2020 à 11:05:57

        • Partager sur Facebook
        • Partager sur Twitter
          18 mars 2020 à 9:36:34

          @Faduf : oui, l'activité fait comme si on pouvait utiliser le fichier de test alors qu'on est obligés de faire un split.

          Tu as bien fait, c'est pareil pour tout le monde.

          • Partager sur Facebook
          • Partager sur Twitter
            28 avril 2020 à 18:34:09

            c'est bon c'est réglé, merci.

            -
            Edité par AliBENBIHI1 30 avril 2020 à 18:14:59

            • Partager sur Facebook
            • Partager sur Twitter
              1 mai 2020 à 13:51:49

              Bonjour,

              Ma préoccupation est comment effectuer une classification supervisée avec les images satellitaires?

              • Partager sur Facebook
              • Partager sur Twitter
                14 juin 2020 à 1:08:48

                J'ai trouvé cette vidéo du MIT qui complète magnifiquement le cours sur les SVM: https://www.youtube.com/watch?v=_PwhiWxHK8o. Enjoy :-)

                -
                Edité par CyrilBibi 17 juin 2020 à 17:17:09

                • Partager sur Facebook
                • Partager sur Twitter
                  24 juillet 2020 à 18:42:16

                  lvdesign a écrit:

                  bonjour,

                  Dans le tp 

                  TP - Entraînez une régression logistique et une SVM linéaire

                  j'ai cette erreur à cette étape: 

                  lr_gs.fit(X_train, y_train)

                  /Users/totoopt/anaconda3/lib/python3.7/site-packages/sklearn/svm/base.py:929: ConvergenceWarning: Liblinear failed to converge, increase the number of iterations.
                    "the number of iterations.", ConvergenceWarning)
                   merci pour un conseil


                  J'ai le même problème et j'ai beau augmenter le nombre d'itérations (jusqu'à 10 000), j'ai toujours ce message qui s'affiche de nombreuses fois.

                  Pourtant j'ai exactement le même code que dans la vidéo. Quelqu'un a-t-il trouvé comment régler cette erreur ? Merci :)

                  • Partager sur Facebook
                  • Partager sur Twitter
                    28 juillet 2020 à 12:21:03

                    N'oublie pas que tu fais une validation croisée : le modèle est entraîné autant de fois qu'il y a de combinaisons d'hyperparamètres à tester.

                    Le message signifie qu'une combinaison d'hyperparamètres ne permet pas de converger. Ça veut simplement dire que ces hyperparamètres sont trop mauvais pour permettre d'entraîner le modèle.
                    Du moment que l'une au moins des combinaisons d'hyperparamètres permet de converger, peu importe l'avertissement : ce que tu recherches, c'est seulement les meilleurs hyperparamètres ! Les mauvais n'auront pas d'incidence sur les bons.

                    Donc si le message n'apparaît qu'une fois, pas de panique. Tu as réussi.

                    • Partager sur Facebook
                    • Partager sur Twitter
                      18 novembre 2020 à 14:12:38

                      Bonjour,

                      sachant que la régression linéaire minimise l'erreur quadratique moyenne, comment est-ce que les régressions ridge et lasso peuvent faire mieux ?

                      Merci

                      • Partager sur Facebook
                      • Partager sur Twitter
                        30 novembre 2020 à 17:17:13

                        En effet, ils ne font pas mieux en termes d'erreur quadratique.

                        Leur intérêt est surtout de limiter le poids des coefficients, ce qui permet :

                        - de se limiter à seulement quelques variables qui représentent bien l'ensemble de la variance (Ridge), ce qui est un gain important de mémoire et de temps de calcul puisque la plupart des variables auront un coefficient nul et ne seront donc pas utilisées ;

                        - d'éviter un surapprentissage par l'affectation d'un coefficient excessivement important à quelques variables au détriment des autres (LASSO). Cela évite que le modèle soit trop dépendant de certaines variables pas forcément représentatives de la variance.

                        Évidemment, il n'y a pas une des trois méthodes qui est meilleure que les autres. Ça dépend des données et du temps de calcul et de la marge d'erreur que tu t'autorises.

                        • Partager sur Facebook
                        • Partager sur Twitter
                          18 mars 2021 à 16:02:16

                          Bonjour

                          Pour la question 3 du quiz partie 1, serait-ce possible d'avoir le détail du calcul matriciel ?

                          Je n'arrive pas à retrouver le même résultat après calcul du paramètre B.

                          Merci.

                          • Partager sur Facebook
                          • Partager sur Twitter
                            19 avril 2021 à 17:41:17

                            Bonjour, que pensez vous de ma methode ?
                            • Partager sur Facebook
                            • Partager sur Twitter
                              22 avril 2021 à 14:24:36

                              Zachee54 a écrit:

                              - de se limiter à seulement quelques variables qui représentent bien l'ensemble de la variance (Ridge), ce qui est un gain important de mémoire et de temps de calcul puisque la plupart des variables auront un coefficient nul et ne seront donc pas utilisées ;

                              - d'éviter un surapprentissage par l'affectation d'un coefficient excessivement important à quelques variables au détriment des autres (LASSO). Cela évite que le modèle soit trop dépendant de certaines variables pas forcément représentatives de la variance.

                              Bonjour @Zachee54, je crois que tu as confondu Ridge et Lasso. Ridge restreint "l'amplitude des poids." (je cite le cours), alors que Lasso "peut directement supprimer les variables et mettre leur poids à zéro".



                              • Partager sur Facebook
                              • Partager sur Twitter

                              Дорогу осилит идущий

                                23 avril 2021 à 16:25:57

                                Bonjour,

                                lorsque je lance le code du TP2 "Entraînez une régression logistique et une SVM linéaire" pour entrainer la régression logistique, j'ai un warning (comme tout le monde ici, j'ai l'impression) "

                                C:\ProgramData\Anaconda3\lib\site-packages\sklearn\svm\_base.py:976: ConvergenceWarning: Liblinear failed to converge, increase the number of iterations.
                                  warnings.warn("Liblinear failed to converge, increase "

                                Ce warning se répète 13 fois sur les 10 itérations de la crosse-validation. En plus, les meilleurs paramètres qui en résultent sont
                                {'C': 100.0, 'penalty': 'l1'} alors que dans le cours le résultat est le suivant : {'penalty': 'l2', 'C': 1000.0}. J'ai supposé que cela est dû au pas défini pour la recherche de meilleur C. Dans la vidéo, c'est : np.logspace(-3, 3, 10), alors que dans le text de tp c'est np.logspace(-3, 3, 7). J'ai aussi testé avec 10 est le résultat est

                                {'C': 215.44346900318823, 'penalty': 'l1'}

                                Les résultats, sont-ils complètement aléatoires ?

                                -
                                Edité par IrinaMaslowski 23 avril 2021 à 16:27:27

                                • Partager sur Facebook
                                • Partager sur Twitter

                                Дорогу осилит идущий

                                  9 juin 2021 à 13:56:02

                                  Oui, les résultats sont aléatoires puisque train_test_split et GridSearchCV utilisent tous les deux de l'aléatoire.

                                  Cela dit, 13 avertissements ça fait quand même beaucoup...

                                  • Partager sur Facebook
                                  • Partager sur Twitter

                                  [Cours] Entraînez un modèle prédictif linéaire

                                  × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
                                  • Editeur
                                  • Markdown