Partage
  • Partager sur Facebook
  • Partager sur Twitter

Entrainer un CNN avec un dataset très réduit

Sujet résolu
    13 février 2019 à 18:33:10

    Bonjour,

    J'ai beaucoup cherché sur internet mais je ne trouve pas de réponses qui puisse résoudre entièrement la situation dans laquelle je me trouve.

    Pour expliquer rapidement le contexte, je suis en train de faire un projet en groupe à l'université qui consiste en le développement d'une application qui peut analyser une feuille d'arbre et trouver de quel arbre elle vient.

    On est donc parti sur un CNN en faisant du fine tuning partiel sur le modèle Inception V3. L'algorithme marche très bien et sur un dataset de test de ~200 à ~300 images par espèces pour 5 espèces on arrive à avoir des taux de réussite de plus de 90% avec des taux de certitudes proches de 100%.

    On est même en train de travailler sur une façon d'améliorer encore plus le taux de réussite en prenant des images des 4 bords (haut, bas, gauche, droite) et du centre de la feuille pour la texture, ce qui multiplie encore le data set car il y aurait un CNN pour les bords, un pour la texture, un pour l'aspect général, etc

    Du coup tout va bien sauf que l'encadrant veut maintenant absolument qu'on puisse scanner environ 2000 espèces différentes avec un taux de réussite de minimum 85% sur des photos bruités avec des fonds variables (terre, mains,  autres feuilles derrière, etc), des angles de vue variables et qui fonctionne sans problème sur n'importe quel téléphone avec un dataset d'environ 5 à 30 images par espèces à constituer nous même (auquel il faudra enlever quelques photos pour la validation).

    Est ce vraiment possible ? Et si oui avec quel genre de méthode peut on arriver à ce résultat ?

    Et aussi je précise que nous somme en licence d'informatique (donc pas un niveau de dingue) et que nous n'avons que quelques semaines pour faire tout ça.

    Merci d'avoir lu le post jusqu'au bout, en espérant que quelqu'un ait une idée

    • Partager sur Facebook
    • Partager sur Twitter
      17 février 2019 à 22:34:36

      Bonjour,

      L’encadrant a quel statut ? C’est un professeur d’informatique, ou un professeur de biologie ?

      Ça me semble difficilement faisable, si l’encadrant n’a pas de connaissances en informatique, peut être qu’il ne connaît pas assez bien le deep learning.

      • Partager sur Facebook
      • Partager sur Twitter
        23 février 2019 à 21:00:53

        Sinon tu fais des recherches google image? Genre tu scrappes google image :D

        • Partager sur Facebook
        • Partager sur Twitter
          28 mars 2019 à 2:24:45

          Salut,

          Finalement j'ai réussi à le convaincre de passer à 250 espèces parce que 1500 j'vois vraiment pas comment ça aurait été possible.

          L'encadrant est enseignant chercheur en informatique et je crois qu'il fait un peu d'IA mais pas dans le domaine du machine Learning.

          Mais même 250 c'est assez énorme du coup on mélange des dataset plus petits, on télécharge des photos de plantnet et de google image et on peut encore gratter une certaine quantité d'images en capturant à la main des feuilles sur des photos où on voit plusieurs feuilles ^^

          Le problème c'est que 30 espèces c'est pas du tout suffisant pour savoir de bon résultats (on plafonne en dessous de 70%) du coup là on est arrivé à constituer un dataset de 46 espèces avec 300 photos par espèces qui permet de toucher les 90% de réussite du doigt avec un bon réseau de neurones, mais ça serrait impossible de monter à 250 espèces dans les temps donc on va faire un 2e dataset avec les 250 espèces mais seulement ~35 photos par espèces.

          Du coup au final on pourra avoir un algo très performant sur 46 espèces t qui couvre presque tous les "types" de formes de feuilles + un algo peu performant mais qui couvre toutes les espèces été on va mettre quelques couches de neurones en plus pour concatener et interpréter les sorties des deux algos et sortir la réponse finale (on en est pas encore là mais j'pense que ça pourrait être un bon compromis)

          Merci pour vos réponses en tout cas et désolé de répondre aussi tard (je met le sujet n "résolu")

          • Partager sur Facebook
          • Partager sur Twitter

          Entrainer un CNN avec un dataset très réduit

          × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
          × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
          • Editeur
          • Markdown