Partage
  • Partager sur Facebook
  • Partager sur Twitter

Faisabilité d'un script de datamining en Python

Je pense avoir trouvé le projet motivant pour me mettre à Python

    14 mai 2013 à 20:01:31

    Bonjour

    Je suis en train de réfléchir à la programmation d’un script qui me permettrait de récupérer et mettre en forme des informations en provenance de différentes sources. Je me demande si Python me permettrait de faire ceci facilement :

    • Récupérer de l’information sur une page web ou un fichier PDF ou éventuellement autres
    • « Parser » l’information selon des règles précisées par rapport à la mise en forme et la présence de certains mots dans les textes récupérés
    • Restituer les informations parsées sous les formes suivantes : xml, xls, ods…

    Je me demande aussi si vous avez déjà connaissance de projets ou bouts de codes déjà développés qui pourraient m’intéresser, et si Python donne une réelle plus-value à mon projet de script (simplicité de développement, de maintenance, d’augmentation) ou si il vaut mieux envisager un autre langage (et dans ce cas lequel).

    Je vous remercie pour vos conseils…

    • Partager sur Facebook
    • Partager sur Twitter
      14 mai 2013 à 23:22:46

      Récupérer de l’information sur une page web ou un fichier PDF ou éventuellement autres

      Restituer les informations parsées sous les formes suivantes : xml, xls, ods…

      • libxml (module standard)
      • odfpy
      • ...

      Le reste, c'est à toi de le coder, mais en ce qui concerne les entrées / sorties, il existe déjà tout ce qu'il te faut.

      • Partager sur Facebook
      • Partager sur Twitter
      Zeste de Savoir, le site qui en a dans le citron !
        15 mai 2013 à 16:50:15

        C'est exactement les pistes que je souhaitais avoir pour commencer.

        Comme tu le vois j'arrive à formuler mes besoins, mais pas forcément à trouver la bonne information sur un site de référence par méconnaissance de ce site. Est-ce que le pyPI est l'endroit ou je serais en mesure de trouver à coup sûr les bibliothèques dont j'aurais besoin, pour peu que j'arrive à formuler mes besoins en anglais?

        Merci Nohar...

        • Partager sur Facebook
        • Partager sur Twitter
          15 mai 2013 à 21:04:27

          Google avant tout.

          L'un des plus gros avantages de Python, c'est que sa bibliothèque standard couvre généralement 80 ou 90% de tes besoins, à l'aise. Et sa doc est très bien référencée et indexée par Google.

          Donc si tu cherches par exemple à parser ou générer un fichier csv, une recherche pour "Python csv" va t'emmener directement sur la doc du module csv de la bibliothèque standard de Python. Pour les autres besoins qui ne sont pas couverts par la lib standard, ça fera remonter 99% du temps des liens vers des modules tiers qui font ce que tu souhaites. :)

          Après, y'a aussi un peu de culture générale... Par exemple, en fréquentant régulièrement ce forum, je découvre assez souvent des modules tiers dont je n'ai jamais eu besoin, mais que je retiens pour une utilisation future (scrapy et Beautiful Soup, par exemple).

          Mais sinon ouais, avec la lib standard + PyPI, tu as déjà une bonne couverture.

          -
          Edité par nohar 15 mai 2013 à 21:09:46

          • Partager sur Facebook
          • Partager sur Twitter
          Zeste de Savoir, le site qui en a dans le citron !

          Faisabilité d'un script de datamining en Python

          × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
          × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
          • Editeur
          • Markdown