Partage
  • Partager sur Facebook
  • Partager sur Twitter

[Python]Récup une partie du code d'un page

Sujet résolu
    27 novembre 2008 à 21:03:06

    Bonjour,

    suite a mon sujet
    je souhaiterais maintenant récupérer certaine infos contenu dans les pages web que j'ai téléchargé, par exemple, les adresses mails ou certains textes contenue dans des balises html...

    je pensais utiliser des conditions mais je vois pas trop comment délimiter le texte a récupérer ....

    merci d'avance !
    • Partager sur Facebook
    • Partager sur Twitter
      27 novembre 2008 à 21:08:23

      Pour récuperer ton texte utilise les expréssions régulière avec re :)
      • Partager sur Facebook
      • Partager sur Twitter
        27 novembre 2008 à 22:20:17

        Ou pas. Il est bien plus intelligent d'utiliser une librairie comme ElementTree (très performante, standard, mais un peu étrange) ou BeautifulSoup (très simple, bien documentée, mais pas standard).
        • Partager sur Facebook
        • Partager sur Twitter
          28 novembre 2008 à 9:45:54

          Citation : nicknick63

          Ou pas. Il est bien plus intelligent d'utiliser une librairie comme ElementTree (très performante, standard, mais un peu étrange) ou BeautifulSoup (très simple, bien documentée, mais pas standard).



          Ba il devra quand même les utiliser, car comment va-t-il pouvoir récupérer les adresses email de la page ? Car là, il récupèrera tout ce qu'il y a dans un noeud, et ensuite il devra le parser pour récupérer les adresses mails.
          • Partager sur Facebook
          • Partager sur Twitter
            28 novembre 2008 à 18:09:14

            Pour les adresses mails, si elles sont sémantiquement correctes et donc qu'elles ont un attribut mailto, BeautifulSoup pourra les récupérer, sinon en effet le module re devra s'en charger. Mais ceci dit, il vaut mieux éviter de se faire chier à utiliser les expregs quand une bibliothèque peut faire le travail plus facilement (et rapidement).
            • Partager sur Facebook
            • Partager sur Twitter
              29 novembre 2008 à 9:27:06

              Merci a tous, j'ai voulu prendre une librairie du genre beautifoulsoup mais en fait re fait ça très bien donc voila!

              voici mon code
              html = open('%s.html' % i,'rb').read()
              email = "".join(re.findall('([\w\.\-]+@[\w\.\-]+)',html))
              
              • Partager sur Facebook
              • Partager sur Twitter

              [Python]Récup une partie du code d'un page

              × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
              × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
              • Editeur
              • Markdown