Partage
  • Partager sur Facebook
  • Partager sur Twitter

[JAVA] parser HTML

HTML et non XML

    26 novembre 2006 à 19:32:40

    Bonjour j'aimerais savoir si il était possible de parser du html en java.
    par exemple pour :
    récupérer les différents link des flux rss

    PS : XML ne marche pas. il suffit d'une erreur dans le code HTML et c'est fouty=u.
    • Partager sur Facebook
    • Partager sur Twitter
      27 novembre 2006 à 15:16:59

      ca doit pouvoir se faire avec une HTTPUrlconnection, mais c'est à toi de te débrouiller avec le flux ainsi obtenu.
      • Partager sur Facebook
      • Partager sur Twitter
        27 novembre 2006 à 15:58:30

        je pense pas que l'api standart le permette mais celle-ci bien http://htmlparser.sourceforge.net/

        maintenant peut-être qu'elle ne fera pas exactement ce que tu veux mais jette-y un coup d'oeil
        • Partager sur Facebook
        • Partager sur Twitter
          27 novembre 2006 à 18:54:13

          bah pour un flux RSS c'est du XML hein, pas du html
          • Partager sur Facebook
          • Partager sur Twitter
            29 novembre 2006 à 13:38:43

            non, je parle des balises link dans la page HTML qui point vers des flux RSS.

            PS : Désolé, mais j'aimerais le faire sans librairie extérieur à Edition Standar
            • Partager sur Facebook
            • Partager sur Twitter
              29 novembre 2006 à 17:33:53

              Si c'est seulement pour obtenir les flux rss présents sur la page, tu as deux choix.

              Soit le site est codé en xml (xhtml bien formé) et tu peux utiliser une feuille de transformation XSL. Envoie moi un MP si tu veux davantages d'informations sur le sujet.

              Soit le site est codé "salement", alors il suffit que tu ouvres le fichier .html
              Ensuite, tu vas tester toutes les lignes du fichier. Tant que n'as pas une ligne qui contient </head> (tous les flux doivent être indiqués dans le header d'un document html), tu regardes si tu trouves un bout de texte qui correspond à une regexp.

              Je peux détailler plus si tu veux, mais ça devrait te suffire pour faire marcher ton petit programme.

              :)
              • Partager sur Facebook
              • Partager sur Twitter

              [JAVA] parser HTML

              × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
              × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
              • Editeur
              • Markdown