Partage
  • Partager sur Facebook
  • Partager sur Twitter

Extraire les mots d’une page HTML en Java

    30 novembre 2020 à 21:50:46

    Bonjour

    J'ai un exercice et l'une des questions consiste à implémenter  une méthode pour extraire les mots d’une page et les retourner dans une liste.Par exemple 

    <html>
    2 <head>
    4 </head>
    5 <body>
    6 <p>
    7 lorem
    8 </p>
    9 <p>
    10 ipso
    11 </p>
    12 <p>
    13 dolor sit amet 
    14 </p>
    </body>
    </html>

    Revoit [lorem, ipso, dolor, sit, amet]

    Voici le debut de mon code :

    private static ArrayList<String> extractWordsFromPage(String address) {
            
            ArrayList<String> mots = new ArrayList<String>();
            int p=content.indexOf("<p>");
            int pp=content.indexOf("</p>");
            
            String mot = content.substring(p+3,pp);
            
            System.out.println(mot);
            return mots;
        }

    En réalité je ne sais pas trop comment m'y prendre...

    Il faut que je récupère tous les mots compris dans la balise <p>..</p> mais je bloque un peu 

    Merci d'avance pour votre aide 

    • Partager sur Facebook
    • Partager sur Twitter
      1 décembre 2020 à 20:49:08

      Tu as une liste de lignes(que tu as appelé mots, ce n'est pas correcte sémantiquement), certains de ces lignes contiennent des balises ouvrantes, d'autres des balises fermantes, d'autres des contenus.

      La première chose à faire est d'identifier la nature la nature de ces lignes, il faut aussi savoir si une ligne peut contenir à la fois des balises et leur contenu.

      • Partager sur Facebook
      • Partager sur Twitter

      Extraire les mots d’une page HTML en Java

      × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
      × Attention, ce sujet est très ancien. Le déterrer n'est pas forcément approprié. Nous te conseillons de créer un nouveau sujet pour poser ta question.
      • Editeur
      • Markdown