Extraire les mots d’une page HTML en Java

30 novembre 2020 à 21:50:46

Bonjour

J'ai un exercice et l'une des questions consiste à implémenter une méthode pour extraire les mots d’une page et les retourner dans une liste.Par exemple

<html>
2 <head>
4 </head>
5 <body>
6 <p>
7 lorem
8 </p>
9 <p>
10 ipso
11 </p>
12 <p>
13 dolor sit amet 
14 </p>
</body>
</html>

Revoit [lorem, ipso, dolor, sit, amet]

Voici le debut de mon code :

private static ArrayList<String> extractWordsFromPage(String address) {
        
        ArrayList<String> mots = new ArrayList<String>();
        int p=content.indexOf("<p>");
        int pp=content.indexOf("</p>");
        
        String mot = content.substring(p+3,pp);
        
        System.out.println(mot);
        return mots;
    }

En réalité je ne sais pas trop comment m'y prendre...

Il faut que je récupère tous les mots compris dans la balise <p>..</p> mais je bloque un peu

Merci d'avance pour votre aide

P.X.L

1 décembre 2020 à 20:49:08

Tu as une liste de lignes(que tu as appelé mots, ce n'est pas correcte sémantiquement), certains de ces lignes contiennent des balises ouvrantes, d'autres des balises fermantes, d'autres des contenus.

La première chose à faire est d'identifier la nature la nature de ces lignes, il faut aussi savoir si une ligne peut contenir à la fois des balises et leur contenu.

PXL Le retro gaming facile Thread sur le forum: https://openclassrooms.com/forum/sujet/retro-pxl