Partage
  • Partager sur Facebook
  • Partager sur Twitter

Extraction informations d'un fichier HTML

    20 novembre 2021 à 22:24:04

    Bonjour,

    je possède des fichiers HTML et j'ai besoins d'en extraire certaines informations. Par exemple, dans le code suivant, je veux récupérer quelque chose du genre "Nom : Le nom", "Lieu-dit : Le lieu-dit"

      <tr>
        <td width="28%" align=right nowrap class=fieldname>Nom :</td>
        <td align=left class=text>Le nom</td>
      </tr>
    
    
      <tr>
        <td width="28%" align=right nowrap class=fieldname>Lieu-dit :</td>
        <td align=left class=text>Le lieu-dit</td>
      </tr>

    Avez-vous une idée de comment faire ? Merci beaucoup


    -
    Edité par jordancordier 20 novembre 2021 à 22:26:11

    • Partager sur Facebook
    • Partager sur Twitter
      20 novembre 2021 à 23:55:58

      Salut !

      Tu peux utiliser ça :

      https://python.doctor/page-beautifulsoup-html-parser-python-library-xml

      Ou faire du parsing à la main :

      >>> text = '''<tr>
        <td width="28%" align=right nowrap class=fieldname>Nom :</td>
        <td align=left class=text>Le nom</td>
      </tr>
      
      
      <tr>
        <td width="28%" align=right nowrap class=fieldname>Lieu-dit :</td>
        <td align=left class=text>Le lieu-dit</td>
      </tr>'''
      >>> dico = {}
      >>> for key in text.split('<td width="28%" align=right nowrap class=fieldname>')[1:]:
      
      	k = key[:key.index('</td>')]
      
      	value = key.split('<td align=left class=text>')[1]
      
      	v = value[:value.index('</td>')]
      
      	dico[k]=v	
      
      >>> dico
      {'Nom :': 'Le nom', 'Lieu-dit :': 'Le lieu-dit'}



      -
      Edité par ErispoeLeNarvalo 21 novembre 2021 à 0:33:03

      • Partager sur Facebook
      • Partager sur Twitter

      https://www.youtube.com/watch?v=Dv6Th7kJ64Q

      Extraction informations d'un fichier HTML

      × Après avoir cliqué sur "Répondre" vous serez invité à vous connecter pour que votre message soit publié.
      • Editeur
      • Markdown