Excusez moi de vous déranger, je voudrais savoir comment savoir si un élément existe sur une page web,
je vous explique : je scrap un site qui répertorie les commerces d'une ville, et sur certains commerces répétorié, il y a un site web en lien j'aimerais scraper toutes les pages mais garder seul celles qui n'ont pas de sites en lien.
La balise <a> est utilisé pour le lien du site web.
Bonjour, quelle est l'url du site pour voir comment cela est fait ?
moi, j'utiliserai BeautifulSoup.
example pour avoir tous les liens d'un site web:
from bs4 import BeautifulSoup
from bs4.dammit import EncodingDetector
import requests
parser = 'html.parser' # or 'lxml' (preferred) or 'html5lib', if installed
resp = requests.get("<ton-site>")
http_encoding = resp.encoding if 'charset' in resp.headers.get('content-type', '').lower() else None
html_encoding = EncodingDetector.find_declared_encoding(resp.content, is_html=True)
encoding = html_encoding or http_encoding
soup = BeautifulSoup(resp.content, parser, from_encoding=encoding)
for link in soup.find_all('a', href=True):
print(link['href'])
- Edité par Le programmeur solitaire 17 octobre 2021 à 10:56:19
le code FAIT le bonheur (pour moi en tous cas)