récupération url uniquement

1 mars 2021 à 22:17:39

bonjour, ou bonsoir à tous, voila, je suis a la recherche d'une réponse, je tante de récupérer une url qui se trouve dans une balise <a href="line"</a>

pour récupérer mon lien:

if res.ok:
    liens = soup.findAll("h3")#, {"href":"title"})
for n in liens:
        a = n.find("a")
print(a)

or mon problème est que cela m'affiche toute la balise a, comment récupérer uniquement le lien qui se trouve juste après "href"?

PierrotLeFou

2 mars 2021 à 3:31:57

Je le ferais avec les expressions régulières:
import re
a='a href="http://monsite.com"'
b=re.sub(r'.*href="([^"]+)"', r'\1', a)
print(b)

Le Tout est souvent plus grand que la somme de ses parties.

LoupSolitaire

2 mars 2021 à 4:21:49

D'après ce lien : https://stackoverflow.com/questions/5815747/beautifulsoup-getting-href

On peut simplement utiliser les crochets comme pour l'accès aux dictionnaires. En reprenant ta variable a :

a['href']

Blond, bouclé, toujours le sourire aux lèvres...

PierrotLeFou

2 mars 2021 à 7:04:26

On peut faire autrement, mais ça me tentait ...
Dans le cas des liens <a href ...> on peut le faire comme suit:
Je pense que les url ne peuvent pas avoir de " ou de : dans leur texte.
b=a.split('"')[1]
ou encore en plus long ...
i=a.index('"')+1
j=a[i:].index('"')
b=a[i:i+j]
Pour extraire le nom sans le http:
b=a.split(':')[1][2:-1]
Les expressions régulières pourraient servir si la balise contient des codes CSS difficiles à séparer.

Le Tout est souvent plus grand que la somme de ses parties.

MwenLà

2 mars 2021 à 16:27:18

merci pour vos solutions, elles m'ont bien aidé, et débloqué, pour info j'ai retenu celle de LoupSolitaire qui suit la logique de mon code, mais merci a tout le monde, ça m'agrandit l'éventail de chose apprise