• 6 heures
  • Facile

Ce cours est visible gratuitement en ligne.

course.header.alt.is_video

course.header.alt.is_certifying

J'ai tout compris !

Mis à jour le 19/11/2021

Relevez les défis de l’extraction de données web

Connectez-vous ou inscrivez-vous gratuitement pour bénéficier de toutes les fonctionnalités de ce cours !

Les problèmes éthiques de l’extraction de données web

L’extraction de données web est un outil vraiment pratique et puissant, mais parfois il y a des zones moralement grises. 

Vous ne voudriez pas que des personnes extraient vos données personnelles, n’est-ce pas ? Ou qu’elles collectent des informations en ligne sur vous et vos amis ? Ces questions ne sont pas seulement légales, mais aussi morales. Que vous soyez ou non dans un pays dont la loi interdit l’extraction de données web, il est important de vous assurer que vous extrayez de façon éthique. Nous allons voir comment nous y prendre.

Quels sites web sont extractibles ?

Les sites web n’ont pas tous des politiques qui autorisent d’extraire leurs données. Pour savoir si une entreprise l’autorise, assurez-vous de vérifier leurs Conditions générales.

Pour de nombreux sites, ceux-ci sont disponible sur leur fichier robots.txt. Vous pouvez ajouter « /robots.txt » après l’URL du site pour voir s’ils en ont un.

Ici vous pouvez voir une capture d’écran de la page robots.txt de Facebook, qui indique très clairement (en anglais) que l’extraction est interdite :

# Notice: Collection of data on Facebook through automated means is prohibited...
La collecte de données sur Facebook est interdite par le site web. 

Les solutions aux problèmes éthiques

Les astuces suivantes vont vous aider à éviter de potentiels problèmes moraux et éthiques avec la collecte de données :

  • Utilisez une interface publique si possible et si disponible. Plus de détails sur les interfaces sont disponibles dans le cours Adoptez les API REST pour vos projets web.

  • Fournissez un agent utilisateur dans l’en-tête de votre requête pour vous identifier en tant que développeur qui extraie de façon éthique.

  • Créditez toujours le propriétaire pour éviter les problèmes de copyright.

  • Ne faites pas des requêtes de données trop souvent.

Les défis de l’extraction web

L’extraction de données web est un outil puissant et utile, mais elle présente quelques difficultés.

La variété des sites web avec des structures HTML différentes 

Si vous vous rappelez, nous avons été dans le code source et cherché les noms de classes précis pour cette page, pour extraire les données du site du gouvernement britannique. Si nous avions utilisé le même code pour extraire les données à partir d’un autre site, ça n’aurait pas marché. Il nous faudrait un outil d’extraction de données web spécifique pour chaque site !

Durabilité des scripts 

Comme vous le savez, internet change et se met à jour constamment. Bien qu’ils soient très utiles pour se tenir au courant, les scripts de données web qui reposent sur une structure HTML en particulier, peuvent vite devenir obsolètes. Si vous avez un script que vous répétez sur une longue période, assurez-vous qu’il fonctionne comme vous le voulez.

En résumé

  • Il y a des problèmes légitimes sur l’éthique et la confidentialité quand on extrait des données web.

  • N’extrayez jamais les données personnelles de qui que ce soit ou d’un site qui ne l’autorise pas.

  • Comme internet est en constante évolution, les scripts d’extraction de données web nécessitent d’être mis à jour.

Bravo !

Félicitations, vous avez atteint la fin de ce cours ! Une fois que vous aurez terminé le quiz, n’hésitez pas à relire les chapitres et à refaire les exercices qui étaient les plus difficiles à comprendre pour vous.

Si vous vous sentez en confiance avec vos compétences en Python, vous devriez passer à nos cours suivants, comme Mettez en place votre environnement Python.

À partir de là, vous pouvez appliquer vos talents dans le domaine des données avec le cours Découvrez les librairies Python pour la data science ou dans le développement d’applications avec le cours Apprenez la programmation orientée objet avec Python.

Quelle que soit votre décision, j’ai aimé préparer ce cours pour vous et je vous souhaite le meilleur dans vos projets à l’avenir ! 😁

Exemple de certificat de réussite
Exemple de certificat de réussite