Partage
  • Partager sur Facebook
  • Partager sur Twitter

Aspirer les fichiers d'un site de A à Z

24 janvier 2010 à 10:31:40

Hello,
J'ai httrack, quand j'ai cherché sur google on a dis que c'est le meilleure logiciel mais non :S il ne télécharge pas le site entier il y a un logiciel pour télécharger les fichiers d'un site de A à Z ?
  • Partager sur Facebook
  • Partager sur Twitter
24 janvier 2010 à 10:40:38

c'est légal çà? (çà ressemble a du pishing...)
  • Partager sur Facebook
  • Partager sur Twitter
24 janvier 2010 à 10:58:09

Non, c'est pour aller dans le site hors connexion...
  • Partager sur Facebook
  • Partager sur Twitter
24 janvier 2010 à 11:05:39

C'est interdit sur le Site du Zéro en tout cas, donc essaye pas ici ;)
  • Partager sur Facebook
  • Partager sur Twitter
24 janvier 2010 à 11:16:58

Si tu veux les sources du site, c'est impossible.
  • Partager sur Facebook
  • Partager sur Twitter
24 janvier 2010 à 11:38:39

Chez moi c'est pas interdit :p
Mais pour les français aussi puisque sur les autres forums parle de ce logiciel... :-°
  • Partager sur Facebook
  • Partager sur Twitter
25 janvier 2010 à 14:33:41

wget ?
  • Partager sur Facebook
  • Partager sur Twitter
Tout ce qui a été crée par l'Homme devrait être patrimoine de l'humanité. Vous êtes perdu ?, là ce sera trop loin.
25 janvier 2010 à 18:15:05

J'ai pas bien compris comment aspirer un site de A à Z avec wget pouvez-vous m'aidez ?
  • Partager sur Facebook
  • Partager sur Twitter
25 janvier 2010 à 18:20:30

Citation : lnconnu

Chez moi c'est pas interdit :p
Mais pour les français aussi puisque sur les autres forums parle de ce logiciel... :-°



C'est ptête pas interdit chez toi ( gné ? ) mais ici ça l'est, donc inutile d'insister.
  • Partager sur Facebook
  • Partager sur Twitter
25 janvier 2010 à 18:22:39

:-° ok ok ok :-° qui peut me donné un tutoriel pour utiliser ce logiciel ?
  • Partager sur Facebook
  • Partager sur Twitter
25 janvier 2010 à 20:13:29

Bon, en gros si j'ai bien compris tu veux "aspirer" un site dans le but de le lire à l'aise hors connexion...
Malheureusement cela s'apparente à du cracking et c'est interdit (soi-dit en passant j'y avais pensé quand j'étais en 56k et quand j'ai vu que ça bouffait de toute façon une grosse partie de la bande passante et que certains sites sont énormes, en plus que cette action soit illégale, j'ai abandonné ;) )
  • Partager sur Facebook
  • Partager sur Twitter
25 janvier 2010 à 21:23:07

Ben si, il te dit que c'est illégal, donc qu'on te donnera pas la réponse, ça devrait t'aider...
  • Partager sur Facebook
  • Partager sur Twitter
25 janvier 2010 à 22:01:09

Le rôle d'un serveur Web est de répondre à des requêtes HTTP.
Un aspirateur, tout comme un navigateur Web, émet des requêtes HTTP.

Ya pas de feinte, un aspirateur ne fait ni brute-forcing, ni phishing, ni cache-poisoning... Il fait la même chose qu'un... navigateur Web.
En quoi donc serait-ce illégal ? Si le serveur accepte de nous envoyer les pages c'est qu'on a le droit Oo Qu'est ce qu'on s'en fout que ce soit via Firefox, Chrome, Wget, Telnet... ?

Celà dit, tu n'auras rien de plus que ce que le serveur veux bien te filer. Donc pas de sources PHP, pas de fichiers se situant dans des dossiers protégés (.htaccess, toussa). Tant mieux, vu que ce n'est absolument pas ce que tu souhaites faire !
  • Partager sur Facebook
  • Partager sur Twitter
25 janvier 2010 à 22:10:33

Oui, firekraag à tout à fait raison, ce n'est pas de craking (tu ne modifies pas les sources en vue de craker le site), ni du phishing (tu ne tente pas de voler les id, mots de passes et tout des autres membres et faisant un "faux" site). C'est tout à fait légal, mais certains sites n'aiment pas (comme le SdZ par exemple) : ça consomme beaucoup de bande passante, et fait énormément de requêtes.
  • Partager sur Facebook
  • Partager sur Twitter
25 janvier 2010 à 22:13:28

Voilà après si tu fais tourner le bourrier en boucle toute la journée là ça peut devenir illégal parce que ça s'apparente à du DoS : surcharger un serveur de requêtes pour l'empêcher de répondre normalement...

Donc faut faire attention car les serveurs sont souvent équipés de logiciels de protection du style "si une adresse IP émet plus de X requêtes par seconde --> BAN" donc voilà.
  • Partager sur Facebook
  • Partager sur Twitter
25 janvier 2010 à 22:14:52

Ah, moi aussi ça m'éclaire un peu... :)
C'est bien d'avoir plusieurs sources d'information pour être certain de comprendre, visiblement j'en avais pris une mauvaise...

Mais au fond, pourquoi veux-tu visiter un site offline?? Problèmes de connexion? PC non relié au réseau?
  • Partager sur Facebook
  • Partager sur Twitter
Anonyme
26 janvier 2010 à 20:36:04

Bonjour,
  • La recherche, c'est pas pour les chiens (oui je suis méchant mais bon, c'est lourd à la fin).
  • Aspirer un site est très mauvais pour les serveurs et souvent bête vu que tu te retrouves avec plusieur MB de données dont tu n'as que faire.
  • Donc : si tu veux sauvegardé une page, utilise Ctrl+S
Et puis détaille ce que tu veux faire, ça nous aide à t'aider.
  • Partager sur Facebook
  • Partager sur Twitter
27 janvier 2010 à 14:18:35

légal pas légal je m'en fou, mais çà devrait être interdit car:
-s'il copie un site, il peu le mettre en ligne et faire de la concurrence (vol de site quoi), faire du pishing (les clinet ne verifient pas toujours l'addresse HTML et il donnent leur ID...)
-prendre des fichiers (images,musiques, etc) non libre de droit ou que le propiétaire du site ne souhaite pas rendre publique.
-surcharger le serveur.
-etc...

par concéquent je suis contre ce genre de pratiques, c'est comme si quelqu'un vous disait: "Comment extraire tous les fichiers d'un jeu vidéo, c'est pour mon petit frère :D ?" et là, ya rien de plus illégal!

  • Partager sur Facebook
  • Partager sur Twitter
27 janvier 2010 à 19:41:18

Citation : lifaon74

légal pas légal je m'en fou, mais çà devrait être interdit car:
-s'il copie un site, il peu le mettre en ligne et faire de la concurrence (vol de site quoi), faire du pishing (les clinet ne verifient pas toujours l'addresse HTML et il donnent leur ID...)



Ben, vu qu'il n'y a pas les fichiers PHP, mais juste le rendu HTML, c'est pas vraiment faisable.

Citation : lifaon74

-prendre des fichiers (images,musiques, etc) non libre de droit ou que le propiétaire du site ne souhaite pas rendre publique.



De toutes façons, dès que tu le met sur Internet, c'est rendu public. Donc si le proprio d'un site ne veut pas que les images soient "volés", il ne faut pas qu'il le mettent sur Internet.


Citation : lifaon74


par concéquent je suis contre ce genre de pratiques, c'est comme si quelqu'un vous disait: "Comment extraire tous les fichiers d'un jeu vidéo, c'est pour mon petit frère :D ?" et là, ya rien de plus illégal!



Ce n'est pas du tout pareil, surtout que je ne vois pas l'utilité d'extraire les fichier d'un jeu, a part pour en voir les sources et éventuellement les modifier, ce qui m'étonnerais...

  • Partager sur Facebook
  • Partager sur Twitter
Anonyme
27 janvier 2010 à 19:48:00

Citation : lifaon74

Citation

-prendre des fichiers (images,musiques, etc) non libre de droit ou que le propiétaire du site ne souhaite pas rendre publique.



De toutes façons, dès que tu le met sur Internet, c'est rendu public. Donc si le proprio d'un site ne veut pas que les images soient "volés", il ne faut pas qu'il le mettent sur Internet.


Aha, les licences, c'est pour les chiens ? Le copyright, ça te dit quelque chose ? La propriété intellectuelle ?
Nan mais franchement, qu'est-ce qui faut pas lire. =/
  • Partager sur Facebook
  • Partager sur Twitter
28 janvier 2010 à 14:17:33

Si on va dans le cœur du sujet et on me dis si il y a un logiciel pour ça de A à Z ?
  • Partager sur Facebook
  • Partager sur Twitter
28 janvier 2010 à 14:57:46

Arretez de dire des conneries, il n'y a rien d'illegal dans l'utilisation d'un logiciel qui automatise le Ctrl + S...

Le seul probleme c'est qu'un aspirateur mal configure c'est idiot, ca aspire tout ce que ca trouve (par exemple toutes les pages d'un forum et ca peut faire beaucoup de donnees), donc avant de cliquer sur "Aspirer" tu dis a Httrack de telecharger que la partie du site que tu veux et pas plus parce que ca surcharge de requetes le serveur.
  • Partager sur Facebook
  • Partager sur Twitter
29 janvier 2010 à 16:53:01

Je suis pas un pro d'httrack mais t'as la doc. ici : http://www.httrack.com/html/fcguide.html
  • Partager sur Facebook
  • Partager sur Twitter
13 novembre 2017 à 10:33:46

Pour aspirer le contenu d'un site, tu peux utiliser la commande : 

wget -r http://www.tonLien.xx
"-r --> parcours tout le les liens dispo sur le site et aspire l'intégralité du site"

On appelle ça crawler un site, c'est pas légale pour la majorité des sites, mais s'il est légale dans un site vous le saurez parce que le site le dis implicitement que c'est possible de le faire.

-
Edité par FIREGET 13 novembre 2017 à 12:01:03

  • Partager sur Facebook
  • Partager sur Twitter
13 novembre 2017 à 12:07:00

Bonjour FIREGET,

merci de ne pas remonter de topic de 2010, surtout que la solution avec wget avait été donnée.

Et une bonne fois pour toutes, non, ce n'est pas illégal ! Naviguer sur un site avec un navigateur télécharge aussi le site - dans le cache. Et comme le font remarquer plusieurs personnes, ce qui est récupéré, que ce soit via la commande wget ou HTTrack, c'est du HTML, c'est le code généré. On ne peut pas agir de manière malicieuse sur le site d'origine de cette manière.

Ensuite, que ce soit clair : il est possible que quelqu'un récupère le html d'un site, modifie l'attribut "action" d'un formulaire, et mette en place du phishing. Mais c'est exactement comme dire "les voitures font des accidents, par conséquent il est illégal d'utiliser une voiture". On peut faire des choses illégales en ayant aspiré un site, mais l'aspiration en elle-même n'est pas illégale.

Je ferme ici, inutile de faire repartir le débat.

Si besoin, me contacter par MP.

  • Partager sur Facebook
  • Partager sur Twitter

Pas d'aide concernant le code par MP, le forum est là pour ça :)