Ci-dessous, les différences entre deux révisions de la page.
Les deux révisions précédentes Révision précédente Prochaine révision | Révision précédente | ||
documentation:outils:wget [le 24/01/2014 à 22h42] 111110101011 [Télécharger les fichiers d'un index HTTP] |
— (Version actuelle) | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
- | ====== Wget ====== | ||
- | |||
- | Wget est un outil de téléchargement très commun sous les systèmes type Linux. | ||
- | Il s' | ||
- | Wget dispose aussi d' | ||
- | |||
- | Un peu de documentation: | ||
- | * La page man de wget | ||
- | * [[http:// | ||
- | * D' | ||
- | |||
- | ===== Cas d' | ||
- | |||
- | ==== Télécharger les fichiers d'un index HTTP ==== | ||
- | |||
- | Par exemple, avec les sites mentionnés dans l' | ||
- | |||
- | Tout télécharger sans se prendre la tête: | ||
- | |||
- | < | ||
- | wget -mc " | ||
- | </ | ||
- | |||
- | ==== Télécharger les mp3 d'un site web avec wget + script ==== | ||
- | |||
- | Admettons qu'on tombe sur un site avec des mp3 dont on peut retrouver les liens mais dont le téléchargement n'est pas évident. On peut utiliser un gestionnaire de téléchargements, | ||
- | |||
- | [[http:// | ||
- | |||
- | Matons les sources HTML (CTRL+U), car pour tout site web qui joue de la musique, il y a forcément référence aux fichiers sons quelque part. Ici on a de la chance, le code est plutôt clair à lire. Il n'y a pas les liens mp3 directement dedans, mais ils sont dans un fichier .js à part, on click sur '' | ||
- | |||
- | < | ||
- | var tracks = [ | ||
- | {" | ||
- | " | ||
- | " | ||
- | " | ||
- | {" | ||
- | " | ||
- | " | ||
- | " | ||
- | {" | ||
- | " | ||
- | " | ||
- | " | ||
- | </ | ||
- | |||
- | La liste des fichiers est bien là, mais il faut épurer cette liste pour qu' | ||
- | |||
- | On enregistre la liste complète dans un fichier que l'on a qu'a nommer listejs.txt. | ||
- | |||
- | === Écriture du script shell === | ||
- | |||
- | Ça, ça balance dans le terminal le contenu du fichier. | ||
- | < | ||
- | cat listejs.txt | ||
- | </ | ||
- | |||
- | Le caractère ' | ||
- | |||
- | Ici, la commande qui suit le ' | ||
- | < | ||
- | cat listejs.txt | grep mp3 | ||
- | </ | ||
- | |||
- | Résultat: | ||
- | < | ||
- | {" | ||
- | {" | ||
- | {" | ||
- | </ | ||
- | |||
- | A partir de là, on a une ligne par mp3, mais toujours du code javascript qu'on doit nettoyer. Le nettoyage va se faire avec '' | ||
- | |||
- | Les 2 options de '' | ||
- | |||
- | < | ||
- | cat listejs.txt| grep mp3 | cut -d '"' | ||
- | </ | ||
- | |||
- | Résultat: | ||
- | < | ||
- | http:// | ||
- | http:// | ||
- | http:// | ||
- | </ | ||
- | |||
- | Et là, on a fini. Pour chaque ligne, on a le lien < | ||
- | |||
- | < | ||
- | cat listejs.txt| grep mp3 | cut -d '"' | ||
- | </ | ||
- | |||
- | On peut ensuite donner à wget le résultat contenu dans le fichier '' | ||
- | |||
- | On invoque wget avec '' | ||
- | |||
- | < | ||
- | wget -c -x -i mp3terrier.txt | ||
- | </ | ||
- | |||
- | Bon le hic apparemment c'est que sur le terrier ça télécharge à 2 à l' | ||
- | |||
- | === Addendum 1 - sed appliqué à Le Terrier === | ||
- | |||
- | edmc73 nous fait part d'une commande qui remplace l' | ||
- | < | ||
- | |||
- | === Addendum 2 - sed dans un cas plus général === | ||
- | |||
- | edmc73 [[http:// | ||
- | |||
- | Pour traiter une donnée ayant chaque ligne du type: | ||
- | < | ||
- | |||
- | ... et en extraire la partie **fichier.xyz**, | ||
- | < | ||
- | |||
- | Des explications simples sur sed sur [[http:// | ||
- | |||
- | ===== Liens ===== | ||
- | |||
- | * Site officiel: https:// | ||
- | * Wikipédia: [[wp> | ||
- | |||