Outils du site

Outils pour utilisateurs

Action disabled: register

Panneau latéral

P2PFR:Wiki

divers:conseils-creation-sites-de-liens (lu 21777 fois)

Conseils pour la création de sites de liens

Dans cette page on cherchera à voir ce qui cloche avec la plupart des sites de liens (bittorrent, streaming ou direct download) actuels, et comment ils pourraient être améliorés.

Tous les sites de liens ne se valent pas. Ce n'est pas une question d'esthétique. Ce n'est pas non plus une question d'avoir une grande ou une petite communauté d'utilisateurs. Ce sont par contre des questions de :

  • Quelle et la politique d'organisation du site ? (le site est-il accessible publiquement par quiconque ou restreint à certaines personnes ? quelle part de contrôle se réserve l'équipe d'administrateurs sur le site ? comment se fait le tri des fichiers proposés en téléchargement ? Comment les frais d'hébergement sont-ils remboursés ?)
  • Comment le site est-il conçu techniquement ?

Ces deux grandes questions sont liées, et l'une déborde souvent sur l'autre.

Cet article va donc s'intéresser à quelques choix de conception, qui sont habituellement mis de côté, et qui peuvent contribuer grandement à la qualité du site lorsqu'ils sont suivis.

Aspects technique de la conception de sites de liens

Voici les points de recommandation qu'on peut donner pour la conception d'un site de liens, qu'il s'agisse de liens ed2k, torrent ou direct download.

  • Code : Le code du site web doit être publié sous une licence libre, cela afin d'améliorer collaborativement la qualité des sites de liens.
  • Données relatives aux oeuvres : Le site doit utiliser des banques de données libres, ouvertes en lecture et en écriture (wikipedia, musicbrainz…), pour alimenter ses descriptions et pour structurer ses données
  • Réplication : Vous devez faire don du site que vous concevez à vos visiteurs. Outre le code source libre, vous devrez donc aussi proposer des exportations anonymisées de votre base de données, permettant à d'autres de répliquer le même site ailleurs

On les traitera dans le détail ci-dessous.

Code

Principes

En informatique, il est souvent préconisé d'éviter de réinventer la roue. La meilleure façon d'y parvenir, c'est en faisant en sorte que les codes sources des logiciels soient libres.

Permettre aux gens de réutiliser le code qu'on écrit et pouvoir réutiliser le code écrit par les autres nous place dans une dynamique collaborative. Les codes des logiciels sont toujours susceptibles de recevoir des améliorations. En mettant son code à disposition des autres, on permet aux autres de l'améliorer, et on bénéficie en retour de ces améliorations.

Avoir un code fermé (donc non libre) est parfois une façon de se distinguer des autres, de prendre de l'avance dans les fonctionnalités, et d'espérer être meilleurs qu'eux. Ca peut sembler gratifiant, et pourtant, vous aquéreriez d'autant plus de reconnaissance si vous acceptiez de produire du code libre. Ce code servirait l'intérêt général, autrement dit : vous contribueriez ainsi à rendre la société un peu moins merdique qu'elle ne l'est (et il nous semble que c'est important). En plus, cette victoire serait toute relative, car ce que vous arriverez à achever seul dans votre coin sera toujours moindre par rapport à ce qu'il est possible de faire collectivement.

Soyons ambitieux pour ne plus avoir à subir l'informatique, et produisons du code libre.

Mise en pratique

Il y a plusieurs façons de concevoir un site web :

  • On code le site à partir de zéro dans un langage tel que PHP…
  • On utilise un «framework» qui mâche une partie du travail et nous aide à développer le site tel qu'on le souhaite
  • On utilise un «CMS» prêt-à-emploi qui n'exige pas de programmation de notre part, mais simplement de le configurer

Pour ce qui est des sites de liens, il y a peu de logiciels adaptés. Certains se définissent comme des frameworks, d'autres s'apparentent davantage à des CMS.

On ne retiendra pas les logiciels au code source propriétaire, pour les raisons expliquées plus haut. Cela laisse peu de choix :

  • Gazette, utilisé par What.cd, un tracker bittorrent dédié à la musique
  • TorrentTrader ?
  • Existe t-il des logiciels pour les sites de liens autres que BitTorrent ?

Voir aussi : liste de trackers bittorrent

Peut-être aussi qu'on peut utiliser un CMS généraliste (wordpress, joomla…) selon l'usage que l'on prévoit, car le rôle minimal que doit tenir un site de liens, c'est de pouvoir afficher des liens dans une page, ce que n'importe quel CMS sait faire.

Si vous faites le choix d'adopter l'un de ces logiciels libres, il vous sera possible (et souhaitable) de vous immiscer au sein du projet :

  • En faisant partie de la communauté d'utilisateurs du logiciel, en participant au forum, en écrivant de la documentation ou en rapportant les bugs.
  • Ou si vous ne redoutez pas de faire de la programmation, apprendre à utiliser git/svn/mercurial, et voir comment faire remonter des «patches» au projet d'origine.

Données liées aux contenus

Principe

La plupart des sites de liens proposent une fiche de présentation pour chaque contenu/oeuvre disponible. Ces fiches contiennent une série d'informations qui aideront l'internaute à décider de s'il récupére/visionne ce contenu ou pas.

D'où ces informations peuvent-elles provenir ?

Types de données

Il faut d'abord distinguer plusieurs types de données.

On a donc 3 catégories de données qui nous intéressent :

  1. données de l'oeuvre
  2. données de la release
  3. données techniques des fichiers

Schémas de données

Intéressons nous d'abord aux types de données qui peuvent être associées à chaque contenu…

Données spécifiques à l'oeuvre

Par exemple, pour un album de musique on a :

  • le nom de l'artiste
  • le nom de l'album
  • la date de parution de l'album
  • la maison de disque et le numéro de catalogue
  • la liste des titres et leur durée
  • le type de support (CD, DVD…)

Ces propriétés sont propres à l'oeuvre. Pour un film, on trouverait le même genre d'informations, comme le nom du réalisateur, une liste d'acteurs, une synopsis…

Ces données sont plus ou moins devenues publiques grâce à des internautes qui ont eux-mêmes récolté et publié ces données , car l'industrie (les producteurs/labels) a rarement la démarche de publier par elle-même son catalogue d'oeuvres.

Données spécifiques au «rip»

On pourrait aussi ajouter des informations spécifiques au «rip» et à la release, par exemple :

  • Nom du groupe de release
  • Date de la release
  • Outils et réglages utilisés pour le rip

Il existe des listings de releases. Je ne connais pas encore bien leur mode de fonctionnement. Certains de ces sites sont référencés par ici : http://wiki.p2pfr.com/liens/web#referencement_des_releases

Données spécifiques aux fichiers

S'ajoutent des charactéristiques techniques qui concernent les fichiers, par exemple :

  • le nom du fichier
  • le format du fichier
  • le codec
  • le bitrate

Ces informations peuvent être retrouvées à partir des fichiers eux-mêmes.

Réfléchir à ces schémas de données n'est pas une tâche facile. Ce travail est parfois abordé par d'autres projets qui travaillent sur les métadonnées, les bases de données, le web sémantique, ou les normes définissant des structures de données. On essayera de voir quelles solutions existantes nous pourrons réemployer dans le cadre d'un site de liens.

A priori, il faudra donc :

  • pour les données de l'oeuvre, utiliser des bases de données existantes décrivant ces oeuvres
  • pour les données de la release, voir s'il est possible d'utiliser les listings existants, et en ultime recours, demander à l'uploadeur de les renseigner
  • pour les données techniques des fichiers, les déterminer via des outils fonctionnant côté serveur

Pour certains types de contenus (notamment les films et la musique), il existe des sites qui collectent les descriptions d'un maximum d'oeuvres. Il est possible d'en tirer profit en programmant le nécessaire pour interroger ces sites. Là aussi il est question de ne pas réinventer la roue. Le but, c'est d'éviter que vos uploadeurs passent leur temps à faire des copier/coller d'un site vers l'autre, et que votre site réutilise une base de données existente pour s'alimenter.

Notons toutefois qu'il n'existe pas de banque de données utilisable pour tout, ce qui laisse plusieurs options :

  • Vous trouvez les descriptions sur un site quelconque, et les copiez/collez sur votre site.
  • Vous vous lancez dans une initiative de logiciel libre pour constituer une base de données sur le type d'oeuvre qui vous intéresse.
  • Vous ne décrivez pas ces contenus, ou bien vous renoncez à lister ces contenus.
Conclusion

Récupération des données

Données de l'oeuvre

Bien que les données des oeuvres puissent être renseignées par l'uploadeur, on fait le choix beaucoup plus efficace de les récupérer automatiquement.

Des bases de données en ligne se proposent de renseigner ces informations pour plusieurs types d'oeuvres.

La philisophie et les usages permis par ces banques de données varie de l'une à l'autre. Certaines ne donnent accès qu'à certaines données, et font payer les utilisateurs s'ils souhaitent accéder à davantage. L'accès à ces données se fait généralement au moyen d'une API utilisable par les développeurs web. Toutefois cette API est potentiellement elle aussi volontairement bridée. Aussi, les conditions générales d'utilisation de ces services font qu'on ne sait pas toujours ce qu'on a le droit de faire avec les données qui en sont issues.

Fort heureusement, certaines initiatives prennent le contrepied de ces limitations. Elles proposent notamment : un accès complet aux données, une API non bridée (ou moins bridée), une réplication possible de la base de données sur un autre serveur (y compris usage local), ainsi que des licences d'utilisation très permissives (licences libres voire domaine public), etc.

On retiendra donc 2 de ces banques de données :

  • Musicbrainz, pour la musique
  • The Movie Database (TMDb) pour les films et séries
  • BookBrainz, pour la littérature (livres, revues, etc.)
  • Opensubtitles, pour les sous-titres

Il faudra donc voir comment interconnecter son site avec ces bases de données.

Fonctionnement des banques de données existantes

  1. Concevoir le schéma de données
  2. Remplir la base de données
  3. Proposer l'accès à ces données

Parfois, les oeuvres que vous souhaitez mettre à disposition sur votre site seront absentes de ces bases de données ouvertes. Il est donc dans votre intérêt de les compléter, par exemple, en demandant à vos uploadeurs de disposer d'un compte sur ces sites.

Chaque site a son propre processus de validation des données soumises. Il se peut donc que les données proposées mettent un certain temps à apparaître et être disponibles. Il est notamment demandé de fournir des preuves d'existence des oeuvres (liens vers les sites officiels, pochettes des oeuvres, liens vers d'autres bases de données où l'oeuvre est recensée…).

Vous pouvez ignorer ce qui est écrit ci-dessous, ce dossier est encore incomplet et le texte n'a pas été relu

Vous pouvez ignorer ce qui est écrit ci-dessous, ce dossier est encore incomplet et le texte n'a pas été relu

Vous pouvez ignorer ce qui est écrit ci-dessous, ce dossier est encore incomplet et le texte n'a pas été relu

Annexes

Fouinons les conditions d'utilisation des services

Musicbrainz

  • Code source du site : libre, licence GPL et LGPL (source)
  • Documentation de l'API : lien
  • Limitations de l'API :
  • Licence de la base de données : Domaine public ou Creative Commons (source)
  • Base de données téléchargeable : oui, peut être opérée via une machine virtuelle lien, lien

The Movie Database

Sites de liens: publics ou privés ?

Une idée de dossier où l'on chercherait à décrire, argumenter/constater les distinctions qu'apportent ces 2 politiques de gestion. La conclusion sera très certainement en faveur des sites ouverts.

  • Problématique du ratio → Privilégie le 1er arrivé, instaure une inégalité en fonction des capacités d'upload de chacun.
  • Problématique du tracker «sur invitation» ? → La croyance étant que cela maintient un contenu de qualité, la réalité étant un cloisonnement qui freine la coopération. En outre, cela créé un marché noir de l'invitation.
  • Choix, disponibilité, hétérogénéité, qualité, vérification des fichiers
  • Distinctions légales existantes ? (est-on mieux protégé légalement derrière un tracker privé ? Réponse: vraisemblablement non).
  • Distinctions techniques ? Les histoires de DHT, PEX et LPD, le flag «private» adjoint aux .torrent. Voir aussi 1, 2, 3, 4. En clair, libre aux implémentations d'ignorer le flag private ? Deluge, qbittorrent, utilisent libtorrent, qui semble bloquer PEX etc. Est-il possible de demander l'ouverture malgré tout ?

Est-il possible de mettre en place un plan «sortir des réseaux fermés» ? Par exemple, en recréant automatiquement (ou plutôt semi-automatique, c'est à dire à la demande de l'utilisateur) les .torrent issus de trackers privés et en les repartageant sur un réseau ouvert.

Voir aussi les articles ratio et seedbox, qui contiennent quelques critiques.

Trackers publics/privé et risques

(tiré d'un commentaire)

Bon, tu as raison, il y a sans doute des trackers “privés” pour lesquels il serait difficile à la Hadopi d'y entrer. Mon point est de dire que la stratégie de “discrétion” n'est pas parfaite, et que dire “privé” ce n'est pas suffisant. Car même pour un tracker privé il faut qu'il y ait des portes ouvertes, il faut aussi dire en quoi la stratégie d'ouverture est pertinente (par expl, par co-optation uniquement, par preuves, en n'ouvrant le site que sur certaines périodes). Et que ces méthodes ne sont pas non plus parfaites. Et tout ça pour quoi, au final, puisque même pour les trackers publics la Hadopi ne refile que quelques maigres amendes. C'est donc au moins ces 3 points : incertitudes sur les méthodes de protection des trackers privés, quasi absence de risque sur les trackers publics, et difficulté d'accès aux trackers privés, qui à mon sens justifieraient une certaine retenue avant de cracher sur les trackers publics. Dernier point que je ne développerai pas en longueur, les trackers publics ne font que suivre ce que le protocole BitTorrent permet. Si l'humain doit tordre le protocole pour répondre à ses besoins, c'est que le protocole n'est pas le bon. Le moment où la gêne de la Hadopi sera effective, il faudra des protocoles qui empêchent la surveillance du réseau (et à ce moment là les communautés de trackers privés bittorrent feront office de dinosaures qui ont plus d'inconvénients que de raisons d'être).

Tracker sur invitation ?

Les trackers “sur invitation”, ça flaire un peu comme les sites de «vente privée», soit un accès réservé à une élite qui jouit de produits de qualité. Cela peut avoir du sens quand la rareté a du sens. Mais dans le monde numérique, il n'y a pas de rareté ! Et puis, tout le monde a envie d'en profiter… et rien n'empêche n'importe qui de proposer son initiative de vente privée… Du coup, ce n'est plus vraiment réservé à une élite, mais quelque chose de populaire, qui peut malgré tout jouer sur le sentiment d'appartenir à une élite. La notion d'élite étant elle-même une fumisterie : face à l'univers, tout n'est que poussière. L'élite peut donc redescendre sur Terre.

Il y a tout de même quelques intentions positives derrière ce concept d'invitation. Le procédé rejoint en fait celui de réseau de confiance, ou toile de confiance : un tel fait confiance à une personne, elle l'invite donc à participer au réseau. Dans une vraie toile de confiance comme celle de PGP ou d'autres réseaux P2P qui l'implémentent : les personnes ne peuvent se connecter qu'aux noeuds auxquels elles ont accordé leur confiance. La confiance a alors une incidence technique sur le fonctionnement du réseau.

La version légère et moins stricte, c'est de dire qu'une communauté peut se constituer sur cette base relationelle et sociale : tu es dans notre communauté car je t'invite en tant que personne, mais sans qu'il y ait nécessairement d'incidence technique derrière. L'idée est juste que cela prédispose éventuellement les participants à davantage de bonne volonté, via un control relationnel et social : les parrains seront à même de sermonner les parainés si ceux-ci se font remarquer pour leur mauvais comportement.

Le téléchargement est malgré tout une pratique assez individualiste, et les relations de parainnage sont assez factices, elles reposent sur des screenshots de “oh t'as vu mon beau ratio sur tel tracker”. Mais c'est toujours mieux que “ah tu travailles pour la police, et tu relèves les infractions au droit d'auteurs…”.

Sensibilité des trackers privés face à l'anonymat

En effet, disposer d'un compte sur un tel site, c'est maintenir une association entre nos activités sur le site, et l'identifiant de notre compte.

Lors du hack du tracker BitTorrent «Blackcats Games», un pirate nous met en garde (image) (http://www.undernews.fr/hacking-hacktivisme/blackcatsgames-le-tracker-prive-international-pirate-le-premier-dune-longue-vague-de-hack.html). Cela grosso modo pour dire: les trackers publics ne sont pas moins sûrs que les trackers privés.

Idées en vrac

  • Et si on faisait un tracker où les torrents sont alimentés via github ? Quel espace disque cela représente sur un poste ? Le but ⇒ Réplication des meta-données.
  • Pour les trackers à quota. Permettre aux uploadeurs de décider eux-même si les données uploadées seront “données” (comme en freeleech), donc sans monter leur quota en upload. L'idée c'est que les seedboxes procurent déjà des ratios phénoménaux, et que ces comptes n'ont pas besoin de continuer de le booster. En complément, laisser DHT actif.
divers/conseils-creation-sites-de-liens.txt · Dernière modification: le 12/11/2017 à 17h27 de 111110101011