Ceci est une ancienne révision du document !

Table des matières

Conseils pour la création de sites de liens

Conseils pour la création de sites de liens

Dans cette page on cherchera à voir ce qui cloche avec la plupart des sites de liens (bittorrent, streaming ou direct download) actuels, et comment ils pourraient être améliorés.

Tous les sites de liens ne se valent pas. Ce n'est pas une question d'esthétique. Ce n'est pas non plus une question d'avoir une grande ou une petite communauté d'utilisateurs. Ce sont par contre des questions de :

Quelle et la politique d'organisation du site ? (le site est-il accessible publiquement par quiconque ou restreint à certaines personnes ? quel rôle donner aux modérateurs ? quels fichiers sont acceptés au sein du site et lesquels sont rejetés ? Comment les frais d'hébergement sont-ils remboursés ?)
Comment le site est-il conçu techniquement ?

Ces deux grandes questions sont liées, et l'une déborde souvent sur l'autre.

On va d'abord présenter ce qu'il est possible de faire techniquement, en expliquant les raisons des choix mis en avant.

Aspects technique de la conception de sites de liens

Voici les points de recommandation qu'on peut donner pour la conception d'un site de liens, qu'il s'agisse de liens ed2k, torrent ou direct download.

Code : Le code du site web doit être publié sous une licence libre
Données relatives aux oeuvres : Le site doit utiliser des banques de données libres, ouvertes en lecture et en écriture (wikipedia, musicbrainz…), pour alimenter ses descriptions et pour structurer ses données
Base de données : Proposer des exportations anonymisées de la base de données, permettant à d'autres de répliquer le même site ailleurs
(Le serveur peut effectuer des traitements sur les fichiers pour fournir certaines données (infos sur les codecs, détails sur les fichiers…) )

On les traitera dans le détail ci-dessous.

Code

Principes

En informatique, il est souvent préconisé d'éviter de réinventer la roue. La meilleure façon d'y parvenir, c'est en faisant en sorte que les codes sources des logiciels soient libres.

Permettre aux gens de réutiliser le code qu'on écrit et pouvoir réutiliser le code écrit par les autres nous place dans une dynamique collaborative. Les codes des logiciels sont toujours susceptibles de recevoir des améliorations. En mettant son code à disposition des autres, on permet aux autres de l'améliorer, et on bénéficie en retour de ces améliorations.

Avoir un code fermé (donc non libre) est parfois une façon de se distinguer des autres, de prendre de l'avance dans les fonctionnalités, et d'espérer être meilleurs qu'eux. Ca peut sembler gratifiant, et pourtant, vous aquéreriez d'autant plus de reconnaissance si vous acceptiez de produire du code libre. Ce code servirait l'intérêt général, autrement dit : vous contribueriez ainsi à rendre la société un peu moins merdique qu'elle ne l'est (et il nous semble que c'est important). En plus, cette victoire serait toute relative, car ce que vous arriverez à achever seul dans votre coin sera toujours moindre par rapport à ce qu'il est possible de faire collectivement.

Soyons ambitieux pour ne plus avoir à subir l'informatique, et produisons du code libre.

Application

Il y a plusieurs façons de concevoir un site web :

On code le site à partir de zéro dans un langage tel que PHP…
On utilise un «framework» qui mâche une partie du travail et nous aide à développer le site tel qu'on le souhaite
On utilise un «CMS» prêt-à-emploi qui n'exige pas de programmation de notre part, mais simplement de le configurer

Pour ce qui est des sites de liens, il y a peu de logiciels adaptés. Certains se définissent comme des frameworks, d'autres s'apparentent davantage à des CMS.

On ne retiendra pas les logiciels au code source propriétaire, pour les raisons expliquées plus haut. Cela laisse peu de choix :

Gazette, utilisé par What.cd, un tracker bittorrent dédié à la musique
TorrentTrader ?
Existe t-il des logiciels pour les sites de liens autres que BitTorrent ?

Voir aussi : liste de trackers bittorrent

Peut-être aussi qu'on peut utiliser un CMS généraliste (wordpress, joomla…) selon l'usage que l'on prévoit, car le rôle minimal que doit tenir un site de liens, c'est de pouvoir afficher des liens dans une page, ce que n'importe quel CMS sait faire.

Si vous faites le choix d'adopter l'un de ces logiciels libres, il vous sera possible (et souhaitable) de vous immiscer au sein du projet :

En faisant partie de la communauté d'utilisateurs du logiciel, en participant au forum, en écrivant de la documentation ou en rapportant les bugs.
Ou si vous ne redoutez pas de faire de la programmation, apprendre à utiliser git/svn/mercurial, et voir comment faire remonter des «patches» au projet d'origine.

Données liées aux contenus

Principe

La plupart des sites de liens proposent une fiche de présentation pour chaque contenu/oeuvre disponible. Ces fiches contiennent une série d'informations qui aideront l'internaute à décider de s'il récupére/visionne ce contenu ou pas.

D'où ces informations peuvent-elles provenir ?

Pour certains types de contenus (notamment les films et la musique), il existe des sites qui collectent les descriptions d'un maximum d'oeuvres. Il est possible d'en tirer profit en programmant le nécessaire pour interroger ces sites. Là aussi il est un peu question de ne pas réinventer la roue. Le but, c'est d'éviter que vos uploadeurs passent leur temps à faire des copier/coller d'un site vers l'autre, et que votre site réutilise une base de données existente pour s'alimenter.

Pour d'autres types de contenus (logiciels, revues…), il est plus difficile de trouver une base de données de ce type qui soit utilisable. Il y a alors plusieurs possibilités :

Vous trouvez les descriptions sur un site quelconque, et les copiez/collez sur votre site.
Vous vous lancez dans une initiative de logiciel libre pour constituer une base de données sur le type d'oeuvre qui vous intéresse.
Vous ne décrivez pas ces contenus

Schémas de données

Intéressons nous d'abord aux types de données qui peuvent être associées à chaque contenu…

Données spécifiques à l'oeuvre

Par exemple, pour un album de musique on a :

le nom de l'artiste
le nom de l'album
la date de parution de l'album
la maison de disque et le numéro de catalogue
la liste des titres et leur durée
le type de support (CD, DVD…)
…

Ces propriétés sont propres à l'oeuvre. Pour un film, on trouverait le même genre d'informations, comme le nom du réalisateur, une liste d'acteurs, une synopsis…

Ces données sont plus ou moins devenues publiques grâce à des internautes qui ont eux-mêmes récolté et publié ces données , car l'industrie (les producteurs/labels) a rarement la démarche de publier par elle-même son catalogue d'oeuvres.

Données spécifiques au «rip»

On pourrait aussi ajouter des informations spécifiques au «rip» et à la release, par exemple :

Nom du groupe de release
Date de la release
Outils et réglages utilisés pour le rip

Il existe des listings de releases. Je ne connais pas encore bien leur mode de fonctionnement. Certains de ces sites sont référencés par ici : http://wiki.p2pfr.com/liens/web#referencement_des_releases

Données spécifiques aux fichiers

S'ajoutent des charactéristiques techniques qui concernent les fichiers, par exemple :

le nom du fichier
le format du fichier
le codec
le bitrate
…

Ces informations peuvent être retrouvées à partir des fichiers eux-mêmes.

Conclusion

On a donc 3 catégories de données qui nous intéressent :

données de l'oeuvre
données de la release
données techniques des fichiers

Réfléchir à ces schémas de données n'est pas une tâche facile. Ce travail est parfois abordé par d'autres projets qui travaillent sur les métadonnées, les bases de données, le web sémantique, ou les normes définissant des structures de données. On essayera de voir quelles solutions existantes nous pourrons réemployer dans le cadre d'un site de liens.

A priori, il faudra donc :

pour les données de l'oeuvre, utiliser des bases de données existantes décrivant ces oeuvres
pour les données de la release, voir s'il est possible d'utiliser les listings existants, et en ultime recours, demander à l'uploadeur de les renseigner
pour les données techniques des fichiers, les déterminer via des outils fonctionnant côté serveur

Récupération des données

Données de l'oeuvre

Bien que les données des oeuvres puissent être renseignées par l'uploadeur, on fait le choix beaucoup plus efficace de les récupérer automatiquement.

Des bases de données en ligne se proposent de renseigner ces informations pour plusieurs types d'oeuvres.

Pour les films, on connaît Allocine, IMDB, TMDB…
Pour la musique, on connaît Discogs, Musicbrainz, RateMyMusic…

La philisophie et les usages permis par ces banques de données varie de l'une à l'autre. Certaines ne donnent accès qu'à certaines données, et font payer les utilisateurs s'ils souhaitent accéder à davantage. L'accès à ces données se fait généralement au moyen d'une API utilisable par les développeurs web. Toutefois cette API est potentiellement elle aussi volontairement bridée. Aussi, les conditions générales d'utilisation de ces services font qu'on ne sait pas toujours ce qu'on a le droit de faire avec les données qui en sont issues.

Fort heureusement, certaines initiatives prennent le contrepied de ces limitations. Elles proposent notamment : un accès complet aux données, une API non bridée (ou moins bridée), une réplication possible de la base de données sur un autre serveur (y compris usage local), ainsi que des licences d'utilisation très permissives (licences libres voire domaine public), etc.

On retiendra donc 2 de ces banques de données :

Musicbrainz, pour la musique
The Movie Database (TMDb) pour les films et séries

Il faudra donc voir comment interconnecter son site avec ces bases de données.

Fonctionnement des banques de données existantes

Concevoir le schéma de données
Remplir la base de données
Proposer l'accès à ces données

Parfois, les oeuvres que vous souhaitez mettre à disposition sur votre site seront absentes de ces bases de données ouvertes. Il est donc dans votre intérêt de les compléter, par exemple, en demandant à vos uploadeurs de disposer d'un compte sur ces sites.

Chaque site a son propre processus de validation des données soumises. Il se peut donc que les données proposées mettent un certain temps à apparaître et être disponibles. Il est notamment demandé de fournir des preuves d'existence des oeuvres (liens vers les sites officiels, pochettes des oeuvres, liens vers d'autres bases de données où l'oeuvre est recensée…).

Vous pouvez ignorer ce qui est écrit ci-dessous, ce dossier est encore incomplet et le texte n'a pas été relu

Annexes

Fouinons les conditions d'utilisation des services

Musicbrainz

Code source du site : libre, licence GPL et LGPL (source)
Documentation de l'API : lien
Limitations de l'API :
Licence de la base de données : Domaine public ou Creative Commons (source)
Base de données téléchargeable : oui, peut être opérée via une machine virtuelle lien, lien

The Movie Database

Code source du site : propriétaire, rien ne laisse présager du contraire dans les terms of use.
Documentation de l'API : https://www.themoviedb.org/documentation/api
Limitations de l'API : ?
Licence de la base de données : ?
Base de données téléchargeable : ?

https://www.themoviedb.org/documentation/api/terms-of-use

Modèles de recherche de fichiers

L'une des problématiques à laquelle doivent répondre tous les concepteurs de solutions de téléchargement, c'est : comment permettre à l'utilisateur de faire une recherche pour trouver le fichier qui lui convient.

Voyons comment 2 logiciels, eMule et BitTorrent y répondent.

eMule et BitTorrent : des intelligences différentes

Dans eMule, la recherche de fichiers peut s'effectuer via :

les serveurs eDonkey (directement depuis le logiciel)
la DHT (directement depuis le logiciel)
un site de liens ed2k:// (via un navigateur web)

Avec BitTorrent, la recherche de fichiers peut s'effectuer via :

un site de liens torrent (via un navigateur web)
la DHT (directement depuis le logiciel) dont le code a été repris depuis eMule

Avec eMule, la DHT et les serveurs eDonkey avaient une place prépondérante. Cela signifie que la recherche de fichiers se faisait essentiellement au sein du logiciel. Cela signifie aussi qu'aucun tri n'était fait sur les fichiers mis à disposition : les fichiers de tout le monde et n'importe qui apparaissaient dans les résultats de recherches. Cette absence de sélection rend le réseau plus sensible aux «fakes».

Pour y remédier, quelques mécanismes ont été intégrés directement au logiciel eMule. Lors d'une recherche de fichier avec eMule, pour un fichier donné, il était possible de voir une liste des noms alternatifs sous lesquels ce même fichier était publié. Par exemple, lorsqu'on souhaitait télécharger «Inglourious Basterds» et qu'on utilisait cette fonction, on pouvait s'apercevoir que ce fichier était distribué en 12 exemplaires sous le bon nom, mais également distribué en 60 exemplaires sous le nom de «Pamela et l'attaque des tétons de l'espace». On pouvait donc flairer qu'il y avait un hic. Cela signifiait que le fichier qu'on peut choisir de télécharger n'est sans doute pas Inglorious Basterds.

Autrement dit, les logiciels tels qu'eMule intègrent une intelligence, qui permet à l'utilisateur de retrouver ses petits avec plus de facilité.

Autre signe d'intelligence, eMule est en mesure de calculer automatiquement le bitrate des MP3s distribués via son réseau. Il indique donc ce bitrate dans une colonne de vos résultats de recherche, et vous permet de filtrer selon ce critère (en éliminant les fichiers de bitrate trop bas, par exemple). L'utilisateur a donc un bon contrôle sur la qualité des fichiers qu'il va rechercher.

Cette intelligence intégrée à la recherche de fichiers (recherche des fakes, choix du bitrate) n'est pas fournie d'emblée par BitTorrent, qui a volontairement délaissé cet objectif, pour se concentrer sur d'autres objectifs (notamment la distribution des fichiers).

Le choix d'écarter certains problèmes peut se comprendre. Certains problèmes sont en effet difficiles à résoudre de façon informatique. Mais si ces problèmes ne sont pas résolus de façon informatique, c'est aux humains de s'embarasser avec, ce qui peut signifier que l'utilisateur devra passer plus de temps à faire ses recherches, car les outils mis à sa disposition sont plus fastidieux à utiliser.

Côté gestion humaine, pour ce qui est de la recherche des fakes, il est fréquent que le tri soit effectué en amont par la communauté. Ce n'est donc pas le logiciel qui va chercher à détecter les fakes, mais les humains qui s'organiseront pour retirer les fakes publiés via leur site.

Côté programmation, plusieurs initiatives ont essayé d'automatiser des tâches à divers degrés, notament btdigg, the pirate bay, what.cd… Ces outils sont parfois directement intégrés dans le code web du site. Parfois il s'agit d'outils d'administration à exécuter sur le serveur. Il existe donc, pour BitTorent aussi, tout un attirail d'outils intelligents qui servent à gérer le site. Le but de cet article est de vous inviter à les utiliser, à les développer, et à en démocratiser l'usage.

Sites de liens: publics ou privés ?

Une idée de dossier où l'on chercherait à décrire, argumenter/constater les distinctions qu'apportent ces 2 politiques de gestion. La conclusion sera très certainement en faveur des sites ouverts.

Problématique du ratio → Privilégie le 1er arrivé, instaure une inégalité en fonction des capacités d'upload de chacun.
Problématique du tracker «sur invitation» ? → La croyance étant que cela maintient un contenu de qualité, la réalité étant un cloisonnement qui freine la coopération. En outre, cela créé un marché noir de l'invitation.
Choix, disponibilité, hétérogénéité, qualité, vérification des fichiers
Distinctions légales existantes ? (est-on mieux protégé légalement derrière un tracker privé ? Réponse: vraisemblablement non).
Distinctions techniques ? Les histoires de DHT, PEX et LPD, le flag «private» adjoint aux .torrent. Voir aussi 1, 2, 3, 4. En clair, libre aux implémentations d'ignorer le flag private ? Deluge, qbittorrent, utilisent libtorrent, qui semble bloquer PEX etc. Est-il possible de demander l'ouverture malgré tout ?

Est-il possible de mettre en place un plan «sortir des réseaux fermés» ? Par exemple, en recréant automatiquement (ou plutôt semi-automatique, c'est à dire à la demande de l'utilisateur) les .torrent issus de trackers privés et en les repartageant sur un réseau ouvert.

https://torrentfreak.com/why-private-torrent-sites-have-strict-copyright-enforcement-rules-130511
http://forum.p2pfr.com/viewtopic.php?f=9&t=24016
Un article qui dépeint quelques réactions à propos de l'échange d'invitations: http://torrentfreak.com/trading-sellling-torrent-site-invites-public-service-or-outright-menace-131110

Voir aussi les articles ratio et seedbox, qui contiennent quelques critiques.

Sensibilité des trackers privés face à l'anonymat

En effet, disposer d'un compte sur un tel site, c'est maintenir une association entre nos activités sur le site, et l'identifiant de notre compte.

Lors du hack du tracker BitTorrent «Blackcats Games», un pirate nous met en garde (image) (http://www.undernews.fr/hacking-hacktivisme/blackcatsgames-le-tracker-prive-international-pirate-le-premier-dune-longue-vague-de-hack.html). Cela grosso modo pour dire: les trackers publics ne sont pas moins sûrs que les trackers privés.

Idées en vrac

Et si on faisait un tracker où les torrents sont alimentés via github ? Quel espace disque cela représente sur un poste ? Le but ⇒ Réplication des meta-données.
Pour les trackers à quota. Permettre aux uploadeurs de décider eux-même si les données uploadées seront “données” (comme en freeleech), donc sans monter leur quota en upload. L'idée c'est que les seedboxes procurent déjà des ratios phénoménaux, et que ces comptes n'ont pas besoin de continuer de le booster. En complément, laisser DHT actif.

Panneau latéral

P2PFR:Site

P2PFR:Wiki

Wiki:Outils

Table des matières

Conseils pour la création de sites de liens

Aspects technique de la conception de sites de liens

Code

Principes

Application

Données liées aux contenus

Principe

Schémas de données

Données spécifiques à l'oeuvre

Données spécifiques au «rip»

Données spécifiques aux fichiers

Conclusion

Récupération des données

Données de l'oeuvre

Fonctionnement des banques de données existantes

Annexes

Fouinons les conditions d'utilisation des services

Musicbrainz

The Movie Database

Modèles de recherche de fichiers

eMule et BitTorrent : des intelligences différentes

Sites de liens: publics ou privés ?

Sensibilité des trackers privés face à l'anonymat

Idées en vrac

Outils du site

Outils pour utilisateurs

Panneau latéral

P2PFR:Site

P2PFR:Wiki

Wiki:Outils

Table des matières

Conseils pour la création de sites de liens

Aspects technique de la conception de sites de liens

Code

Principes

Application

Données liées aux contenus

Principe

Schémas de données

Données spécifiques à l'oeuvre

Données spécifiques au «rip»

Données spécifiques aux fichiers

Conclusion

Récupération des données

Données de l'oeuvre

Fonctionnement des banques de données existantes

Annexes

Fouinons les conditions d'utilisation des services

Musicbrainz

The Movie Database

Modèles de recherche de fichiers

eMule et BitTorrent : des intelligences différentes

Sites de liens: publics ou privés ?

Sensibilité des trackers privés face à l'anonymat

Idées en vrac

Outils de la page