Ceci est une ancienne révision du document !

Table des matières

Conseils pour la création de sites de liens

Conseils pour la création de sites de liens

Dans cette page on cherchera à voir ce qui cloche avec la plupart des sites de liens (bittorrent, streaming ou direct download) actuels, et comment ils pourraient être améliorés.

Tous les sites de liens ne se valent pas. Ce n'est pas une question d'esthétique. Ce n'est pas non plus une question d'avoir une grande ou une petite communauté d'utilisateurs. Ce sont par contre des questions de :

Quelle et la politique d'organisation du site ? (le site est-il accessible publiquement par quiconque ou restreint à certaines personnes ? quel rôle donner aux modérateurs ? quels fichiers sont acceptés au sein du site et lesquels sont rejetés ? Comment les frais d'hébergement sont-ils remboursés ?)
Comment le site est-il conçu techniquement ?

Ces deux grandes questions sont liées, et l'une déborde souvent sur l'autre.

On va d'abord présenter ce qu'il est possible de faire techniquement, en expliquant les raisons des choix mis en avant.

Aspects technique de la conception de sites de liens

Voici les points de recommandation qu'on peut donner pour la conception d'un site de liens, qu'il s'agisse de liens ed2k, torrent ou direct download.

Code : Le code du site web doit être publié sous une licence libre
Données relatives aux oeuvres : Le site doit utiliser des banques de données libres, ouvertes en lecture et en écriture (wikipedia, musicbrainz…), pour alimenter ses descriptions et pour structurer ses données
Base de données : Proposer des exportations anonymisées de la base de données, permettant à d'autres de répliquer le même site ailleurs
(Le serveur peut effectuer des traitements sur les fichiers pour fournir certaines données (infos sur les codecs, détails sur les fichiers…) )

On les traitera dans le détail ci-dessous.

Code

Principes

En informatique, il est souvent préconisé d'éviter de réinventer la roue. La meilleure façon d'y parvenir, c'est en faisant en sorte que les codes sources des logiciels soient libres.

Permettre aux gens de réutiliser le code qu'on écrit et pouvoir réutiliser le code écrit par les autres nous place dans une dynamique collaborative. Les codes des logiciels sont toujours susceptibles de recevoir des améliorations. En mettant son code à disposition des autres, on permet aux autres de l'améliorer, et on bénéficie en retour de ces améliorations.

Si vous ne connaissez pas bien les logiciels libres, renseignez-vous sur les logiciels libres et leurs licences.

Avoir un code fermé (donc non libre) est parfois une façon de se distinguer des autres, de prendre de l'avance dans les fonctionnalités, et d'espérer être meilleurs qu'eux. Pourtant, vous aquéreriez d'autant plus de reconnaissance si vous acceptiez de produire du code libre dans l'intérêt général, vous contribuerez ainsi à rendre la société un peu moins merdique qu'elle ne l'est, et ça il nous semble que c'est important.

Application

Pour concevoir des sites web :

On code le site à partir de zéro dans un langage tel que PHP…
On utilise un «framework» qui mâche une partie du travail et nous aide à développer le site tel qu'on le souhaite
On utilise un «CMS» prêt-à-emploi qui n'exige pas de programmation de notre part, mais simplement de le configurer

Existe t-il des projets de logiciels adaptés aux sites de liens ayant mâché le travail ?

On ne retiendra pas les logiciels au code source propriétaire, pour les raisons expliquées plus haut. Cela laisse peu de choix :

Gazette, utilisé par What.cd, un tracker bittorrent dédié à la musique
TorrentTrader ?
Existe t-il des logiciels pour les sites de liens autres que BitTorrent ?

Voir aussi : liste de trackers bittorrent

Peut-être aussi qu'on peut utiliser un CMS généraliste (wordpress, joomla…) selon l'usage que l'on prévoit, car le rôle minimal que doit tenir un site de liens, c'est de pouvoir afficher des liens dans une page, ce que n'importe quel CMS sait faire.

Pour un développeur, adopter un logiciel libre impliquera plusieurs choses :

Faire partie de la communauté d'utilisateurs du logiciel, en participant au forum ou en rapportant les bugs
Eventuellement, savoir utiliser git/svn/mercurial, et voir comment faire remonter des «patches» au projet d'origine

Données des oeuvres

Principe

S'il vous plaît, ne demandez pas à vos uploadeurs de remplir eux-mêmes les descriptions des films. Ne leur demandez pas de copier/coller la synopsis depuis allocine (ou autre) dans un champ de formulaire sur votre site.

Utilisez plutôt des banques de données dont le propos est justement de décrire ces films, et de fournir ces informations.

Schémas de données

Les oeuvres (films, albums de musique…) outre leur contenu, ont de nombreuses (méta)données associées.

Spécifiques à l'oeuvre

Par exemple, pour un album de musique on a :

le nom de l'artiste
le nom de l'album
la date de parution de l'album
la maison de disque et le numéro de catalogue
la liste des titres et leur durée
le type de support (CD, DVD…)
…

Ces propriétés sont propres à l'oeuvre. Pour un film, on trouverait le même genre d'informations, comme le nom du réalisateur, une liste d'acteurs, une synopsis…

Spécifiques au «rip»

S'ajoutent des charactéristiques techniques qui concernent les fichiers, par exemple :

le nom du fichier
le format du fichier
le codec
le bitrate
…

On pourrait aussi ajouter des informations spécifiques au «rip» et à la release, par exemple :

Nom du groupe de release
Date de la release
Outils et réglages utilisés pour le rip

Réfléchir à ces schémas de données n'est pas une tâche facile. Ce travail est parfois abordé autour des questions de métadonnées, de bases de données, de web sémantique, ou de normes définissant la structure de ces données. Ce travail étant ardu, il s'agira à notre niveau de répertorier quelles initiatives ont déjà cherché à catégoriser ces données.

Résumé

On a donc 3 catégories de données qui nous intéressent :

données de l'oeuvre
données techniques des fichiers
données de la release

La démarche cohérente qui s'en suit, ce serait :

pour les données de l'oeuvre, d'utiliser des bases de données existantes décrivant ces oeuvres
pour les données techniques des fichiers, de les déterminer via des outils fonctionnant sur le serveur
pour les données de la release, demander à l'uploadeur de les renseigner

L'accès à ces données

Bien que les données des oeuvres puissent être renseignées par l'uploadeur, il serait plus simple de les récupérer automatiquement. Des bases de données en ligne se proposent de renseigner ces informations pour plusieurs types d'oeuvres.

Pour les films, on connaît Allocine, IMDB, TMDB…

Pour la musique, on connaît Discogs, Musicbrainz, RateMyMusic…

Ces banques de données n'ont toutefois pas la même philosophie. Certaines ne donnent accès qu'à certaines données, et font payer les utilisateurs s'ils souhaitent accéder à davantage. L'accès à ces données se fait généralement au moyen d'une API, qu'un développeur web peut utiliser. Toutefois cette API est potentiellement elle aussi volontairement bridée. Aussi, les conditions générales d'utilisation de ces services font qu'on ne sait pas toujours ce qu'on a le droit de faire avec les données qui en sont issues.

Fort heureusement, certaines initiatives prennent le contrepied de ces limitations. Elles proposent notamment : un accès complet aux données, une API non bridée (ou moins bridée), une réplication possible de la base de données sur un autre serveur (ou pour usage local par exemple), des licences d'utilisation très permissives (licences libres voire domaine public).

On retiendra donc 2 de ces banques de données :

Musicbrainz, pour la musique
The Movie Database (TMDb) pour les films et séries

Le but, c'est donc d'interconnecter votre site avec ces bases de données.

Contribuer à ces données

Parfois, les oeuvres que vous souhaitez mettre à disposition sur votre site seront absentes de ces bases de données ouvertes. Il est donc dans votre intérêt de les compléter, par exemple, en demandant à vos uploadeurs de disposer d'un compte sur ces sites.

Chaque site a son propre processus de validation des données soumises. Il se peut donc que les données proposées mettent un certain temps à apparaître et être disponibles. Il est notamment demandé de fournir des preuves d'existence des oeuvres (liens vers les sites officiels, pochettes des oeuvres, liens vers d'autres bases de données où l'oeuvre est recensée…).

(pas encore rangé ci-dessous)

Modèles de recherche de fichiers

L'une des problématiques à laquelle doivent répondre tous les concepteurs de solutions de téléchargement, c'est : comment permettre à l'utilisateur de faire une recherche pour trouver le fichier qui lui convient.

Voyons comment 2 logiciels, eMule et BitTorrent y répondent.

eMule et BitTorrent : des intelligences différentes

Dans eMule, la recherche de fichiers peut s'effectuer via :

les serveurs eDonkey (directement depuis le logiciel)
la DHT (directement depuis le logiciel)
un site de liens ed2k:// (via un navigateur web)

Avec BitTorrent, la recherche de fichiers peut s'effectuer via :

un site de liens torrent (via un navigateur web)
la DHT (directement depuis le logiciel) dont le code a été repris depuis eMule

Avec eMule, la DHT et les serveurs eDonkey avaient une place prépondérante. Cela signifie que la recherche de fichiers se faisait essentiellement au sein du logiciel. Cela signifie aussi qu'aucun tri n'était fait sur les fichiers mis à disposition : les fichiers de tout le monde et n'importe qui apparaissaient dans les résultats de recherches. Cette absence de sélection rend le réseau plus sensible aux «fakes».

Pour y remédier, quelques mécanismes ont été intégrés directement au logiciel eMule. Lors d'une recherche de fichier avec eMule, pour un fichier donné, il était possible de voir une liste des noms alternatifs sous lesquels ce même fichier était publié. Par exemple, lorsqu'on souhaitait télécharger «Inglourious Basterds» et qu'on utilisait cette fonction, on pouvait s'apercevoir que ce fichier était distribué en 12 exemplaires sous le bon nom, mais également distribué en 60 exemplaires sous le nom de «Pamela et l'attaque des tétons de l'espace». On pouvait donc flairer qu'il y avait un hic. Cela signifiait que le fichier qu'on peut choisir de télécharger n'est sans doute pas Inglorious Basterds.

Autrement dit, les logiciels tels qu'eMule intègrent une intelligence, qui permet à l'utilisateur de retrouver ses petits avec plus de facilité.

Autre signe d'intelligence, eMule est en mesure de calculer automatiquement le bitrate des MP3s distribués via son réseau. Il indique donc ce bitrate dans une colonne de vos résultats de recherche, et vous permet de filtrer selon ce critère (en éliminant les fichiers de bitrate trop bas, par exemple). L'utilisateur a donc un bon contrôle sur la qualité des fichiers qu'il va rechercher.

Cette intelligence intégrée à la recherche de fichiers (recherche des fakes, choix du bitrate) n'est pas fournie d'emblée par BitTorrent, qui a volontairement délaissé cet objectif, pour se concentrer sur d'autres objectifs (notamment la distribution des fichiers).

Le choix d'écarter certains problèmes peut se comprendre. Certains problèmes sont en effet difficiles à résoudre de façon informatique. Mais si ces problèmes ne sont pas résolus de façon informatique, c'est aux humains de s'embarasser avec, ce qui peut signifier que l'utilisateur devra passer plus de temps à faire ses recherches, car les outils mis à sa disposition sont plus fastidieux à utiliser.

Côté gestion humaine, pour ce qui est de la recherche des fakes, il est fréquent que le tri soit effectué en amont par la communauté. Ce n'est donc pas le logiciel qui va chercher à détecter les fakes, mais les humains qui s'organiseront pour retirer les fakes publiés via leur site.

Côté programmation, plusieurs initiatives ont essayé d'automatiser des tâches à divers degrés, notament btdigg, the pirate bay, what.cd… Ces outils sont parfois directement intégrés dans le code web du site. Parfois il s'agit d'outils d'administration à exécuter sur le serveur. Il existe donc, pour BitTorent aussi, tout un attirail d'outils intelligents qui servent à gérer le site. Le but de cet article est de vous inviter à les utiliser, à les développer, et à en démocratiser l'usage.

Sites de liens: publics ou privés ?

Une idée de dossier où l'on chercherait à décrire, argumenter/constater les distinctions qu'apportent ces 2 politiques de gestion. La conclusion sera très certainement en faveur des sites ouverts.

Problématique du ratio → Privilégie le 1er arrivé, instaure une inégalité en fonction des capacités d'upload de chacun.
Problématique du tracker «sur invitation» ? → La croyance étant que cela maintient un contenu de qualité, la réalité étant un cloisonnement qui freine la coopération. En outre, cela créé un marché noir de l'invitation.
Choix, disponibilité, hétérogénéité, qualité, vérification des fichiers
Distinctions légales existantes ? (est-on mieux protégé légalement derrière un tracker privé ? Réponse: vraisemblablement non).
Distinctions techniques ? Les histoires de DHT, PEX et LPD, le flag «private» adjoint aux .torrent. Voir aussi 1, 2, 3, 4. En clair, libre aux implémentations d'ignorer le flag private ? Deluge, qbittorrent, utilisent libtorrent, qui semble bloquer PEX etc. Est-il possible de demander l'ouverture malgré tout ?

Est-il possible de mettre en place un plan «sortir des réseaux fermés» ? Par exemple, en recréant automatiquement (ou plutôt semi-automatique, c'est à dire à la demande de l'utilisateur) les .torrent issus de trackers privés et en les repartageant sur un réseau ouvert.

https://torrentfreak.com/why-private-torrent-sites-have-strict-copyright-enforcement-rules-130511
http://forum.p2pfr.com/viewtopic.php?f=9&t=24016
Un article qui dépeint quelques réactions à propos de l'échange d'invitations: http://torrentfreak.com/trading-sellling-torrent-site-invites-public-service-or-outright-menace-131110

Voir aussi les articles ratio et seedbox, qui contiennent quelques critiques.

Sensibilité des trackers privés face à l'anonymat

En effet, disposer d'un compte sur un tel site, c'est maintenir une association entre nos activités sur le site, et l'identifiant de notre compte.

Lors du hack du tracker BitTorrent «Blackcats Games», un pirate nous met en garde (image) (http://www.undernews.fr/hacking-hacktivisme/blackcatsgames-le-tracker-prive-international-pirate-le-premier-dune-longue-vague-de-hack.html). Cela grosso modo pour dire: les trackers publics ne sont pas moins sûrs que les trackers privés.

Idées en vrac

Et si on faisait un tracker où les torrents sont alimentés via github ? Quel espace disque cela représente sur un poste ? Le but ⇒ Réplication des meta-données.
Pour les trackers à quota. Permettre aux uploadeurs de décider eux-même si les données uploadées seront “données” (comme en freeleech), donc sans monter leur quota en upload. L'idée c'est que les seedboxes procurent déjà des ratios phénoménaux, et que ces comptes n'ont pas besoin de continuer de le booster. En complément, laisser DHT actif.

Panneau latéral

P2PFR:Site

P2PFR:Wiki

Wiki:Outils

Table des matières

Conseils pour la création de sites de liens

Aspects technique de la conception de sites de liens

Code

Principes

Application

Données des oeuvres

Principe

Schémas de données

Spécifiques à l'oeuvre

Spécifiques au «rip»

Résumé

L'accès à ces données

Contribuer à ces données

Modèles de recherche de fichiers

eMule et BitTorrent : des intelligences différentes

Sites de liens: publics ou privés ?

Sensibilité des trackers privés face à l'anonymat

Idées en vrac

Outils du site

Outils pour utilisateurs

Panneau latéral

P2PFR:Site

P2PFR:Wiki

Wiki:Outils

Table des matières

Conseils pour la création de sites de liens

Aspects technique de la conception de sites de liens

Code

Principes

Application

Données des oeuvres

Principe

Schémas de données

Spécifiques à l'oeuvre

Spécifiques au «rip»

Résumé

L'accès à ces données

Contribuer à ces données

Modèles de recherche de fichiers

eMule et BitTorrent : des intelligences différentes

Sites de liens: publics ou privés ?

Sensibilité des trackers privés face à l'anonymat

Idées en vrac

Outils de la page