La recherche d'information intéressante est un problème récurrent sur le web auquel les digg-like ont cru apporté une solution. J'expose, dans ce billet, ma théorie pour expliquer cet échec et aborde les solutions qui, à mon avis, vont émerger.

Dans Blogasty et les limites du web 2.0, j'avais abordé le problème de l'intelligence collective et la qualité car blogasty promettait de « promouvoir les blogs selon la qualité de leurs billets ». Mais il est évident que d'une part la qualité est subjective et d'autre part l'information qui m'intéresse n'est pas toujours de qualité. J'aime assez le site Je galère au taff bien que je ne le considère pas comme un site de qualité. Les digg-like s'appuient sur la courbe popularisée par Chris Anderson dans son article La Longue Traîne traduisant le fait qu'une minorité d'articles est plébiscité par un majorité de personne.

Dessin de la courbe longue traine
La La longue traîne est représentée en jaune (image Wikipédia)

Mais cette image est trompeuse pour deux raisons :

  • Un contenu populaire n'est plébiscité que par un petit nombre d'utilisateur.
  • Ma courbe d'intérêt ne se superpose pas à celle-ci.

Ne disposant pas de données chiffrées, j'expose ma théorie avec des données purement fictives, qu'il serait très intéressant de confronté à la réalité pour confirmer ou infirmer ce modèle.Prenons l'exemple d'un site de social news (mais ce pourrait être un [site de e-]commerce) comportant 1 000 000 articles et ayant 10 000 utilisateurs actifs. La courbe ressemblerait à quelque chose comme ça :

Courbe
Distribution des articles en fonction de leur popularité décroissante

La popularité d'un article est le rapport, exprimé en pourcentage, entre le nombre de personne ayant voté pour un article et le nombre d'utilisateur du site. Ici l'article le plus populaire, le blockbuster a un score de Pmax = 1 % : il a obtenu 100 votes (je pense que dans la réalité, ce score est inférieur). Un article populaire n'intéresse qu'un faible pourcentage de lecteur.

Plaçons-nous, maintenant du point de vue d'un lecteur ayant lu 100 articles qu'il a classé du moins intéressant (score = 1) au plus intéressant (score = 100). Si l'on ne conserve, sur la courbe précédente, que ces 100 articles et que l'on superpose la courbe des scores de notre lecteur, je pense que nopus obtiendrons une courbe ressemblant à la suivante :

Courbes représentant la distribution des articles lus en fonction de leur popularité décroissante et de leur score
Distribution des articles en fonction de leur popularité décroissante superposée au score obtenu

Les articles qui m'intéressent le plus sont les moins populaires ! Dans ce cas comment un digg-like peut-il m'aider à trouver des articles intéressants ?

Il est assez amusant de constater que les algorithmes de recommandation soient très populaires dans le monde du e-commerce, ainsi que pour la musique et les DVD, mais pas du tout dans le monde l'information textuelle (journalisme, blogosphère, etc.) geekomatik est le seul exemple dans ce domaine, à ma connaissance. Malheureusement, le système de recommandation est, à mon avis, perdu au milieu de fonctionnalités peu ergonomiques et sans valeur ajouté, ce qui limite l'attrait du site, limite la taille de la communauté et limite donc la pertinence des recommandations. (Alexis, je suis prêts à reprendre nos échanges si tu le souhaites.)

Que pensez-vous de cette théorie ?