jeudi 1 novembre 2012

Où s'arrêtera Wikipédia ?

On a beaucoup parlé ces derniers temps de cet article du mensuel américain The Atlantic, repris par Slate. Intitulé « Wikipédia est proche de la complétude » il postule que tous les sujets réellement importants ont déjà été traités sur Wikipédia (ou, du moins, sur sa version anglophone), et qu'il n'y a plus grand chose à y faire. En somme, l'encyclopédie ne serait plus intéressante que pour ces spécialistes du cerveau de la sangsue gentiment moqués par Nietzsche-Zarathustra. A moins d'être un sur-expert, connaissant presque tout sur presque rien, on aurait peu d'occasion de contribuer et encore moins de créer un article.

Autant dire que ce type d'analyse a généré de nombreux commentaires (là-dessus je vous renvoi notamment à la discussion du bistro, mais il y a aussi quelques tweets qui doivent traîner de-ci, de-là). A titre personnel, j'ai participé à un intéressant débat sur la liste mail wiki-research-l. Plutôt que de s'amuser un peu des prétentions infondées de The Atlantic, on a tenté de résoudre le problème suivant : combien d'articles contiendrait une hypothétique Wikipédia « complète » ?

Emirjp avait tenté une estimation générale en synthétisant plusieurs estimations secondaires (nombre de  biographies, nombre d'espèces biologiques etc.). Par additions successives, il en était parvenu à un total de 120 millions d'articles. Il reconnaît lui-même que ce chiffre est sans doute en-dessous de la vérité. Néanmoins, il fournit une bonne fourchette d'ensemble. On doit probablement se situer quelque part entre 50 et 300 millions d'articles.

Même si on parvenait à établir une estimation dans l'absolu, il convient de se rappeler qu'elle ne vaut que pour l'instant. Wikipédia ne se construit pas hors du temps. Au fur et à mesure que le projet encyclopédique avance et grandit, le nombre d'articles potentiels s'accroît. Chaque année apporte son lot de découvertes et de médiatisation. Chaque année apporté également son lot d'innovations : les structures scientifiques et médiatiques deviennent plus efficaces et peuvent ainsi apporter quantitativement plus de découvertes que l'année précédente.

On peut donc supposer que l'évolution du nombre d'articles admissibles suit la formule suivante :
a + (b * (c^(t-2012)))
a représente le total de créations envisageables en 2012, b symbolise le nombre de nouveaux sujets qui débarquent en 2013, c indique le rythme d'amélioration qualitative et quantitative des sources de références (publications scientifiques, médias…). Simplement pour le principe de la démonstration, on peut retenir l'estimation d'Emirjp pour a (soit 120 000 000), établir b aux environs de 100 000 (ce qui est loin d'être énorme : il se publie chaque année plusieurs millions d'articles scientifiques), et définir un rythme de 5% pour c.



Ceci fait, on obtient la courbe typique d'une suite géométrique. L'évolution est d'abord plutôt lente. On n'atteint 125 000 000 d'articles qu'en 2030. Puis, elle ne cesse de s'accélérer. On dépasse 200 000 000 en 2086, on double l'estimation originelle de 2012 moins d'une décennie plus tard.

Au vu de l'évolution de la science au XXe siècle, cette modélisation un tantinet exponentielle me paraît plutôt vraisemblable. Reste la question des chiffres. Le meilleur moyen pour en rendre compte serait peut-être d'analyser le problème non par rapport aux sujets encyclopédiques, mais par rapport aux sources disponibles. On peut supposer qu'il existe une corrélation entre la masse des publications fiables et le nombre d'objets encyclopédiques. Celle-ci sera l'objet de mon prochain billet…