Ces conclusions contrastent avec le consensus relatif des recherches sur la fiabilité de Wikipédia. Dès 2005, une première étude réalisée pour Nature montre que les productions wikipédiennes ne sont pas significativement moins crédibles que celles d'encyclopédies établies (comme Britannica). Les enquêtes ultérieures n'ont fait que confirmer cette première impression, à mesure que la communauté adoptait des critères de vérifiabilité beaucoup plus exigents. Wikipédia est aujourd'hui favorablement comparée aux encyclopédies généralistes et spécialisées. Un certain relâchement sur le plan formel (les fautes d'orthographes sont plus fréquentes) est compensé par une actualisation et une complétude sans équivalent.
Il va sans dire que Wikipédia (au même titre que n'importe quelle source de vulgarisation) ne permet en aucun cas d'établir un diagnostic. « Wikipedia vs. Peer-Reviewed Medical Literature » va au-delà : les auteurs incitent les étudiants et les médecins à cesser d'utiliser Wikipédia pour se renseigner sur des sujets médicaux.
Paradoxalement, une étude qui exprime un avis aussi tranché sur la fiabilité de Wikipédia n'est pas si fiable que cela. Je me suis permis d'effectuer un exercice de contre-peer-review qui révèle plusieurs failles importantes. À noter que j'ai écrit ce texte avant d'avoir pris connaissances des évaluations détaillées des membres du projet médecine de la Wikipédia anglophone : nous parvenons à des conclusions similaires ce qui est plutôt bon signe…
Des données à double tranchant…
L'étude repose sur le mécanisme suivant : les 10 articles ont été soumis à un comité d'évaluation de 10 médecins. Chaque médecin devait évaluer deux articles, ce qui permettait d'avoir une double relecture (et d'éviter ainsi des appréciations subjectives). Les informations contenues dans Wikipédia sont alors confrontées aux acquis actuels de la recherche, tels que consignés dans des bases d'articles scientifiques (de préférence Uptodate, ou à la rigueur Google Scholar). Faute d'être étayée par cette littérature universitaire, une affirmation de Wikipédia est comptée comme une erreur.
Les données quantitatives des évaluateurs apportent des conclusions plus contrastées. J'ai calculé les proportions d'erreur repéré par chaque évaluateur. On découvre des variations importantes. Tous les articles ne sont pas également erronés : il y a 9 % d'erreurs pour le diabète, mais jusqu'à 34% pour la dépression. Bizarrement, l'article sur les concussions est présenté dans l'étude comme le seul article vraiment fiable, alors que le taux d'erreur est au contraire l'un des plus élevés (32%). Pour l'ensemble de l'échantillon, le taux d'erreur s'établit à un peu moins de 22% (soit 78% d'exactitude).
Taux d'erreur par article (reviewer 1 en bleu, reviewer 2 en vert). |
Les divergences entre les deux évaluateurs sont en fait les principaux enseignements de cette enquête. L'évaluateur n°1 ne détecte aucune erreur dans l'article sur l'hyperlipidémie ; 21% des assertions seraient erronées selon le second évaluateur. La différence entre les deux proportions tourne autour de 25% dans certains cas (26% pour l'article sur les concussions (45 vs. 19), 24% pour l'article sur la dépression(22 vs. 46)).
Différentiel entre le taux d'erreur du reviewer n°1 et celui du reviewer n°2 |
Le mirage du vrai/faux
Comment justifier un tel écart ? Les évaluateurs ont fait appel aux sources les plus fiables qui soient (des synthèses scientifiques récentes). Et pourtant, ils ne parviennent pas à s'accorder sur le taux d'erreur contenu dans Wikipédia.
Je serai tenté d'émettre l'hypothèse suivante : la recherche scientifique ne se résume pas à une simple accumulation de vérités absolues. Si certains sujets sont suffisamment connus pour que l'on puisse se contenter d'un raisonnement vrai/faux, dans de nombreux cas les connaissances sont bien plus incertaines : les champ de recherche sont alors dynamiques et évoluent constamment en fonction des expériences réalisées ou des tentatives de théorisations effectuées. Ainsi deux spécialistes, découvrant le même corpus et travaillant dans le même cadre méthodologique ne parviendront pas aux mêmes conclusions.
À ceci s'ajoute une seconde variable : le temps. Les auteurs de l'étude prennent bien soin de préciser qu'ils ont opté pour des sources récentes. Or, cette actualité fait défaut sur une encyclopédie. Les articles de Wikipédia relevant d'un savoir spécialisé ne sont pas constamment actualisés et dépendent fortement de l'arrivée, ponctuelle, d'un contributeur compétent. Les informations anciennes s'y maintiennent beaucoup plus longtemps. Un corpus de 10 articles ne permet pas d'évaluer ce phénomène de datation, mais l'on peut supposer que le cancer du poumon (23,5% d'erreurs) fait l'objet de plus de recherches et de débats que le mal de dos (13% d'erreurs). Les encyclopédies traditionnelles sont confrontées au même problème : l'actualisation n'est pas constante mais fonctionne par à-coup (a fortiori dans la mesure où l'éditeur doit souvent investir pour toute refonte).
La notion même d'erreur devient discutable. Les auteurs de l'étude opèrent un peu trop vite un glissement de la discordance (vis-à-vis des sources fiables) vers l'erreur, sans prendre le temps de pondérer cette discordance. Ce faisant, ils ne tiennent pas compte de l'incertitude relative de telle ou telle affirmation recensée dans la littérature scientifique (d'où les écarts d'appréciation entre les reviewers).
Un jeu de miroir
Par un étonnant jeu de miroir, la médiatisation de cette étude met en doute la fiabilité de tout-le-monde. On relève des contresens assez surprenants dans son traitement journalistique : un article du Huffington Post parle ainsi, confusément, de 90% d'erreurs sur Wikipédia (alors que, sur le corpus considéré, les données de l'étude convergent vers un taux d'erreur de 22%). C'est là un problème classique de la médiatisation scientifique : les journalistes n'hésitent pas à dramatiser l'information pour la rendre intéressante. SMBC vient de résumer le sujet en un strip plein d'esprit (dans la même veine je vous invite à lire l'hilarant Scientistofamerica).
L'étude elle-même, comme on l'a vu, prête le flanc à la critique :
1. Par-delà la faiblesse du corpus (10 articles seulement), le cadre théorique est parfois problématique (en particulier, le glissement très rapide de la discordance vers l'erreur, ou une présélection du corpus parfois arbitraire).
2. Les données ne sont pas complètement exploitées. Les évaluations apparaissent ainsi très fortement divergentes ce qui relativise l'idée qu'il y aurait une vérité scientifique unique que Wikipédia se devrait de refléter. Le compte-rendu de l'enquête inclut peut-être une erreur non négligeable (l'article concussions considéré comme l'article le plus fiable alors que les données disent a priori le contraire).
3. Il n'y pas d'élément de comparaisons qui permettent d'évaluer où se situe Wikipédia dans le champ des sources de vulgarisation. Le Figaro conclut ainsi un peu vite que les encyclopédies médicales sont bien plus fiables, alors même qu'elles devraient, dans le cadre de cette étude, rencontrer des difficultés similaires (actualisation incomplète, absence de consensus dans le champ de recherche…).
Cet effet boomerang souligne à quel point la fiabilité n'est pas une faculté innée. Elle résulte d'un important effort de rigueur, de vérifiabilité et de cohérence. À ce jeu, Wikipédia est imparfaite, mais pas plus imparfaite que d'autres systèmes de relais des connaissances (encyclopédies traditionnelles, médias…). Par contraste avec d'autres sources, elle a le mérite de souligner sa propre imperfection, avec force bandeaux ébauches et autres références nécessaires. Et je terminerais cette affaire sur une petite maxime de mon crû, à la manière antique : la connaissance des erreurs est le commencement de la sagesse…