Wikitrekk: Scientificité

Affichage des articles dont le libellé est Scientificité. Afficher tous les articles

vendredi 21 septembre 2012

De l'utilité du flou

Ces derniers jours, les nécessités de ma thèse m'ont amené à découvrir un petit ouvrage de sociologie très intéressant : Le journalisme ou le professionnalisme du flou de Denis Ruellan.

Il y a des petites choses contestables dans ce bouquin – notamment le fait que l'auteur peine à masquer un antiaméricanisme latent. Il utilise ainsi systématiquement l'adjectif étatsunien (avis aux concepteurs de cette PDD…). La thèse centrale n'en est pas moins pertinente : pour Ruellan, les journalistes ont intentionnellement maintenu un certain flou sur la signification de leur profession, et ce afin de ne pas enrayer une dynamique de croissance favorable. En effet, si une interprétation du journalisme venait à l'emporter au détriment des autres, on rentrerait dans une logique d'exclusion (untel ne fait pas vraiment du journalisme…) qui pénaliserait finalement l'ensemble de la profession.

Ruellan invoque à l'appui de sa thèse une intuition de Luc Boltanski :

C'est parce qu'elle demeure vague au sens de relativement indéfinie et de relativement indéterminée […] que la catégorie peut exercer des fonctions d'amalgame et de neutralisation des antagonismes les plus puissants sur une fraction étendue de l'espace social [p. 52]

Évidemment, en lisant ceci, je ne peux pas ne pas penser à Wiki. Les débats et exégèses sur les principes fondateurs constituent en effet une sorte de compétition éternellement recommencée – les byzantins et leur sexe des anges n'étaient finalement que de petits joueurs par comparaison. Or chacun de ces principes autorise de multiples interprétations.

Pendant longtemps, le 2e PF a eu la primeur des éxégètes : la notion de neutralité de point-de-vue présentait d'emblée un large boulevard ouvert à des instrumentalisations largement contradictoires. Il s'est un peu resserré au cours de ces dernières années. L'impératif de la référence, la distinction entre sources primaires et sources secondaires, la nécessité de représenter l'état de recherche : tous ces corollaires ont permis de limiter l'angle d'interprétation. Pour autant, le débat est loin d'être clos. L'attention nouvelle portée à la donnée remet un peu en cause un paradigme antérieur fondé sur la sourçabilité.

Aujourd'hui, le 1er PF paraît beaucoup plus trendy. Par-delà sa simplicité apparente, la définition Wikipédia est une encyclopédie contenait plusieurs bombes en puissance : à quelle encyclopédie fait-on référence ? Générale ou spécialisée ? Et de toute manière à quoi renvoie le terme d'encyclopédie aujourd'hui ? N'a-t-il pas fondamentalement changé avec l'arrivée de l'informatique et, il faut bien le reconnaître, l'apparition de Wikipédia ? Une encyclopédie a-t-elle devoirs particuliers ? Doit-elle s'abstenir de tout engagement politique ? Même pour maintenir sa propre existence ? Toutes ces questions restent relativement irrésolues. Elles ont donné lieu à des réponses contradictoires d'un utilisateur à l'autre et d'une communauté à l'autre.

Je ne vais pas m'appesantir sur les autres PFs, même si ils charrient tout autant leur lot d'incertitudes (Fair use…). L'un dans l'autre, l'objectif est assez clair : il s'agit de mettre au point un socle de référence suffisamment ambiguë pour permettre à de multiples postures encyclopédiques de cohabiter. Cette cohabitation s'entendant aussi bien l'échelon individuel (la dichotomie inclusionniste/suppressionniste dissimule quantité de fractures parallèles) que collectif (on a pu constater récemment que les règles d'admissibilité de la Wikipédia anglophone sont plus permissives sur les biographies et moins sur les personnages de fiction).

Sans cette prime à la cohabitation, Wikipédia s'exposerait à redevenir un site de niche, ne fédérant qu'une équipe soudée, mais de taille restreinte – finalement, c'est un peu le schéma de Citizendium. Il y a ainsi quelque intérêt à maintenir du flou, ne serait-ce que pour assurer le renouvellement des rangs et pour garantir une certaine marge de manœuvre selon les circonstances.

Et voilà. C'était ma petite incise sociologique du jour. La prochaine fois je vous parlerai sans doute de technique – un petit mouvement de balancier sciences humaines, sciences dures, ça fait toujours du bien…

Posté avec Blogsy

vendredi 22 juin 2012

Où en est Wikidata ?

Ça fait quelque temps que je me dis que je devrais faire un truc sur Wikidata. Je m’étais un peu impliqué dans les questions relatives aux traitements de données encyclopédiques en début d’année. J'avais d'ailleurs commencé à rédiger un billet sur le sujet en mars, sans avoir eu le temps de le terminer. Vu que quasiment toutes les informations qu'il contient ont été médiatisées, je préfère aborder le sujet par un autre biais.

Le projet Wikidata a pas mal progressé depuis son lancement. On trouve sur le site pas mal de précisions intéressantes, qui n’ont pas forcément été relayés en français.

A mon avis, la page la plus intéressante concerne la définition du Data model, soit le mode de présentation des données. Cette définition n’est pas d’ordre technique, mais d’ordre épistémologique et intéresse à mon avis directement les contributeurs de Wikipédia, indépendamment de leurs compétences informatiques. Je ne m’en tiendrai ici qu’à la définition relativement simple présentée dans l’Overview. Il va sans dire que, concrètement, les choses sont beaucoup plus complexes — je m’excuse par avance si je simplifie à outrance les procédés réellement utilisés.

La grammaire wikidatienne repose sur une vision dénotative du langage. En lieu et place des mots, on trouve des items, soit des symboles purement référentiels. On donne ainsi pour exemple la ville de Berlin qui renvoie sans ambiguïté possible à une entité humaine unique, correspondant à un territoire strictement défini. Toutes les mots n’ont malheureusement pas la même portée référentielle. Outre, les homonymes, il y a aussi les termes et concepts flottants, généralement difficiles à traduire d’une langue à l’autre. Créer un item à partir de socialisme ou de culture risque de poser quelques difficultés.

A chaque item correspond une liste de statements. Chaque statement prétend reproduire un état de la réalité, au sens où l’entendait Wittgenstein.

La proposition construit un monde au moyen d'un échafaudage logique, et c'est pourquoi l'on peut voir dans la proposition, quand elle est vraie, ce qu'il en est de tout ce qui est logique. On peut d'une proposition fausse tirer des inférences (Tractatus Logico-Philosophicus, 4.023)

Le Statement se décompose en valeur (value) et en propriété (property). La value exprime « un nombre, une date, des coordonnées géographiques et plein d’autres choses ». Elle donne une indication de mesure qui permet de cerner une proportionnalité (x=n) ou une situation (x se trouve sur n). Chaque valeur est rattachée à une propriété. Cette dernière spécifie une qualité de l’item. Ainsi, sous l’item Berlin, on trouve la propriété population, à laquelle correspond la valeur 3 499 879.

Jusqu’ici les choses sont relativement simples. Les relations entre les trois signes fondamentaux permettent d’emblée d’exprimer certains énoncés relativement simples. Avec item=Berlin, property=population et value=3 499 879, on peut générer une phrase comme « Berlin compte 3 499 879 habitants ».

Là où ça se complique un peu, c’est que nos trois signes se combinent pour former de nouveaux signes. Le lien entre propriétés et valeur s’exprime au travers d’un datatype. A côté de la propriété population, on trouverait ainsi un datatype=people. Le datatype assure ainsi une fonction d’appariement : il permet d’éviter de mêler indistinctement la population de Berlin avec les coordonnées géographiques de Paris.

En outre, les propriétés ne comportent pas obligatoirement de valeurs. Le cas échéant, elles constituent des snaks, soient de simples qualifications qui améliorent la précisions des énoncés. A partir du snak commune ou cité, on génère ainsi des phrases comme : « la ville de Berlin compte 3 499 879 habitants ». On évite ainsi les confusions entre ville et agglomération urbaine.

Arbre des Snaks sur Wikidata (CC/BY/SA : http://meta.wikimedia.org/wiki/Wikidata/Data_model#Snak)

Ces données n’échappent bien entendu aux principales règles encyclopédiques. Suivant en cela les prescriptions de la Neutralité de point-de-vue, elles seront référencées à partir d’un champ intitulé ReferenceRecord.

Ces combinaisons syntaxiques permettent de produire des énoncés considérablement plus complexe. Rien ne s’oppose ainsi à ce que la phrase suivante, présente dans le résumé introductif de l’article Paris, ne soit généré par Wikidata :

Ici, Paris figure l’item. Le recensement de l’Insee et la note de bas-de-page qui l’accompagne sont du ressort du ReferenceRecord. La date (1er janvier 2009) et la population (2,2 millions d’habitants) résultent d’autant de combinaisons propriété-valeur. Enfin, la précision « commune de » constitue un snak.

Comme toute logique formelle, cette grammaire wikidatienne est universellement traduisible. Pour reprendre à nouveau Wittgenstein :

La traduction d'une langue dans une autre ne se produit pas par la traduction d'une proposition de l'une dans une proposition de l'autre ; seuls sont traduits les constituants de la proposition (Tractatus Logico-Philosophicus, 4.025)

Le transfert peut ainsi fonctionner dans les deux sens : traduction vers, et traduction à partir de. Concrètement, la phrase citée plus haut de l’article Paris est aspirée par la base de donnée. Chacun de ces composants reçoit une affectation sur Wikidata. Ce transfert devrait se passer sans encombre pour les énoncés déjà intégré dans un modèle — il va sans dire que tout ce qui se trouve dans un modèle débarque ipso facto dans ReferenceRecord. Par contre, la transcription des énoncés nus devraient peut-être poser un peu plus de souci (dans « la commune de Paris », il n’est pas forcément évident de repérer l’item et le snak).

La traduction à partir de pose sans doute moins de soucis. Il s’agit de transporter les statements stockés par Wikidata dans une langue naturelle, en recourant aux tournures usuelles employées, par exemple, pour énoncer la population d’une ville. On mesure tout de suite l’importance de ce type de génération textuelle pour les petits wikis, qui ne disposent pas d’une communauté suffisamment importante pour recueillir manuellement certaines informations essentielles. Dans une hypothétique Wikipédia syldave on pourrait ainsi retrouver :

Sous réserve de réaliser toutes ses promesses, Wikidata peut avoir une certaine incidence sur la dissémination du savoir en France. Le développement des wikipédias en langues régionales ou dans les langues d’outre-mer (Wikimédia France s’était dernièrement beaucoup investit dessus) ne pourra qu’en être facilité.

samedi 24 mars 2012

Esprit critique…

Le moins qu'on puisse dire c'est que mon blog s'est vaguement assoupi au cours du mois passé. C'est un peu l'inconvénient d'avoir Wikipédia comme sujet : il ne s'agit pas seulement d'un lieu d'observation, mais aussi d'un lieu d'action. Or, en ce qui me concerne, ces derniers temps, l'action a pris clairement le pas sur l'observation : entre le Wikiconcours, la PDD sur l'engagement (ou au non-engagement) de l'infrastructure encyclopédique et le comité d'arbitrage, j'ai eu largement de quoi m'occuper.

Je vais profiter d'un fait tout récemment médiatisé pour relancer un peu la machine à blogger : l'expérience Loys. Par là, j'entends le vandalisme volontaire de ce professeur de français désireux d'inciter ses élèves à utiliser Wikipédia avec circonspection. Si ça ne vous dit rien, je ne peux que vous inciter à faire une séance de rattrapage sur le blog de Pyb ou sur le bistro d'avant-hier — car, contrairement à ce qu'on a souvent tendance à colporter, il se dit parfois des choses intéressantes sur le bistro. Pour ma part, un peu à l'instar de David Monniaux, je vais me servir de cet expérience comme d'une simple amorce. Il s'agit de développer une réflexion plus large sur la notion d'esprit critique et ses mutations dans le cadre d'internet en général et de Wikipédia en particulier.

Loys part d'un postulat certainement fondé : l'esprit critique n'est pas une notion innée. La faculté de distinguer les sources et les faits (car c'est à cela que renvoie d'abord kritein ou le critère) s'apprend. Plus exactement elle suppose l'intériorisation de certaines postures (le doute méthodologique, la distanciation…) et la pratique systématique de certaines procédures (le recoupement des données, l'étiquetage des interprétations…).

Il se trouve une notion chinoise classique qui exprime assez bien tout ceci : le « kuaiji » (je m'excuse d'avance de ne pas pousser la sophistication jusqu'à afficher la transcription originelle en idéogrammes). On traduit généralement cette notion par « comptabilité », mais son champ sémantique est beaucoup plus large. Outre le dénombrement, elle signifie la classification et la synthétisation des données ainsi que l'exercice d'une évaluation qui peut volontiers être circulaire (concrètement, le rédacteur du kuaiji est amené à s'évaluer lui-même). On retrouve tout ceci avec l'esprit critique : la recension des divers éléments disponibles sur un phénomène donné, leur sélection et leur présentation dans un format adapté, l'exercice d'une distanciation à l'égard de sa propre action (l'encyclopédie Guanzi, liste ainsi en tout et pour tout quelques 36 procédures de vérification distinctes).

Bref, l'esprit critique implique un décentrement constant : vis-à-vis de ce qu'on voit, vis-à-vis de ce vis-à-vis de ce qu'on voit, vis-à-vis de ce vis-à-vis de ce vis-à-vis de ce qu'on voit. Chacune de nos approches doit être reconsidérée, sachant que l'acte de reconsidération est en lui-même une approche. Cette dérive constante, qui confine à la mise en abyme perpétuelle, peut néanmoins être tempérée. L'individu pense rarement seul : il en vient généralement à confronter ses conceptions avec autrui. Cet échange intersubjectif permet d'encadrer la dérive critique qui s'apparente désormais à un dialogue sans cesse approfondi, où l'un se fait le vérificateur de l'autre.

Qu'on le considère comme la résultant d'une posture ou d'une situation de communication, l'esprit critique est quelque chose qui apparaît progressivement. Seulement, quel en est la cause ? qu'est-ce qui motive cet apparition ? Selon Loys, l'enseignement joue un rôle absolument primordial dans ce processus. En « arrachant » les élèves à leurs conditions de vie quotidienne (et matérielle) l'école leur délivrerait des moyens d'appréhensions du monde. Elle forge un regard second, décentré par rapport aux postulats de cette société. Assez paradoxalement, ce décentrement émane d'une situation communicationnelle éminemment hiérarchique : le professeur surplombant matériellement et intellectuellement l'assemblée des élèves. Mais bon, on peut encore estimer cette « autorité » n'a que pour visée sa propre dissolution, dès lors que les élèves possèdent les moyens intellectuels de se passer du professeur.

Ce qui est véritablement discutable, c'est d'exclure toute autre source à la formation de l'esprit critique. Ce n'est manifestement pas le cas, et pas seulement depuis l'apparition d'Internet. Dans les faits, le monopole épistémologique du corps professoral est entamé depuis plus de cinq siècles.

Pour les besoins de ma thèse, j'ai été amené à lire un ouvrage très intéressant d'Elisabeth Eisenstein sur la naissance de l'imprimerie (il ne s'agit pas de The Print as an Agent of Change, mais d'une version synthétisée plus récente, The Printing Revolution in Early Modern Europe). Elle revient en détail sur les conséquences scientifiques et académiques de l'imprimé. Elle insiste notamment sur le fait que, pouvant accéder beaucoup plus aisément que leurs prédécesseurs à la connaissance écrite, les savants des XVIe et XVIIe siècle se sont très rapidement émancipés de la tutelle de leurs aînés. En quelques années à peine, grâce à ses lectures, Kepler en remontrait à ses enseignants.

Cette révolution épistémologique de l'imprimé s'apparente beaucoup à celle du numérique. On a un peu tendance à l'oublier, mais l'introduction des presses s'est initialement traduit par un déclin général de la qualité des publications. Cherchant avant tout à rentabiliser leur investissement, les imprimeurs accordaient un soin minimal à l'état du rendu typographique (qui comporte un nombre incalculable de coquilles). Ils n'hésitaient pas à réaliser eux-même, des compilations de faits supposés scientifiques qui reprenaient tous les on-dits possibles et imaginables. Par comparaison, les copistes témoignaient d'une éthique professionnelle bien supérieure qui faisait de leurs écrits des objets beaucoup plus exploitables pour la connaissance scientifique.

Seulement, rapidement cette situation s'est radicalement inversée. En donnant à voir à un large public des informations autrefois faiblement disséminés, les imprimeurs s'exposaient bien plus à la critique — ce qui facilitait d'autant les corrections éventuelles. L'imprimé progresse indéfiniment grâce au principe du feedback : des spécialistes communiquent leurs réclamations, voire s'investissent dans l'édition des œuvres. Le géographe Ortelius en vient ainsi à publier en annexe de ses cartes une longue listes des contributeurs et correcteurs qui s'apparente, dans une certaine mesure, à un historique de Wikipédia. Parallèlement, cet exercice de confrontation entraîne une prise de conscience des incohérences de la recherche scientifique : tel remède médical indiqué depuis des siècles s'avère être une supercherie, telle terminologie étrange repérée dans la République de Platon s'avère être une erreur de copiste…

Une liste d'Errata d'Henri Estienne — aujourd'hui, cet humaniste ferait sans doute figure de wikignome…

On retrouve exactement le même phénomène sur Wikipédia. La mise en disponibilité de toute une série d'informations entraîne leur réévaluation critique. C'est particulièrement patent dans le cadre des sciences humaines. L'article sur le Communisme sur lequel je suis en train de travailler avec Jean-Jacques Georges tente de tracer aussi nettement que possible la trajectoire sémantique de ce concept polysémique. A cette fin, il était nécessaire de lier de multiples sources disjointes — aucun ouvrage de synthèse unique n'ayant jamais abordé la somme de ces informations. En particulier, j'ai fini par mettre la main sur une brève analyse lexicologique de 1981, qui remet en cause de nombreux a priori, toujours circulant, sur l'étymologie du terme — il n'apparaît pas, sous son sens moderne, dans les années 1840, mais dès la fin du XVIIIe siècle. Même en ayant pu bénéficier d'une multitudes d'apports « exhumés » de multiples disciplines, l'article comporte sans doute de nombreuses imperfections, qui seront sans nul doute corrigées au fil du temps. Le schéma d'amélioration asymptotique est le même que pour l'atlas d'Ortelius. A ceci près que le dispositif d'accueil et d'hébergement de Wikipédia est infiniment plus accessible et modifiable.

L'inquiétude de Loys est finalement peut-être un peu celle des enseignants de Kepler. De nombreux contributeurs de Wikipédia ont l'âge de ses élèves. Cela ne les empêche pas de maîtriser rapidement les règles de rédaction encyclopédique et de produire des contenus de qualité comparable à ce qu'ils trouvent dans la littérature académique. Le monopole professoral risque fort d'être, une fois de plus, entamé.

vendredi 24 février 2012

Terrain expérimental

Quelque fois, on se dit que Wikipédia pousse le paradoxe de l'observateur dans ses ultimes retranchements. Analyser et évaluer l'encyclopédie en ligne, c'est déjà l'altérer. Plus d'un journaliste qui s'est amusé à pointer les erreurs d'un article a pu en faire l'expérience : en un temps généralement très bref, celles-ci se trouvaient corrigées.

Dans une moindre mesure, ma mini-série de billets sur l'accueil des nouveaux se trouve confrontée au même phénomène : à force de dire ce qu'il fallait faire, j'ai moi-même tenté quelque chose, modifiant, certes assez marginalement, mon terrain d'observation.

Au cours des deux derniers jours, je me suis livré à une expérimentation sur le projet politique. J'ai mis au point deux nouveaux « modules » qui visent à concrétiser ce que je n'avais esquisser que dans l'abstrait.

Le premier, Comment participer ? reprend un peu les directives de Wikibétisation partielle : mener une réflexion sur la « priorité des informations transmises aux nouveaux contributeurs ». Concrètement, cette page présente didactiquement (et doctement) plusieurs principes de bases de la contribution encyclopédique. Une attention toute particulière est accordée aux références, à la fois d'un point de vue technique (comment utiliser le modèle — pour un rédacteur non habitué au html, ça n'a rien d'une science science infuse) et, surtout, éditoriale (quelles sont les bonnes sources à utiliser et comment les présenter). Afin de mieux illustrer ces diverses recommandation, j'ai décidé de recourir à un exemple visuel. Il ne s'est pas avéré facile à trouver. Les meilleurs articles de Wikipédia utilisent en effet des modèles élaborés. En voyant surgir d'office un harvsp ou un ouvrage, le nouveau venu risque d'être plutôt découragé qu'encouragé — que dis-je, déboussolé, terrorisé, anéanti par cette litanie de symboles kabbalistiques. Pour cette raison, j'ai préféré opter pour un article vaguement passable, Président de la république française. Le référencement n'a rien de transcendantal, mais il est fait simplement, sans fioriture.

Le second module, Ressources en ligne, tend vers un double but. Il s'agit d'une part de faciliter le travail des nouveaux en leur indiquant des sources de qualité facile d'accès. Comme je le soulignais sur De l'accessibilité des sources, de nombreuses revues scientifiques ont numérisé leurs archives au cours des dernières années. Les revues de science humaines ont été un peu plus lentes au démarrage que leurs consœurs des sciences dures, mais le fait est qu'on dispose désormais un très large stock de publications de qualité, qui n'attendent que d'être mis en valeur sur l'encyclopédie. J'ai ainsi opéré une sélection des principales revues en science politique, auxquels j'ai joins les adresses de deux hébergeurs de thèses en ligne. S'ensuivent, également, quelques recommandations sur la recherche bibliographique (en particulier, le bon usage combiné que l'on peut tirer de Google Books et du SUDOC). L'autre optique, plus lointaine et plus ambitieuse, consiste à renforcer l'accessibilité des informations encyclopédiques. A mon avis, c'est un enjeu capital dont dépend la prétention à la scientificité de Wikipédia. Les mentions bibliographiques intégrées dans le modèle présentent toujours un certain risque : le contributeur peut très bien se tromper de page, mal reprendre ou déformer (consciemment ou inconsciemment) les informations référencées. Utiliser des sources de qualité numérisées, c'est également donner la possibilité au lecteur de vérifier ce qu'il lit et, si erreur il y a, d'en faire part à la communauté ou de la corriger lui-même.

Je me lancerai bien dans une plus ample analyse de ce principe d'accessibilité, illustration à l'appui (j'avais notamment en tête une modélisation d'une sorte de lecture en regard entre l'article et l'une de ses sources). Mais bon, le temps presse et j'ai un voyage à préparer — d'où le wikibreak personnalisé tout juste déposé sur ma page utilisateur.

vendredi 17 février 2012

De l'accessibilité des sources…

Un peu plus d'un mois après la publication de mon billet sur la Wikibétisation partielle, je me décide enfin à en publier la suite promise.

Comme je le soulignais, seul l'usage de la balise <ref></ref> est vraiment essentiel pour rédiger un texte encyclopédique. Elle permet une double vérifiabilité : celle de l'énoncé (qui n'a pas été inventé pour l'occasion mais provient apparemment d'une source préexistante) et celle de la valeur-même de la référence (une notice bibliographique de type « Jean Bidasse, Mémoire d'un concierge sur les bruits qui courent en ville, Dinard, 1851 » ne sera pas forcément autant appréciée que « Julius Krasnoïark, Analyse exégétique de la valeur-marchande dans l'œuvre de Karl Marx, CNRS éditions, Paris, 2011 »). Elle fonde la légitimité de Wikipédia, son crédit auprès de dizaines de millions de lecteurs.

Par comparaison, le reste est important mais pas primordial. La wikification, les catégories, les subdivisions peuvent être présentes ou pas, sans nuire à la crédibilité de l'article (évidemment, il n'en va pas de même en terme de facilité de lecture). Il paraît de fait envisageable de contribuer sans y recourir, sans assimiler entièrement la syntaxe wiki ; des contributeurs confirmés se chargeant ensuite de corriger et nettoyer le texte brut ainsi produit.

Le problème qui se pose ici tient à la sociologie des « contributeurs potentiels ». Deux expertises facilitent éminemment l'intégration dans la communauté : l'expertise informatique (familiarité préalable à la syntaxe wiki) et l'expertise universitaire (familiarité préalable aux règles de la rédaction encyclopédique). L'une et l'autre peuvent suffire individuellement. La connaissance du code permet déjà de se livrer à des modifications de forme (travail de wikifourmi, patrouille etc.) qui, par une pratique répétée, entraînent une accoutumance progressive aux exigences du travail collaboratif. La connaissance de l'écriture scientifique permet, via une wikibétisation partielle, de concevoir des articles « bruts » ; ce faisant, on peut acquérir par strates successives les principales balises et fonctions.

Schéma sociologique de la population wikipédienne

Le code et l'écriture scientifique constituent ainsi deux portes d'entrées qui autorisent, à terme et si tout se passe bien, un accès intégral. Mais qu'en est-il lorsqu'aucune des portes ne s'ouvre complètement ? Quid de l'amateur désintéressé, qui voudrait simplement apporter sa petite pierre à l'édifice ? Il peut sans doute s'intégrer sous trois conditions : être motivé, motivé et motivé, ce qui, on le conçoit bien, prend du temps et de l'énergie. Ici se situe probablement l'une des explications du déclin relatif des contributeurs, constaté dans la plupart des wikipédia (mais pas ou peu dans la francophone) : la population visée est assez limitée (disons pour faire large qu'elle regroupe surtout une certaine élite intellectuelle à laquelle on peut adjoindre une minorité de passionnés, prêt à franchir tous les obstacles pour rejoindre l'une des grandes aventures du moment) ; l'amateurisme est découragé (pour être sûr que son travail sera accepté / apprécié, il n'y a pas vraiment d'autres solutions que de contribuer régulièrement).

Tout ceci me laisse à penser que l'encyclopédie se doit d'élargir ses missions et compétences . Il ne s'agit plus seulement d'offrir une information fiable au lecteur, mais d'initier les contributeurs potentiels voire (soyons fous) l'ensemble du lectorat à la fabrique de cette information.

La faculté de discrimination des sources n'est pas très difficile à acquérir. Pour le résumer très grossièrement, plusieurs éléments entrent en ligne de compte : la date de première publication (cela dépend des disciplines, mais, globalement, dans les sciences humaines sont jugées acceptables tous les articles et ouvrages publiés il y a moins de 30-40 ans) ; le statut de l'auteur et sa notoriété (c'est probablement le plus difficile à établir : à moins d'avoir un descriptif précis dans le texte, la meilleure solution consiste à le googliser et voir ce qui en ressort) ; le statut de la maison d'édition et/ou de la collection (de préférence scientifique ou généraliste) ; l'apparence-même du texte (même s'il remplit toutes les conditions antérieures, un texte sans références est plutôt louche).

Evidemment, cette faculté de discrimination est sévèrement entravée dès lors que les textes ne sont pas facilement accessible. Seul un contributeur régulier va emprunter une source adaptée en bibliothèque (voire en faire l'acquisition). Les autres font avec ce qu'ils ont chez eux, ou ne font rien du tout.

C'est un problème sérieux. La légitimité d'un contributeur dépend étroitement de la qualité de ses sources : plus elles sont médiocres, plus il aura de mal à défendre ses postures éditoriales et plus son activité sera découragée. Les contributeurs confirmés et/ou ceux qui possèdent une formation universitaire avancée disposent d'un avantage décisif contre les autres : ils savent comment accéder aux bons textes.

Wikipédia ne peut pas grand chose contre cette inégalité a priori. La réponse vient d'ailleurs : les sources de qualité deviennent de plus en plus accessibles sur Internet. La fonction aperçu de Google permet déjà d'accéder à de larges fragments d'un ouvrage donné. Et puis, surtout, la publication libre différée des revues scientifiques tend à devenir la norme. En France, chercheurs et étudiants pratiquent couramment Persée ou Cairn depuis déjà quelque temps. Enfin, certains auteurs mettent individuellement en ligne leurs thèses ou d'autres études scientifiques qui dormaient jusqu'alors dans quelque obscure recoin de bibliothèque.

Cette dynamique d'accessibilité connaît toutefois quelques ratés. Il y a deux semaines, le blog Matières vivantes donnait un inquiétant compte-rendu des basses manœuvres des éditeurs de revues scientifiques américaines. Leurs lobbyistes tentent ainsi d'abattre une loi de 2008 qui mettait en open access la plupart des articles en biologie et médecine. Les chercheurs sont apparemment les premiers à s'opposer à cette re-privatisation : ils ne gagnent quasiment rien avec leurs articles ; leur diffusion sur Internet contribue à élargir leur notoriété par-delà les cercles scientifiques (c'est ce qu'on appelle, dans le jargon interne, de la valorisation).

Raté ou pas, on se retrouve quand même avec un beau corpus de sources de qualité, dont seul une faible partie est effectivement exploitée sur Wikipédia. Pour cette raison, je me demande si on ne devrait pas organiser des recensements systématiques des bonnes références en ligne. Cela pourrait se faire au niveau des articles — à défaut d'améliorer une ébauche, on pourrait proposer une sorte de kit clé en main pour faciliter le travail du contributeur qui souhaitera s'y coller. Cela pourrait aussi se faire au niveau des portails — des pages d'aides listerait les ressources de référence dans un domaine concerné, et donneraient quelques indications générales sur leur utilisation.

Concrètement, ces « recensements » amélioreraient probablement l'intégration des nouveaux contributeurs. Ceux-ci disposeraient rapidement des sources considérées comme les plus légitimes. Leur lecture et leur décorticage posera sans doute quelques difficultés même si dans l'ensemble, la plupart des articles et études de science humaines et sociales sont compréhensibles pour quiconque a une bonne base de culture générale. Mes propres travaux universitaires ont tendance à être interdisciplinaires : je n'ai jamais eu véritablement de difficulté à reprendre et à croiser des données venues de la musicologie, de l'économie, de l'histoire, des sciences politiques ou de la sociologie.

En outre, ces « recensements » s'inscriraient dans une grande tendance de fond de l'encyclopédie en ligne, en faveur de la collecte et de la computation de données. En avril, la Fondation Wikimédia va ainsi lancer le projet Wikidata qui sera effectif d'ici un ou deux ans. J'aurais très prochainement l'occasion d'en reparler.

jeudi 12 janvier 2012

Wikibétisation partielle

J'avais d'abord pensé consacrer un billet à l'Affaire et ses multiples et confuses répercussions / ramifications. Je crois finalement que je n'en ferais rien. Comme je le soulignais à mes commentateurs (et, indirectement, à moi-même), Wikipédia ne se réduit pas qu'à cela. Ce type d'événements peut paraître considérable aux membres actif de la communauté (et j'en suis…), mais intéresse finalement assez peu de monde. La page par laquelle le scandale est arrivé a ainsi attiré environ 5000 visites en trois jours. Seulement, ce nombre est biaisé par les fréquentes visites des principaux contributeurs, désireux de réagir ou de se tenir au courant (sans compter qu'une contribution implique fatalement une réouverture de la page). En vérité, je ne pense pas me tromper en estimant le nombre de visiteurs uniques à deux ou trois cents. A l'échelle d'un site comme Wikipédia, c'est finalement assez peu.

Bref, je me suis efforcé, pour le moment, de me décentrer de cette séquence événementielle assez trouble. A défaut, je préfère présenter une sorte de supplément de mon dernier billet, sur un thématique, moins polémique, mais tout aussi (voire davantage) significative : la wikibétisation.

De quoi s'agit-il ? D'une sorte de mot-valise entre alphabétisation et wikipédia que je me amusé à forger cette nuit entre deux petites insomnies. Le fait est que la syntaxe wiki a atteint un stade de complexité à partir duquel un apprentissage est nécessaire. Avant de pouvoir effectivement contribuer, plusieurs dizaines de formules (balises, modèles, wikification…) et d'actions (édition…) doivent être à-peu-près connues et maîtrisées. A ceci s'ajoutent quelques arcanes de fonctionnement du site (identifier les pages de discussion, les pages utilisateurs, les lieux où l'on peut demander de l'aide). Et je ne mentionne même pas les multitudes de bandeaux et règles ou le cas de constructions complexes comme les infoboxes, tableaux ou portails… Bref, à moins d'avoir du temps ou d'être motivé, il est difficile d'apprendre tout cela sur le tas. Il m'est d'ailleurs arrivé à deux ou trois reprises de décrocher de wikipédia pendant plusieurs mois ; à mon retour, j'avais fatalement dû effectuer une sorte de rattrapage afin de maîtriser des formules nouvelles et/ou me remémorer quelques oublis.

Pour cette raison, l'encyclopédie tend à devenir, de plus en plus, l'apanage de contributeurs expérimentés. Il y a quelques années, il m'arrivait fréquemment de croiser des contributeurs occasionnels, qui intervenaient à intervalles irréguliers, et cessaient parfois d'intervenir au bout de quelques mois. Pour exemple, je pourrai citer le cas de Liszt qui, comme son nom l'indique, s'est du jour au lendemain décidé à contribuer sur l'article Franz Liszt. L'article, alors indigent, acquiert un plan stable, qui l'a mis en bonne voie vers la labélisation. En tout et pour tout, Liszt (le contributeur…) n'a effectué que 400 éditions.

Est-ce qu'il pourrait encore contribuer aujourd'hui ? Je n'en suis pas très sûr. Sur la page de discussion on lui avait déjà demandé (très poliment) de respecter la neutralité de point-de-vue. Il avait un peu maugréer. Rien, ou pas grand chose, n'était dit des références, alors peu usitées début 2007.

Tout cela reste assez subjectif, mais j'ai l'impression qu'avec la montée en rigueur (au demeurant nécessaire à partir du moment où Wikipédia devenait l'un des principaux médiateurs de la connaissance intellectuelle et scientifique), ce type de profil s'est fait de plus en plus rares. Ne restent que des spécialistes, des gens suffisamment motivés pour s'accrocher ou… des vandales. Ce qui explique peut-être les difficultés actuelles de la communauté, qui tend à se resserrer autour de quelques noms et de quelques enjeux.

Y a-t-il une solution pour attirer de nouveau les contributeurs occasionnels ? J'ai déjà mentionné le cas de l'interface WYSIWYG, mais elle offre surtout une facilité apparente. Certes on ne voit plus ni modèles, ni balises, ni crochets, mais leur fonction demeure (quoique plus intuitive, peut-être). Il est nécessaire d'en faire plus pour intéresser le contributeur occasionnel et lui éviter un apprentissage trop pénible.

En lisant une publication qui n'a aucun rapport direct avec Wikipédia, Écrire à Sumer de Jean-Jacques Glassner, je suis tombé sur une résolution possible de ce problème. Glassner remarque notamment que, en dépit de sa complexité, l'écriture cunéiforme s'est répandue dans la société toute entière, bien au-delà des groupes restreints de scribes participant à l'administration royale.

[Jack Goody] rappelle que les progrès de l'écriture se manifestent d'abord dans les usages les plus fonctionnels. Or l'écriture sumérienne est de celles qui peuvent s'apprendre par additions ; il n'est pas obligatoire, pour pouvoir s'en servir, de connaître toutes les potentialités qu'elle renferme, il suffit d'avoir appris une quantité déterminée de signes et de valeurs. (p. 257)

Tablette de marchands assyriens se contentant des fondamentaux de l'écriture

Il suffit de remplacer l'écriture sumérienne par Wikipédia pour comprendre l'issue qui s'offre à nous : une sorte de Wikibétisation partielle. Peu d'éléments sont finalement nécessaires pour contribuer dans le respect des principes fondateurs : les références et, dans une moindre mesure, la wikification. Le reste relève plutôt de la cosmétique (les == pour les subdivisions, le modèle {{s|}} pour les siècles…) ou de la macro-organisation de Wikipédia (les catégories et portails). Le cœur du projet, soit l'adjonction d'informations sourcées, peut être effectué sans maîtriser grand chose de la syntaxe wiki — sachant qu'ensuite, par additions successives, tout le reste peut venir.

Il y aurait un peu toute une réflexion à mener à ce sujet, notamment en terme de priorité des informations transmises aux nouveaux contributeurs. Typiquement, on pourrait s'interroger sur l'inclusion d'indications relatives sur la valeur encyclopédique des références (ouvrage ou article universitaire=béton / article de presse=à voir / rien du tout ou « on dit » mondain dans Gala=foutu) et sur la mise en forme de la bibliographie (au moins indiquer l'éditeur et la date d'édition : le reste se déduit facilement). Il ne faut pas se leurrer : c'est là-dessus que les contributions de chacun sont jugées, et pas sur l'oubli d'un modèle X ou d'un catégorie Y.

Concrètement, comment se passeraient les choses ? CO, un Contributeur Occasionnel, tombe sur un article sur un sujet qu'il connaît bien, mais qui demeure dans un état indigent. Plutôt que de passer son chemin, il corrige une formulation maladroite (nous sommes dans une interface WISIWYG ; il n'hésite pas), puis se décide à retravailler l'article en profondeur. Tout ce qu'il sait faire, c'est mettre les numéros de pages de sa source principale (l'étude d'un spécialiste) en rapport avec ses phrases. Ceci fait, un Contributeur Confirmé (ou CC) remarque les adjonctions, et éclaire un peu tout ça : création de subdivisions, normalisation des références, rajout de catégories pour tenir compte des nouvelles informations… Au total l'article est devenu très convenable.

Là-dedans il y a tout de même un hic, ou plus exactement un présupposé : CO possède une très bonne source. Or qu'adviendrait-il dans le cas contraire ? Celui où il souhaite améliorer l'article sans avoir la référence sous la main ? Sachant, qu'étant occasionnel, ce contributeur n'est pas motivé au point de se mettre en quête du bon outil de travail dans une bibliothèque. L'abandon paraît certain. Il existe pourtant une sorte de « parade ». Je l'aborderai dans un prochain billet (oui, je sais, c'est frustrant, mais comme je n'ai pas écrit depuis longtemps, je tiens à refidéliser ma clientèle…).

mercredi 19 octobre 2011

Le biais suppressioniste

Il y a de ces jours où les coïncidences s'accumulent. C'est peut-être la preuve qu'elles ne sont pas fortuites.

Cet après-midi j'étais en train de fignoler un article consacré à un philosophe grec oublié (ma spécialité, quoi…). Le bonhomme n'a jamais été très médiatisé depuis 2300 ans : on a juste de lui un petit paragraphe très douteux chez Diogène Laërce et des mentions aléatoires sur un papyrus mal conservé. Heureusement, les hellénistes ont quand même trouvé de quoi écrire des articles. En fait, ils font même mieux que ça : ils s'engueulent. Avec toutes ces belles petites disputatios épistémologiques, mon petit article trouve la matière nécessaire pour s'orienter vers un BA voire un AdQ. Tout va bien.

Au passage, je commence à me renseigner sur les protagonistes du conflits (en particulier pour rétablir leur prénom : mes sources bibliographiques ont la sale habitude de ne se cantonner qu'aux initiales). Et l'air de rien je me dis : pourquoi ne pas wikifier ? créer des articles correspondants à tous ces braves gens qui, la communauté hellénistique n'étant pas surpeuplée, reviennent vaguement d'un article à l'autre ? Ce serait certainement intéressant de voir, par exemple, que le Tiziano Dorandi qui est mentionné ici a commis un excellent traité sur les méthodes d'écritures dans l'antiquité. Ou, plus prosaïquement, que le mystérieux « Concolino Mancini » dissimule en fait « Bianca Concolino Mancini » (toujours cette habitude d'omettre les prénoms : il m'a fallu un peu de temps pour les lier l'un à l'autre).

Il ne faut qu'un demi quart de seconde pour qu'une petite voix m'arrête sec. Et cette petite voix dit : critères. Ben oui, il y a peu de chance que les quelques noms mentionnés dans l'article puissent respecter les critères d'admissibilité des chercheurs : à ma connaissance, ils n'ont pas reçu de prix, et ce serait pousser un peu trop loin les choses que de considérer qu'ils font référence dans le domaine considéré ou qu'ils ont produit une théorie largement diffusé. Pourtant les sources de qualité ne manquent pas. Tiziano Dorandi a mis en ligne un CV très complet diffusé par le CNRS (avec l'exigence scientifique que cette diffusion suppose).

Bref, sauf si je tiens absolument à perdre mon temps, je ne vais pas m'amuser à créer des articles qui ont toutes les chances de passer en PàS et de fortes probabilités d'être supprimés. Tant pis pour les hellénistes dont les noms ne seront jamais bleus, verts ou rouges mais noirs.

Or, quelques heures plus tard, je vois s'ouvrir une section du bistro consacrée au chimiste Édouard Herzen. Un contributeur s'interroge sur le type de bandeau d'admissibilité à placer sur l'article. A la lecture de cette demande, Kropotkine113 se sent pénétré d'un certain sentiment d'incrédulité :

O_o Un type qui a participé à 6 congrès Solvay dont les mythiques premier et 7e ? Ça devient vraiment très compliqué d'être admissible sur Wikipédia…

Si l'on veut une explication de texte la voici : les congrès solvay dont il est question réunissaient l'élite de l'élite de la recherche en physique et en chimie. Les plus grands sont passés par là et leurs échanges ont fortement contribué à l'élaboration de la mécanique quantique. Quasiment tous les membres des premiers congrès sont wikifiés, à l'exception de quelques figures un peu négligées comme cet Edouard Herzen. C'est peut-être afin de combler ce lien rouge solitaire dans de nombreuses listes toute bleues que Cantons-de-l'est a entrepris la création de l'article.

Sur le même bistro, Kirtap soulignait d'ailleurs que les critères d'admissibilité des écrivains sont souvent mésinterprétés. Il ne suffit pas d'avoir écrit deux ouvrages à compte d'éditeur pour avoir son article sur wikipédia. Il faut encore que ces ouvrages aient donné lieu à des critiques significatives dans des médias de portée nationale.

Le moins qu'on puisse dire, c'est que ce biais suppressioniste est légèrement décourageant. L'un des principaux moteurs de l'extension de wikipédia, la wikification, devient progressivement inopérant : l'on hésite [et je me mets dans ce « on » communautaire] non seulement à créer un article, mais à donner la possibilité d'en créer. Alors que l'extension exponentielle de la mémoire numérique abolit toutes les barrières techniques de la conservation du savoir, la communauté se crée ses propres barrières virtuelles.

Pendant longtemps, wikipédia risquait de succomber à une espèce de démagogie, celui de laisser n'importe qui écrire n'importe quoi. En conséquence, on a mis en place toute une série de garde-fou (avertissements, patrouille, critère…) qui ont largement donné la preuve de leur efficacité.

J'en viens à me demander si on ne cède pas à l'excès inverse : décalquer l'imprimé alors qu'on a les moyens de faire mieux. Wikipédia se doit de prolonger ses prédécesseurs non seulement en qualité (la plupart des articles de l'Encyclopedia Universalis seraient de simples ébauches ici, tandis que le niveau des Bons Articles se rapproche de plus en plus des articles scientifiques de revue à comité de lecture) mais aussi en quantité.

Nostalgie de l'imprimé aidant, on prend pour une règle d'or ce qui n'était qu'une contrainte : celle de devoir résumer le monde en une vingtaine de volumes.

mardi 30 août 2011

Deux poids, une mesure.

Il y a deux manières de se griller dans la République des lettres. La première c'est de plagier. La seconde de défendre le plagiaire.

Le plagiaire en question s'appelle Joseph Macé-Scaron, directeur du Magazine Littéraire. Le 22 août, Acrimed révélait le goût de l'auteur pour le copier-coller. Le plus troublant dans l'affaire c'est que les passages empruntés ne l'étaient pas parfaitement. Retrouvant en cela les méthodes des cancres habiles, notre vénérable édile de la culture et des lettres maquille l'emprunt. Il change quelques mots, renverse quelques tournures, synonymise… Tel quel, le plagiat est indétectable, sauf par quelqu'un qui connaît le texte ou… qui suspecte le plagiat.

Car c'est un peu le problème qui se pose maintenant. Quiconque ment une fois met en cause sa crédibilité. Journalistes et amateurs se sont mis à consulter en profondeur la bibliographie. Ce qu'ils y ont déterré n'est guère ragoûtant : un emprunt à Arlington Park de Rachel Cursk et un autre à La Belle vie de Jay McInerney toujours dans le même Ticket d'entrée, une reprise du second Journal parisien d'Ernst Jünger dans Trébizonde ou l'oublie, une inclusion d'Ainsi parlait le hassidisme de Victor Malka dans le cavalier de la nuit… En moins d'une semaine, c'est tout un tissu d'intertextualités masquées qui est mis au jour. Il suffirait sans doute de tirer un peu plus pour en trouver d'autres (meilleur lecteur qu'écrivain, Macé-Scaron ne s'est sans doute pas privé d'aller piller certaines productions obscures ou méconnues). A ce niveau-là, le plagiat n'est plus une connerie : c'est un système éditorial, qui implique peut-être l'action transitoire de certains ghost writers (non, non, je n'utiliserais pas l'équivalent français qui, en plus d'être éthiquement limite, s'avère beaucoup moins subtil que l'expression anglaise).

Face à une affaire qui menace son statut d'homme-invité-par-les-médias, Macé-Scaron dépêche son fidèle employé et ami, Pierre Assouline. Celui-ci lui consacre une chronique dans le Monde des livres de vendredi, reprise ce week-end son blog. Elle ne va pas dans la demi-mesure. Assouline parle de lynchage, d'un homme jeté à la fureur de la meute, férocement tailladé par tout ce qui poste ou qui tweete. Toutefois, à partir du moment où il victimise Macé-Scaron, Assouline est un peu contraint de se trouver un bouc-émissaire. Il ne peut se contenter de dénoncer la vague interface qu'est le web. Il lui faut une cible. Et voilà qu'il tombe à bras raccourci sur son meilleur ennemi : Wikipédia.

Dans la brève notice biographique de Joseph Macé-Scaron sur Wikipédia, l’affaire occupe déjà quatre lignes, espace disproportionné. Gageons qu’il ne diminuera pas avant longtemps. Le mal est fait.

Meilleur ennemi : l'expression définit assez bien les relations entre Assouline et l'encyclopédie en ligne. Tout a commencé en janvier 2007 par un billet assez inquiet (vraisemblablement écrit, une fois de plus, à la demande d'un copain, François Gèze). Puis, rapidement, il décide de donner un tournant un peu plus officiel à ses opinions. Il publie quelque mois plus tard une courte brochure au titre pompeux, la Révolution Wikipédia, rédigée en partenariat avec ses étudiants de science po. Ce travail, d'une qualité toute relative, a été assez justement démonté par les wikipédiens eux-mêmes. Son chapitre inaugural propose pourtant une réflexion assez intéressante sur le plagiat à partir de Wikipédia :

Même à l’université, les étudiants aiment le copier-coller. Alors, quand on est professeur, il faut trouver des astuces. « On essaie de donner des travaux qui ne permettent pas de faire ça. Par exemple, on leur demande d’utiliser un article de presse récent. » Malgré cela, les plagiaires sévissent encore et toujours. Ils copient Wikipédia, ou bien n’importe quel site Internet, du moment qu’il traite de leur sujet. Et puis, il existe des sites sur lesquels il est possible d’acheter des devoirs clé en main. Mais pour les démasquer, pas besoin de logiciel spécial. « J’écris un morceau du travail de l’étudiant sur Google et je vois s’il y a des réponses » explique Christine.

Assouline aurait été bien inspiré de relire ce passage. Il fait assez justement état d'un processus en deux temps 1° le plagiat / 2° la lutte contre le plagiat. Soyons clair, le plagiat a toujours existé dans le système scolaire. On ne fera croire à personne que les nombreux profils d'une œuvre sont uniquement là pour aider l'élève à comprendre le bouquin qu'il lit. Il y a là une certaine hypocrisie qui profite en fait aux élèves favorisés, ceux qui ont les moyens de s'équiper de toute une littérature parascolaire. L'intérêt de Wikipédia, c'est d'égaliser ce travers, qui n'est plus l'apanage d'une minorité privilégiée, mais virtuellement accessible à quiconque dispose d'une connexion internet.

Cependant, l'accessibilité du texte original joue également en faveur de la détection du plagiat. Si il s'agit d'une copie brute, il suffit de rechercher quelques extraits sur un moteur de recherche de type google pour en retrouver la source. Si il s'agit d'une copie détournée (ce qui est le cas avec Macé-Scaron), l'on peut toujours, en cas de doute, vérifier la teneur des premières entrées liées au sujet (dont l'article wikipédia).

La recrudescence toute récente des cas de plagiats, que ce soit en France ou en Allemagne, n'est vraisemblablement pas dû à une généralisation du plagiat, mais à une sophistication des méthodes de détection. La présence d'intertextualités (soyons gentil, il s'agit d'un ministre) dans la thèse de doctorat du ministre de la défense allemand Karl Theodor Guttenberg a été mise en évidence par un organe de presse réputé, le Sueddeutsche Zeitung. Embrayant sur ces soupçons, un site créé pour l'occasion, GuttenPlagWiki a identifié la plupart des emprunts non-guillemés de cette thèse. Assez significativement, ce site adopte une infrastructure wiki — comme si ce modèle éditorial était particulièrement adapté pour lutter contre le plagiat.

Le moins qu'on puisse dire, c'est que Wikipédia ne favorise guère le copier-coller (plus connu sous le terme de Copyvio ou Violation de copyright). Sur Wikipédia.fr, la page d'aide, le copyvio pour les nuls, résume les démarches à suivre. Pour les besoins de la démonstration, on synthétisera la procédure en trois grandes étapes : 1° Apposition d'un bandeau de suspicion, 2° Identification du texte source, 3° Retrait du plagiat et purge de l'historique (autrement, le plagiat demeurerait dans les archives des contributions antérieures).

Si la page d'aide s'appesantit sur les démarches possibles des étapes 2 et 3, elle reste relativement muette sur la première. Qu'est-ce qui permet de suspecter un texte, en dehors de la simple impression de l'avoir déjà-lu ? Supposons qu'un plagiaire entreprenne de gonfler un article historique à partir d'un manuel épuisé de longue date. La probabilité qu'un contributeur lise ce plagiat avec le texte source en tête est infime. Faute de réclamation, le plagiat risque de se perpétuer ad vitam æternam.

C'est sans compter sur un indice anthropologique fondamental : la différence des styles. Contraints par les premiers et seconds principes fondateurs, les contributeurs réguliers se doivent d'adopter un style neutre, encyclopédiste, assez proche en fin de compte du degré zéro de l'écriture de l'ami Barthes. Or, ce style n'est pas si courant, même dans la littérature académique contemporaine — j'ai vu bien souvent des professeurs-intellectuels céder à un lyrisme d'assez mauvaise aloi. Le contraste entre la tonalité du plagiat et celle du reste de Wikipédia est bien souvent assez net pour susciter une suspicion première. En outre la différence des styles s'applique également au plagiaire. Un utilisateur capable, selon les jours et les situations éditoriales, de s'exprimer dans un français classique et dans un langage SMS attirera à n'en point douter l'attention générale. De fait, sur le long terme, un plagiaire a très peu de chance de s'en sortir, même lorsqu'il s'agit d'un contributeur éminent comme Maffemonde.

On a longtemps prétendu que le Web encourageait l'anarchie, le populisme, la disparition des gardes-fous scientifiques. On constate en réalité l'effet inverse. En communisant l'ensemble des savoirs existants, le Web permet d'en évaluer immédiatement l'originalité (et aussi, soit dit en passant, la qualité).

De fait, les positionnements s'inversent également. En 2007, Assouline prenait la confortable posture du professeur qui condescendait à démonter le mécanisme d'un phénomène numérique éphémère. La littérature française sur Wikipédia était inexistante : 60 pages suffisaient amplement à rendre compte de cet objet. L'important, ce n'était pas d'être exhaustif mais d'éveiller l'opinion aux dangers latents de cette organisation populiste, qui prétend faire de chacun un émetteur de savoirs.

Quatre ans plus tard, Wikipédia est toujours là. Le contenu encyclopédique reste inégal, mais les articles labélisés témoignent d'une exigence scientifique sans beaucoup d'équivalents. De son côté, Assouline doit défendre un plagiaire compulsif dont la déontologie littéraire est pour le moins sujette à caution. Il se retrouve, ipso facto, solidaire de plusieurs vandales qui, au cours des derniers jours, n'ont pas hésité à retirer les informations compromettantes de la biographie de Macé-Scaron. Parmi eux, on trouve l'éditeur du bonhomme… Après ça, c'est un peu compliqué de faire des leçons de morale à l'attention des lycéens-copieurs-de-wikipédia.

Du deux poids, deux mesures, on glisse lentement vers le deux poids, une mesure… On comprend que certains profiteurs du système antérieur aient du mal à s'y faire.

lundi 11 juillet 2011

Les prénoms sont-ils encyclopédiques ?

La question ainsi posée risque de figurer prochainement sur l'agenda des grands débats de Wikipédia. Elle a commencé à émerger il y a deux semaines sur un article extrêmement périphérique, Božimir. Comme l'indique l'unique phrase qu'il comporte il s'agit d'un prénom masculin serbe pour le moins méconnu sous nos latitudes.

Le 24 juin, un contributeur récemment enregistré lance une procédure de suppression de l'article sous le motif qu'il n'y a « Aucun intérêt encyclopédique ; une liste de prénoms est plus appropriée ». J'interviens pour défendre l'admissibilité de l'article. Le consensus s'oriente alors vers une conservation. Il faut dire que le contributeur proposant inspirait assez peu confiance. Il s'était déjà fait remarqué en multipliant les corrections absconses et les procédure de suppression immotivées. Il est finalement identifié comme le faux-nez d'un multi-récidiviste. En conséquence, la procédure de suppression est invalidée par Matpib.

Toute cette histoire aurait pu s'arrêter là. Toutefois, le 29 juin, Hercule relance la procédure avec des arguments autrement plus sérieux. Il ne nie pas l'admissibilité de l'article, mais s'interroge sur ses perspectives de croissances encyclopédique (la probabilité qu'un universitaire quelconque ait commis un ouvrage de référence sur Božimir est proche du zéro absolu) et sur le risque que l'article ne fasse double-emploi avec un article équivalent, publié sur le Wiktionnaire qui, pour simplifier les choses, présente le prénom comme slovène. L'enjeu de cette interrogation dépasse largement le cadre de la simple procédure de suppression. Elle pourrait avoir des répercussions considérables sur l'ensemble de l'espace encyclopédique. Hercule en est conscient : « Je ne me fait aucun doute qu'il y aurait d'autres articles équivalents à supprimer. Ce n'est pas une raison pour ne pas commencer. »

Un rapide calcul permet d'évaluer à un peu plus de mille le nombre de prénoms figurant dans les diverses catégories prénoms par origine. A peu près un millième des articles de la wikipédia francophone pourrait ainsi potentiellement disparaître. Si elle était menée à son terme cette liquidation impliquerait l'ouverture d'autant de procédures de suppression, ce qui, à moins de les étaler sur plusieurs mois, risque de s'avérer ingérable. Il serait sans doute préférable de passer par une prise de décision, afin de régler collectivement le sort de ces articles.

Sur le principe, mon opinion n'a pas changé depuis deux semaines. Ce qui importe, ce n'est pas la scientificité du sujet encyclopédique (id est son taux de reprise dans des publication académique) que sa pertinence sociale et collective (son impact sur les sociétés humaines). Pour prendre un exemple souvent cité et décrié, les pokémons ont droit de cité sur Wikipédia. Même si les bêbêtes nippones n'ont par vraiment fasciné les chercheurs (en dehors d'un travail collectif un peu inégal, je n'ai pas trouvé grand chose) leur impact sur la culture populaire du premier XXIe siècle est tel, que leur admissibilité relève de l'évidence. Comme les pokémons, les prénoms serbes constituent des objets en attente d'être étudiés — dans le jargon de la recherche, on appelle ça des monstres. Leur inscription effective dans la sphère des échanges et des relations humaines leur confère d'office une portée théorique qui n'attend que d'être actualisée.

Ceci dit, un point beaucoup plus pernicieux reste à démêler : les prénoms sont-ils des mots ou des constructions sociales ? Les deux mon général. Ils renvoient certes à une forme linguistique particulière qui dispose de ses propres règles d'accord (en français on ne peut mettre un pronom au pluriel). Ils désignent également une projection symbolique de certaines structures et interactions préalables. Qu'est-ce qui fait par exemple que Enzo est l'un des prénoms les plus portés dans la France du premier XXIe siècle ? A quoi est-ce dû ? Qu'est-ce que cela veut dire ? Le champ épistémologique qui s'ouvre ici est immense mais demeure largement inexploré. Dans Le Prénom : un objet durkheimien, Olivier Gall souligne que

Les travaux de Philippe Besnard et de Guy Desplanques montrent cependant que [les choix des prénoms] n'ont rien de purement individuel, qu’agrégés par la statistiques, ils révèlent des régularités, et donc des représentations collectives produites par les actions et réactions entre les les esprits individuels qui forment la société.

Tout ceci m'incite à penser que la présence d'articles sur les prénoms est légitime sur Wikipédia. Le transfert sur Wiktionnaire risque en effet de laisser de côté toute perspective d'analyse de l'incidence sociale d'un prénom donné et de ses effets de mode. Aussi, le doublon me paraît-il préférable au repli linguistique : mieux vaut prendre le risque de se répéter plutôt que de se taire…

Pages