Wikitrekk: juin 2012

samedi 30 juin 2012

Bibliographies

Comme je viens de le signaler sur ma page de discussion, je suis en vacances depuis ce matin. Wikitrekk risque donc de somnoler un peu pendant les deux semaines à venir — à moins que mon collègue n'entreprenne de le nourrir un peu.

En dépit des divers préparatifs de départs, qui ont d'ailleurs sévèrement amoché mon editcount de ces derniers jours, je n'ai pas raté cet intéressant message d'Ironie sur le bistro d'hier :

Aux adeptes d'affaires bibliographiques, je signale mes premiers tests pour l'importation des liens vers les notices d'autorités bibliographiques de quelques grandes bibliothèques. En débutant avec l'importation des Autorités des 220'000 articles de la Wikipédia allemande et les services OCLC. Premier test : diff Débat technique Discussion Modèle:Autorité. J'ai idée que Wikidata gèrera certainement les Autorités (OCLC a proposé l'importation sur Wikidata), mais comme c'est pas encore sur le planning des devs et qu'il faudra peut-être attendre des années...

De quoi s'agit-il ? D'ajouter les principaux identifiants bibliographiques affectés à un auteur (dans le jargon des bibliothécaire on parle d'autorité) sur chaque article correspondant. Ainsi, l'article sur André Breton comporte désormais une courte fiche reprenant ses notices d'autorité sur la BNF, le VIAF et le SUDOc :

Ce type de fiche est courant sur la Wikipédia germanophone. Il devrait rapidement se généraliser sur la Wikipédia francophone. Plus de 200 000 articles vont bientôt s'en voir équipé.

L'intérêt de cet ajout est évident. Cela permet de formaliser plus aisément les bibliographies internes aux articles (on a tout de suite sous la main une liste des œuvres produites par untel). Ensuite, cela améliore l'accessibilité des sources. Le contributeur peut facilement naviguer depuis l'article encyclopédique vers le SUDOC et trouver ainsi une source liée dans sa bibliothèque la plus proche.

Cette initiative m'a fait penser à une idée un peu similaire, qui germe dans ma tête depuis quelques jours. Suivant l'exemple donné par Hégésippe, j'ai commencé à recenser les titres de ma bibliothèque dans le logiciel Calibre. Pour ce faire, il suffit de renseigner l'ISBN de chaque titre. Le logiciel se charge ensuite de récupérer les métadonnées sur Worldcat. On arrive ainsi à ce genre de choses :

Dès lors idée serait la suivante : mettre en place une sorte de Calibre commun sur Wikipédia. Chaque wikipédien y exporterait les métadonnées de sa bibliothèque. Un champ utilisateur permettrait de recenser le pseudo des utilisateurs qui détiennent la référence cherchée. Il suffirait de le contacter ce détenteur pour obtenir telle ou telle information qui y serait présente, afin de rédiger une note de bas-de-page bien proprette :

Quelques projets ont déjà mis en place un système similaire, quoique d'ampleur plus limitée. Je me souviens notamment d'une belle liste de référence par détenteur liée au projet Hellénopédia mais je n'arrive pas à remettre la main dessus…

mardi 26 juin 2012

Petite utopie du mardi matin…

Comme vous vous en êtes sans doute aperçu, Wikisource a généralisé depuis déjà quelque temps (environ deux ans ?) le principe de la lecture en regard. Concrètement, le dispositif permet de découvrir côte-à-côte l'œuvre retranscrite par un wikisourcien (et à ce titre, facilement transportable et manipulable) et un scan d'une édition de l'œuvre tombée dans le domaine public. Ce dispositif est diablement efficace. Il permet de constater immédiatement si la retranscription est exacte ou non, et, éventuellement, de corriger en conséquence (ce qui m'est d'ailleurs arrivé à plusieurs reprises). C'est un gage formidable de fiabilité.

La Contribution à la critique de l'économie politique de Marx face au scan de son édition de 1909

En quoi consisterait dès lors ma petite utopie du mardi matin ? A installer un dispositif assez similaire sur Wikipédia.

Comme je l'ai déjà antérieurement souligné, la rédaction des articles encyclopédiques présuppose le recours à des sources fiables. Or, rien ne garantit que les contenu des sources ait été bien synthétisé. Rien ne garantit non plus que le renvoi soit rigoureusement exact (même le rédacteur le plus scrupuleux doit sans doute se tromper ponctuellement de page…). Pour le vérifier, il n'y a pas 36 solutions : consulter la source utilisée chez soi, si on l'a, ou se déplacer en bibliothèque. La plupart du temps, on doit se reposer sur l'apparente scientificité du paratexte — par exemple écrire R. T. Bidule, La dialectique quantique, Oxford, 2003, ça en jette d'un point-de-vue purement connotatif….

Mon idée serait la suivante : développer un système de lecture en regard entre un article de Wikipédia et sa source originelle. En cliquant sur une source dûment annotée on déclencherait aussitôt l'ouverture de la publication d'origine, tout en continuant de survoler l'article encyclopédique censé en faire état. On aboutirait à la modélisation suivante :

Système de double lecture hypothétique sur l'article Origine de la monnaie

Techniquement, l'on s'en doute, rien ne s'y oppose. Le véritable hic est d'ordre légal. L'essentiel des publications utilisées comme sources secondaires sur Wikipédia sont encore protégées par le droit d'auteur. Et lorsqu'elles ne le sont pas, les licences ne sont guère accueillantes (Persée, par exemple, héberge sous NC…). Etant donné le mouvement de fronde existant contre les éditeurs de revues, la Wikimédia Foundation aurait peut-être l'opportunité de développer des partenariats allant dans ce sens.

Bon, soyons réaliste, ce n'est pas encore demain le veille que tout ceci se réalisera — c'est un peu le principe des utopies… En attendant, je renouvelle mes félicitations à nos amis wikisourciens qui, contexte légal aidant, font un peu figure de pionnier en la matière.

vendredi 22 juin 2012

Où en est Wikidata ?

Ça fait quelque temps que je me dis que je devrais faire un truc sur Wikidata. Je m’étais un peu impliqué dans les questions relatives aux traitements de données encyclopédiques en début d’année. J'avais d'ailleurs commencé à rédiger un billet sur le sujet en mars, sans avoir eu le temps de le terminer. Vu que quasiment toutes les informations qu'il contient ont été médiatisées, je préfère aborder le sujet par un autre biais.

Le projet Wikidata a pas mal progressé depuis son lancement. On trouve sur le site pas mal de précisions intéressantes, qui n’ont pas forcément été relayés en français.

A mon avis, la page la plus intéressante concerne la définition du Data model, soit le mode de présentation des données. Cette définition n’est pas d’ordre technique, mais d’ordre épistémologique et intéresse à mon avis directement les contributeurs de Wikipédia, indépendamment de leurs compétences informatiques. Je ne m’en tiendrai ici qu’à la définition relativement simple présentée dans l’Overview. Il va sans dire que, concrètement, les choses sont beaucoup plus complexes — je m’excuse par avance si je simplifie à outrance les procédés réellement utilisés.

La grammaire wikidatienne repose sur une vision dénotative du langage. En lieu et place des mots, on trouve des items, soit des symboles purement référentiels. On donne ainsi pour exemple la ville de Berlin qui renvoie sans ambiguïté possible à une entité humaine unique, correspondant à un territoire strictement défini. Toutes les mots n’ont malheureusement pas la même portée référentielle. Outre, les homonymes, il y a aussi les termes et concepts flottants, généralement difficiles à traduire d’une langue à l’autre. Créer un item à partir de socialisme ou de culture risque de poser quelques difficultés.

A chaque item correspond une liste de statements. Chaque statement prétend reproduire un état de la réalité, au sens où l’entendait Wittgenstein.

La proposition construit un monde au moyen d'un échafaudage logique, et c'est pourquoi l'on peut voir dans la proposition, quand elle est vraie, ce qu'il en est de tout ce qui est logique. On peut d'une proposition fausse tirer des inférences (Tractatus Logico-Philosophicus, 4.023)

Le Statement se décompose en valeur (value) et en propriété (property). La value exprime « un nombre, une date, des coordonnées géographiques et plein d’autres choses ». Elle donne une indication de mesure qui permet de cerner une proportionnalité (x=n) ou une situation (x se trouve sur n). Chaque valeur est rattachée à une propriété. Cette dernière spécifie une qualité de l’item. Ainsi, sous l’item Berlin, on trouve la propriété population, à laquelle correspond la valeur 3 499 879.

Jusqu’ici les choses sont relativement simples. Les relations entre les trois signes fondamentaux permettent d’emblée d’exprimer certains énoncés relativement simples. Avec item=Berlin, property=population et value=3 499 879, on peut générer une phrase comme « Berlin compte 3 499 879 habitants ».

Là où ça se complique un peu, c’est que nos trois signes se combinent pour former de nouveaux signes. Le lien entre propriétés et valeur s’exprime au travers d’un datatype. A côté de la propriété population, on trouverait ainsi un datatype=people. Le datatype assure ainsi une fonction d’appariement : il permet d’éviter de mêler indistinctement la population de Berlin avec les coordonnées géographiques de Paris.

En outre, les propriétés ne comportent pas obligatoirement de valeurs. Le cas échéant, elles constituent des snaks, soient de simples qualifications qui améliorent la précisions des énoncés. A partir du snak commune ou cité, on génère ainsi des phrases comme : « la ville de Berlin compte 3 499 879 habitants ». On évite ainsi les confusions entre ville et agglomération urbaine.

Arbre des Snaks sur Wikidata (CC/BY/SA : http://meta.wikimedia.org/wiki/Wikidata/Data_model#Snak)

Ces données n’échappent bien entendu aux principales règles encyclopédiques. Suivant en cela les prescriptions de la Neutralité de point-de-vue, elles seront référencées à partir d’un champ intitulé ReferenceRecord.

Ces combinaisons syntaxiques permettent de produire des énoncés considérablement plus complexe. Rien ne s’oppose ainsi à ce que la phrase suivante, présente dans le résumé introductif de l’article Paris, ne soit généré par Wikidata :

Ici, Paris figure l’item. Le recensement de l’Insee et la note de bas-de-page qui l’accompagne sont du ressort du ReferenceRecord. La date (1er janvier 2009) et la population (2,2 millions d’habitants) résultent d’autant de combinaisons propriété-valeur. Enfin, la précision « commune de » constitue un snak.

Comme toute logique formelle, cette grammaire wikidatienne est universellement traduisible. Pour reprendre à nouveau Wittgenstein :

La traduction d'une langue dans une autre ne se produit pas par la traduction d'une proposition de l'une dans une proposition de l'autre ; seuls sont traduits les constituants de la proposition (Tractatus Logico-Philosophicus, 4.025)

Le transfert peut ainsi fonctionner dans les deux sens : traduction vers, et traduction à partir de. Concrètement, la phrase citée plus haut de l’article Paris est aspirée par la base de donnée. Chacun de ces composants reçoit une affectation sur Wikidata. Ce transfert devrait se passer sans encombre pour les énoncés déjà intégré dans un modèle — il va sans dire que tout ce qui se trouve dans un modèle débarque ipso facto dans ReferenceRecord. Par contre, la transcription des énoncés nus devraient peut-être poser un peu plus de souci (dans « la commune de Paris », il n’est pas forcément évident de repérer l’item et le snak).

La traduction à partir de pose sans doute moins de soucis. Il s’agit de transporter les statements stockés par Wikidata dans une langue naturelle, en recourant aux tournures usuelles employées, par exemple, pour énoncer la population d’une ville. On mesure tout de suite l’importance de ce type de génération textuelle pour les petits wikis, qui ne disposent pas d’une communauté suffisamment importante pour recueillir manuellement certaines informations essentielles. Dans une hypothétique Wikipédia syldave on pourrait ainsi retrouver :

Sous réserve de réaliser toutes ses promesses, Wikidata peut avoir une certaine incidence sur la dissémination du savoir en France. Le développement des wikipédias en langues régionales ou dans les langues d’outre-mer (Wikimédia France s’était dernièrement beaucoup investit dessus) ne pourra qu’en être facilité.

lundi 11 juin 2012

La wikipédia italienne de nouveau menacée ?

Le 4 octobre 2011, la wikipédia italienne cessait de fonctionner pour près de 48 heures. Quiconque souhaitait consulter l’un des 700 000 articles de l’encyclopédie, était automatiquement redirigé vers un communiqué alarmiste signé des « utenti de wikipedia ».

Huit mois plus tard, la situation pourrait bien se répéter. Depuis hier au soir, toutes les pages de la wikipédia italophones sont bardées d’un sitenotice ainsi conçu :

La cause de ce second appel à l’aide est familière. Il s’agit une fois de plus du projet de loi DDL et de son corollaire tristement célèbre, le comma 29. Le projet, qualifié aussi de « loi des écoutes » vise d'une manière générale à renforcer les sanctions contre la presse, dans l'objectif plus ou moins avoué, de bâillonner le « quatrième pouvoir » — son rôle actif dans la divulgation de divers scandales politico-judiciaires commence à embarrasser les élites italiennes. Procédant à plusieurs adjonctions à l'article n°8 de la loi du 8 février 1948, le comma (ou alinéa) 29 s'attaque plus spécifiquement aux sites internet.

Comme je le soulignais dans une analyse approfondie, le strict respect des prescriptions du comma a des conséquences lourdes. Tout texte jugé diffamatoire par un particulier doit être aussitôt remplacé par un rectificatif, rédigé par celui-ci ou un de ses représentants. Le non-respect de ces dispositions entraîne le versement d'une lourde amende (jusqu'à 12 000 euros). A l'instar du SOPA américain, la justice n'est pas du tout impliquée dans ce processus. Le particulier est seul juge du caractère diffamatoire du texte visé. Sa seule appréciation détermine son retrait.

Déjà plusieurs fois retardé depuis 2009, l'examen de la DDL a été de nouveau suspendu en octobre dernier. Le blackout de la wikipédia italienne et les réactions qui s'en sont suivies ont sans doute pesé dans l'affaire. D'autres facteurs sont sans doute également entré en ligne de mire : la perte graduelle d'influence de Silvio Berlusconi qui finira par démissionner le mois suivant, l'importance graduelle de la crise de la dette… Tout incitait à reporter une loi devenue secondaire, en sus d'être impopulaire, dans un contexte aussi grave.

Si, aujourd'hui, le technocrate Mario Monti remplace Berlusconi, l'Assemblée n'a pas bougé. Il s'agit toujours de la XVIe législature. Celle issue des élections générales de 2008. Celle qui a proposé une première mouture de la DDL en 2009. Celle qui compte bien la faire aboutir…

De fait, si ce n'est la date, rien n'a changé. Le projet qui sera présenté aux députés à partir du 19 juin n'a apparemment pas beaucoup évolué depuis octobre.

A la même cause répondent les mêmes effets. Passablement inquiets, les wikipédiens italophones ont rapidement réagi. Dès le 31 mai, le bistro local (ou « bar ») commence à brainstormer sur le sujet. Plusieurs informations (et interprétations) contradictoires surgissent. Zerosei rapporte ainsi qu'une institution publique influente, l'AGCOM, dénonce plusieurs dispositions de la DDL :

L'AGCOM refuse catégoriquement le masquage des sites, même lorsqu'il y a une violation du copyright.

Un consensus se dégage rapidement. Il est évidemment hors de question de procéder à un blackout, tant que l'on ne dispose pas de plus de précisions sur l'avancée des travaux parlementaires. Par contre, un sitenotice permet de marquer le coup et de prendre rapidement position. En témoigne, l'échange suivant :

Phyrexian — Je suis également favorable à une bannière dès maintenant. On pourra envisager des mesures plus lourdes si la situation ne s'arrange pas. La bannière permet de mettre l'accent sur le fait que nous sommes à nouveau contraints de procéder comme en octobre. Par contre, nos sources se limitent pour l'instant à un seul article de journal ? Rien d'officiel à ce propos. Nous ne pouvons quand même pas mettre une bannière comme cela, au hasard.

Codicorumus — Je suis favorable à une bannière maintenant, suivie peut-être d'autres initiatives. Pour les sources, voir la section documentation.

Patafisik — OK, à ce stade je suis pour la bannière.

Plusieurs propositions de sitenotice s'ensuivent. Elles sont destinés à informer wikipédiens et lecteurs du danger qui menace. Et, par la même occasion, à réaffirmer le caractère inconditionnel des principes fondateurs :

Si cette loi est approuvée, nous serions obligés de modifier le contenu de plusieurs articles, indépendamment du respect du principe de vérifiabilité et sans qu’il soit possible de le modifier ultérieurement. De telles exigences constituent une limitation inacceptable de l’autonomie de Wikipédia. Elles dénaturent les principes fondateurs de notre encyclopédie (Traduction libre du sitenotice finalement retenu).

vendredi 8 juin 2012

Autocitation…

Lucianusbeneditus suscitait il y a quelques jours un intéressant débat sur le bistro. Il soumettait en effet à la communauté une question non triviale : peut-on se citer sur Wikipédia ? La plupart des velléités d’autocitation ont été jusqu’à présent découragées pour des raisons annexes, généralement liées à la faible qualité des sources (blog…) voire à leur inexistence…

Là n’est pas le souci de Lucianusbeneditus. Comme il le souligne, « ceux qui me connaissent savent que je suis universitaire, j'enseigne dans une université française et donc je fais de la recherche et je publie. » Par conséquent, il produit des sources dites de qualité — articles dans des revues à comité de lecture, actes de colloque etc. Ces sources servent préférentiellement à référencer les articles de Wikipédia. Qui plus est, elles contribuent à définir l’état de la recherche actuelle que l’encyclopédie est censée refléter.

Assez logiquement, Lucianusbeneditus contribue sur des thématiques qu’il étudie par ailleurs. Son intérêt wikipédien et son intérêt universitaire ne pouvaient que se croiser. Tout cela l’entraîne vers le dilemme suivant : peut-il utiliser une de ses publications comme référence ?

La publication en question participe sans conteste du champ de recherche considéré. Son sujet, assez pointu, se situe à l’embranchement de deux disciplines distinctes (la climatologie et l’histoire antique). Dans ces conditions, on peut subodorer sans grand risque que la littérature existante est plutôt limitée… Omettre cette étude revient de facto à négliger une partie de la recherche existante sur l’objet encyclopédique. L’ajouter paraît pourtant soulever un certain nombre de réticences éthiques. Un contributeur s’y est ainsi fermement opposé en pointant un risque d’autopromotion…

Ce n’est sans doute pas là le problème. Cédric Boissière rappelle très justement que Wikipédia ne dispose encore que d’une faible légitimité dans le monde universitaire. Être cité sur Wikipédia représente un avantage incomparablement plus faible que le fait d’être cité dans une revue dûment agréée par l’AERES. D’ailleurs, sur mon CV de doctorant, les quelques articles labélisés que j’ai été amené à rédiger figurent sous le chapitre « valorisation » (en d’autres termes, tout ce que le would-be PhD réalise pour soigner son image) et non sous le chapitre « publication ».

Le point qui me dérange davantage est plutôt d’ordre épistémologique. Les cinq principes fondateurs édictent en effet la répartition des tâches suivantes : la communauté scientifique élargit le savoir existant, en recensant ce qui est, en provoquant des expériences et en proposant de nouveaux modèles formels ; la communauté encyclopédique constate et publicise les acquis ainsi dégagés. J’ai assez nettement ressenti cette distinction lorsque j’ai rédigé mon mémoire de recherche l’année dernière. A certains moments, je me disais « attention TI ». Je rattrapais aussitôt : « ah mais non, là je peux… ».

Cette distinction, l’autocitation la remet en question, dans la mesure où les statuts de chercheur et de contributeur se confondent. La production et la reproduction du savoir relèvent de la même personne. Une telle confusion des statuts et des attentes d’écriture n’est sans pas risque. On songe au tout premier lieu au paradoxe de l’observateur : peut-on évaluer un champ de recherche dont on est soi-même partie prenante ? Ne va-t-on pas se mettre en avant ? Ou, au contraire, soit par modestie ou par crainte d’éventuels reproches, se minimiser ? La juste mesure n’est pas aisée à définir.

Il existe également une seconde dérive, moins évidente. Le chercheur-contributeur possède en effet un avantage certain sur le simple contributeur : il est en mesure de produire, indirectement, un savoir. Il peut, techniquement, se référer à des données apparemment exclues de l’encyclopédie (sources primaires en particuliers) en les synthétisant dans une source secondaire utilisable telle quelle.

Je ne pense pas que ce type de pratique existe aujourd’hui. Ça pourrait l’être dans un futur plus ou moins proche. Il ne paraît pas illusoire de penser que plusieurs contributeurs réguliers de l’encyclopédie s’orientent vers une carrière universitaire. Ce faisant, ils peuvent être tenté de combler les impasses éventuelles de la communauté scientifique dans leur domaine spécifique de contribution.

Dans les faits, on assisterait ainsi à une inégalité de fait entre les contributeurs tenus de refléter le champ de recherche, et ceux qui peuvent l’altérer. Cette situation ne dégraderait absolument pas l’éditorial (les revues à comité de lecture ne laisseraient certainement pas passer des élucubrations POV). Par contre, elle peut générer un certain nombre de tension communautaires, en suscitant in fine une encyclopédie à deux vitesses.

Vers deux statuts distincts ?

Il va sans dire que j’ai pris le problème dans ses ultimes retranchements. En réalité, il est sans doute possible d'autoriser l’autocitation, tout en l'encadrant suffisamment pour prévenir les dérives éventuelles. On pourrait ainsi autoriser ce procédé à condition qu’une ou plusieurs références viennent également appuyer le propos — soit exactement ce qu’a fait Lucianusbeneditus…

Pages