Ça fait quelque temps que je me dis que je devrais faire un truc sur
Wikidata. Je m’étais un peu
impliqué dans les questions relatives aux traitements de données encyclopédiques en début d’année. J'avais d'ailleurs commencé à rédiger un billet sur le sujet en mars, sans avoir eu le temps de le terminer. Vu que quasiment toutes les informations qu'il contient ont été médiatisées, je préfère aborder le sujet par un autre biais.
Le projet Wikidata a pas mal progressé depuis son lancement. On trouve sur le site pas mal de précisions intéressantes, qui n’ont pas forcément été relayés en français.
A mon avis, la page la plus intéressante concerne la définition du
Data model, soit le mode de présentation des données. Cette définition n’est pas d’ordre technique, mais d’ordre épistémologique et intéresse à mon avis directement les contributeurs de Wikipédia, indépendamment de leurs compétences informatiques. Je ne m’en tiendrai ici qu’à la définition relativement simple présentée dans l’
Overview. Il va sans dire que, concrètement, les choses sont beaucoup plus complexes — je m’excuse par avance si je simplifie à outrance les procédés réellement utilisés.
La
grammaire wikidatienne repose sur une vision
dénotative du langage. En lieu et place des mots, on trouve des
items, soit des symboles purement référentiels. On donne ainsi pour exemple la ville de
Berlin qui renvoie sans ambiguïté possible à une entité humaine unique, correspondant à un territoire strictement défini. Toutes les mots n’ont malheureusement pas la même portée référentielle. Outre, les homonymes, il y a aussi les termes et concepts flottants, généralement difficiles à traduire d’une langue à l’autre. Créer un item à partir de
socialisme ou de
culture risque de poser quelques difficultés.
A chaque
item correspond une liste de
statements. Chaque statement prétend reproduire un état de la réalité, au sens où l’entendait Wittgenstein.
La proposition construit un monde au moyen d'un échafaudage logique, et c'est pourquoi l'on peut voir dans la proposition, quand elle est vraie, ce qu'il en est de tout ce qui est logique. On peut d'une proposition fausse tirer des inférences (Tractatus Logico-Philosophicus, 4.023)
Le Statement se décompose en valeur (value) et en propriété (property). La value exprime « un nombre, une date, des coordonnées géographiques et plein d’autres choses ». Elle donne une indication de mesure qui permet de cerner une proportionnalité (x=n) ou une situation (x se trouve sur n). Chaque valeur est rattachée à une propriété. Cette dernière spécifie une qualité de l’item. Ainsi, sous l’item
Berlin, on trouve la propriété
population, à laquelle correspond la valeur
3 499 879.
Jusqu’ici les choses sont relativement simples. Les relations entre les trois signes fondamentaux permettent d’emblée d’exprimer certains énoncés relativement simples. Avec item=Berlin, property=population et value=3 499 879, on peut générer une phrase comme « Berlin compte 3 499 879 habitants ».
Là où ça se complique un peu, c’est que nos trois signes se combinent pour former de nouveaux signes. Le lien entre propriétés et valeur s’exprime au travers d’un
datatype. A côté de la propriété population, on trouverait ainsi un datatype=people. Le datatype assure ainsi une fonction d’appariement : il permet d’éviter de mêler indistinctement la population de Berlin avec les coordonnées géographiques de Paris.
En outre, les propriétés ne comportent pas obligatoirement de valeurs. Le cas échéant, elles constituent des
snaks, soient de simples qualifications qui améliorent la précisions des énoncés. A partir du snak commune ou cité, on génère ainsi des phrases comme : « la ville de Berlin compte 3 499 879 habitants ». On évite ainsi les confusions entre ville et agglomération urbaine.
|
Arbre des Snaks sur Wikidata (CC/BY/SA : http://meta.wikimedia.org/wiki/Wikidata/Data_model#Snak) |
Ces données n’échappent bien entendu aux principales règles encyclopédiques. Suivant en cela les prescriptions de la
Neutralité de point-de-vue, elles seront référencées à partir d’un champ intitulé
ReferenceRecord.
Ces combinaisons syntaxiques permettent de produire des énoncés considérablement plus complexe. Rien ne s’oppose ainsi à ce que la phrase suivante, présente dans le résumé introductif de
l’article Paris, ne soit généré par Wikidata :
Ici, Paris figure l’item. Le recensement de l’Insee et la note de bas-de-page qui l’accompagne sont du ressort du ReferenceRecord. La date (1er janvier 2009) et la population (2,2 millions d’habitants) résultent d’autant de combinaisons propriété-valeur. Enfin, la précision « commune de » constitue un snak.
Comme toute logique formelle, cette grammaire wikidatienne est universellement traduisible. Pour reprendre à nouveau Wittgenstein :
La traduction d'une langue dans une autre ne se produit pas par la traduction d'une proposition de l'une dans une proposition de l'autre ; seuls sont traduits les constituants de la proposition (Tractatus Logico-Philosophicus, 4.025)
Le transfert peut ainsi fonctionner dans les deux sens : traduction vers, et traduction à partir de. Concrètement, la phrase citée plus haut de l’article Paris est
aspirée par la base de donnée. Chacun de ces composants reçoit une affectation sur Wikidata. Ce transfert devrait se passer sans encombre pour les énoncés déjà intégré dans un modèle — il va sans dire que tout ce qui se trouve dans un modèle
[ débarque ipso facto dans ReferenceRecord. Par contre, la transcription des énoncés nus devraient peut-être poser un peu plus de souci (dans « la commune de Paris », il n’est pas forcément évident de repérer l’item et le snak).]
[La traduction à partir de pose sans doute moins de soucis. Il s’agit de transporter les statements stockés par Wikidata dans une langue naturelle, en recourant aux tournures usuelles employées, par exemple, pour énoncer la population d’une ville. On mesure tout de suite l’importance de ce type de génération textuelle pour les petits wikis, qui ne disposent pas d’une communauté suffisamment importante pour recueillir manuellement certaines informations essentielles. Dans une hypothétique Wikipédia syldave on pourrait ainsi retrouver :]
[Sous réserve de réaliser toutes ses promesses, Wikidata peut avoir une certaine incidence sur la dissémination du savoir en France. Le développement des wikipédias en langues régionales ou dans les langues d’outre-mer (Wikimédia France s’était dernièrement beaucoup investit dessus) ne pourra qu’en être facilité.]