vendredi 22 juin 2012

Où en est Wikidata ?

Ça fait quelque temps que je me dis que je devrais faire un truc sur Wikidata. Je m’étais un peu impliqué dans les questions relatives aux traitements de données encyclopédiques en début d’année. J'avais d'ailleurs commencé à rédiger un billet sur le sujet en mars, sans avoir eu le temps de le terminer. Vu que quasiment toutes les informations qu'il contient ont été médiatisées, je préfère aborder le sujet par un autre biais.

Le projet Wikidata a pas mal progressé depuis son lancement. On trouve sur le site pas mal de précisions intéressantes, qui n’ont pas forcément été relayés en français.

A mon avis, la page la plus intéressante concerne la définition du Data model, soit le mode de présentation des données. Cette définition n’est pas d’ordre technique, mais d’ordre épistémologique et intéresse à mon avis directement les contributeurs de Wikipédia, indépendamment de leurs compétences informatiques. Je ne m’en tiendrai ici qu’à la définition relativement simple présentée dans l’Overview. Il va sans dire que, concrètement, les choses sont beaucoup plus complexes — je m’excuse par avance si je simplifie à outrance les procédés réellement utilisés.

La grammaire wikidatienne repose sur une vision dénotative du langage. En lieu et place des mots, on trouve des items, soit des symboles purement référentiels. On donne ainsi pour exemple la ville de Berlin qui renvoie sans ambiguïté possible à une entité humaine unique, correspondant à un territoire strictement défini. Toutes les mots n’ont malheureusement pas la même portée référentielle. Outre, les homonymes, il y a aussi les termes et concepts flottants, généralement difficiles à traduire d’une langue à l’autre. Créer un item à partir de socialisme ou de culture risque de poser quelques difficultés.

A chaque item correspond une liste de statements. Chaque statement prétend reproduire un état de la réalité, au sens où l’entendait Wittgenstein.
La proposition construit un monde au moyen d'un échafaudage logique, et c'est pourquoi l'on peut voir dans la proposition, quand elle est vraie, ce qu'il en est de tout ce qui est logique. On peut d'une proposition fausse tirer des inférences (Tractatus Logico-Philosophicus, 4.023)
Le Statement se décompose en valeur (value) et en propriété (property). La value exprime « un nombre, une date, des coordonnées géographiques et plein d’autres choses ». Elle donne une indication de mesure qui permet de cerner une proportionnalité (x=n) ou une situation (x se trouve sur n). Chaque valeur est rattachée à une propriété. Cette dernière spécifie une qualité de l’item. Ainsi, sous l’item Berlin, on trouve la propriété population, à laquelle correspond la valeur 3 499 879.

Jusqu’ici les choses sont relativement simples. Les relations entre les trois signes fondamentaux permettent d’emblée d’exprimer certains énoncés relativement simples. Avec item=Berlin, property=population et value=3 499 879, on peut générer une phrase comme « Berlin compte 3 499 879 habitants ».

Là où ça se complique un peu, c’est que nos trois signes se combinent pour former de nouveaux signes. Le lien entre propriétés et valeur s’exprime au travers d’un datatype. A côté de la propriété population, on trouverait ainsi un datatype=people. Le datatype assure ainsi une fonction d’appariement : il permet d’éviter de mêler indistinctement la population de Berlin avec les coordonnées géographiques de Paris.

En outre, les propriétés ne comportent pas obligatoirement de valeurs. Le cas échéant, elles constituent des snaks, soient de simples qualifications qui améliorent la précisions des énoncés. A partir du snak commune ou cité, on génère ainsi des phrases comme : « la ville de Berlin compte 3 499 879 habitants ». On évite ainsi les confusions entre ville et agglomération urbaine.

Arbre des Snaks sur Wikidata (CC/BY/SA : http://meta.wikimedia.org/wiki/Wikidata/Data_model#Snak)
Ces données n’échappent bien entendu aux principales règles encyclopédiques. Suivant en cela les prescriptions de la Neutralité de point-de-vue, elles seront référencées à partir d’un champ intitulé ReferenceRecord.

Ces combinaisons syntaxiques permettent de produire des énoncés considérablement plus complexe. Rien ne s’oppose ainsi à ce que la phrase suivante, présente dans le résumé introductif de l’article Paris, ne soit généré par Wikidata :

Ici, Paris figure l’item. Le recensement de l’Insee et la note de bas-de-page qui l’accompagne sont du ressort du ReferenceRecord. La date (1er janvier 2009) et la population (2,2 millions d’habitants) résultent d’autant de combinaisons propriété-valeur. Enfin, la précision « commune de » constitue un snak.

Comme toute logique formelle, cette grammaire wikidatienne est universellement traduisible. Pour reprendre à nouveau Wittgenstein :
La traduction d'une langue dans une autre ne se produit pas par la traduction d'une proposition de l'une dans une proposition de l'autre ; seuls sont traduits les constituants de la proposition (Tractatus Logico-Philosophicus, 4.025)
Le transfert peut ainsi fonctionner dans les deux sens : traduction vers, et traduction à partir de. Concrètement, la phrase citée plus haut de l’article Paris est aspirée par la base de donnée. Chacun de ces composants reçoit une affectation sur Wikidata. Ce transfert devrait se passer sans encombre pour les énoncés déjà intégré dans un modèle — il va sans dire que tout ce qui se trouve dans un modèle débarque ipso facto dans ReferenceRecord. Par contre, la transcription des énoncés nus devraient peut-être poser un peu plus de souci (dans « la commune de Paris », il n’est pas forcément évident de repérer l’item et le snak).

La traduction à partir de pose sans doute moins de soucis. Il s’agit de transporter les statements stockés par Wikidata dans une langue naturelle, en recourant aux tournures usuelles employées, par exemple, pour énoncer la population d’une ville. On mesure tout de suite l’importance de ce type de génération textuelle pour les petits wikis, qui ne disposent pas d’une communauté suffisamment importante pour recueillir manuellement certaines informations essentielles. Dans une hypothétique Wikipédia syldave on pourrait ainsi retrouver :

Sous réserve de réaliser toutes ses promesses, Wikidata peut avoir une certaine incidence sur la dissémination du savoir en France. Le développement des wikipédias en langues régionales ou dans les langues d’outre-mer (Wikimédia France s’était dernièrement beaucoup investit dessus) ne pourra qu’en être facilité.


3 commentaires:

Ælfgar / Meneldur a dit…

À propos des phrases générées automatiquement, le sujet a été abordé récemment sur le Bistro par Fugace, à propos d'infoboîtes qui généraient aussi la phrase d'intro de leur article. Le sondage créé peu après a montré que la communauté était plutôt contre. Je n'ai pas suivi ce sondage, mais apparemment ça a (logiquement) pas mal parlé de WD aussi.

Alexander Doria a dit…

@Ælfgar : Oui, j'avais un peu suivi cette affaire. Il y a néanmoins, à mon avis, une grande différence entre les modèles proposés au sondage et wikidata : le contenu généré reste éditable dans la fenêtre de modification. Wikidata effectue en effet un transfert de ses données : on devrait pouvoir les modifier directement dans le wiki concerné.

Après, pour l'instant, l'expérience wikidata se limitera sans doute aux petits wikis, qui ont grand besoin d'un contenu automatiquement généré pour colmater les brèches. Vu la taille importante de la communauté francophone, l'apport de wikidata sera sans doute limité dans un premier temps.

JCB a dit…

Là où Wikidata pourrait être vraiment utile sur WP:fr, ce sont les infoboxs, qui pourraient être presque générées entièrement automatiquement, contenu compris, en tout cas pour certains domaines (objets célestes etc..)

Ce cas ne rentre pas dans la discussion sus-citée, donc les espoirs sont permis.