[Devoxx FR 2012] – Linked Data : Big Data at Web scale

Cette conférence, animée par Alexandre Bertails, le frenchie du W3C et évangéliste du Web Sémantique, a été l’occasion de faire le point sur le Linked Data. Le Linked Data est le terme décrivant la tendance actuelle consistant à exposer et lier ses données sur le Web. Il s’agit d’une évolution majeure (et silencieuse) répondant aux limitations de plus en plus visibles du Web de Documents.

Pour bien comprendre l’intérêt du Linked Data, il faut se rappeler la nature du Web. Le Web se compose des 3 technologies suivantes :

  • le langage HTML qui permet de décrire un document et de formaliser les hyperliens
  • le protocole HTTP qui fournit un moyen d’échanger un document
  • le mécanisme des URI qui permet d’identifier un document

Dans ce modèle, la notion de données ne se distingue pas de la notion de document. Les fonctions de recherche proposées par les moteurs de recherche se basent donc principalement sur des technologies d’indexation des documents basés sur les termes et les hyperliens. En clair, il s’agit d’une réponse sous optimale au besoin de recherche d’information de l’utilisateur. Cette limitation est cependant imposée par le Web de Document. Pour aller plus loin, il faut trouver un moyen de formaliser les données sur le Web. Le Linked Data propose une solution très simple : il suffit de tagger et poser des métadonnées dans les pages HTML existantes.

Alexandre donne alors l’exemple du site Web marchand BestBuy.com. En utilisant le vocabulaire de metadonnées Good Relations qui permet de décrire un catalogue et qui est compris par les principaux moteurs de recherche, le trafic du site a augmenté de manière significative. En exposant et en organisant l’information, BestBuy.com s’est donc assuré une meilleure visibilité sur le Web. Les grands du Web (Google, Yahoo et Microsoft) se sont d’ailleurs emparés de la question en proposant schema.org, un vocabulaire de metadonnées qui est compris par les moteurs de recherches.

Il existe différentes façons d’insérer des metadonnées dans ses pages :

  • RDFa, qui est porté par le W3C
  • Microdata, qui est une fonctionnalité HTML5
  • Microformat, qui correspond a une convention d’écriture dans les pages HTML

Elles disposent chacune de leurs avantages et inconvénients. Nous ne nous sommes cependant pas attardé sur ce point.

Alexandre poursuit alors en nous parlant des langages RDF (Resource Description Framework) et SPARQL (SPARQL Protocol and RDF Query Language) et qui constituent les fondations du Linked Data. RDF est un modèle très simple basé sur le paradigme sujet-verbe-complément (ou sujet-prédicat-objet). Selon ce paradigme, il est possible de construire des graphes de connaissances en liant les ressources les unes aux autres. Ce modèle est très flexible et permet de compléter simplement un graphe en y ajoutant ses propres triplets sujet-predicat-objet. Le Linked Data n’est autre qu’un immense graphe RDF comprenant l’ensemble des ressources (RDF) du Web.

http://linkeddata.org/

http://linkeddata.org/

Le SPARQL permet quant à lui d’effectuer des requêtes sur des graphes RDF dans un langage très proche du SQL. Alexandre illustre alors son propos en utilisant DBPedia. DBPedia est un graphe RDF constitué à partir des infoboxes de Wikipedia. Il est possible d’accéder aux informations de ce graphe à travers le langage SPARQL. Ainsi, la requête SPARQL suivante permet de récupérer les animaux déclarés dans le graphe RDF de DBPedia (qui disposent d’une infobox dans Wikipedia) :

select distinct ?animal where {?animal a <http://dbpedia.org/ontology/Animal>
} LIMIT 10

animal
http://dbpedia.org/resource/Alabama_Beach_Mouse
http://dbpedia.org/resource/Alabama_red-bellied_turtle
http://dbpedia.org/resource/Alamosa_springsnail
http://dbpedia.org/resource/Ant
http://dbpedia.org/resource/Ape
http://dbpedia.org/resource/Nerodia_clarkii
http://dbpedia.org/resource/Baleen_whale
http://dbpedia.org/resource/Bat
http://dbpedia.org/resource/Bayou_darter
http://dbpedia.org/resource/Bear

Avec l’extension SPARQL Update, il est également possible de modifier un graphe RDF. Alexandre nous parle alors d’un CRUD REST appelé ReadWriteWeb et développé par le W3C. Cet API permet de lire et de modifier des ressources RDF sans passer par la couche SPARQL. Il s’agit de proposer une interface accessible, très proche du Web, sans forcément amener les raffinements que SPARQL propose.

Alexandre aborde alors un aspect très intéressant du Linked Data : l’identification et l’authentification. A travers le protocole WebId, basé sur le vocabulaire de metadonnées FOAF (Friend of a Friend) et SSL, il est possible d’identifier quelqu’un de façon univoque. Il devient alors tout à fait possible de publier son identité numérique sur n’importe quel serveur Web (indépendamment d’un quelconque fournisseur de réseau social). Il est également possible d’identifier les amis des amis d’une personne et de leur accorder (ou non) l’accès à une ressource donnée.

http://www.w3.org/wiki/WebID

Après avoir présenté les avancées amenées par le Linked Data, Alexandre termine sa présentation en présentant un schéma pour la publication de ses ressources dans le Linked Data. Ce schéma fonctionne comme les hotels et les campings, il s’agit d’un système d’évaluation par étoiles :

  • 1 étoile : vous publiez vos ressources sur le web
  • 2 étoiles : ces ressources sont structurées et exploitables par une machine
  • 3 étoiles : le format utilisé pour structurer les ressources est non-propriétaire
  • 4 étoiles : les ressources sont identifiées par des URI
  • 5 étoiles : vous utilisez les ressources publiées par des tiers et vous vous insérez dans le Linked Data

Nombre de vue : 54

AJOUTER UN COMMENTAIRE