Skip to content

Het probleem van Linked Data

14/05/2008
tags:
De basis van het klassieke semantic web is de RDF triple. Manu Sporny legt in dit filmpje uit hoe dat in elkaar zit. Binnen de triple worden object en subject uniek geidentificeerd door een URI. Dat is handig, want op die manier kan een entiteit -bijvoorbeeld een persoon- uniek geidentificeerd worden. Via RDF triples kan die entiteit/persoon allerlei eigenschappen en relaties hebben (zie figuur).

Uit de figuur blijkt dat Vincent D’Onofrio zowel in “The thirteenth floor” als “Law & Order criminal intent” gespeeld heeft.  Hebben we het nu in een willekeurige website over deze acteur dan kunnen we dankzij RDF onmiddellijk laten zien waarin hij gespeeld heeft. We kunnen zelfs andere acteurs van Law & Order gemakkelijk ophalen. Kortom, één persoon levert een enorme hoeveelheid aan gerelateerde informatie op door RDF koppelingen.

Dat is natuurlijk prachtig, maar helaas treedt in de praktijk snel vervuiling van URI’s op. Hierdoor zijn entiteiten niet meer uniek geidentificeerd.

  • Entiteiten die hetzelfde betekenen zullen vaak worden geidentificeerd door verschillenden uri’s. Stel in het voorbeeld dat de d’Onofrio die meespeelde in ”The thirteenth floor” gekoppeld is aan een andere URI als de D’Onofrio die meedeed in “Law & Order”. Er is dan dus niet meer vast te stellen dat D’Onofrio in beide producties meespeelde.
  • Aan de andere kant zullen entiteiten met een verschillende betekenis door één en dezelfde uri geidentificeerd worden. In dat geval is er een D’Onofrio die helemaal geen acteur is toch gekoppeld aan de URI van de acteur D’Onofrio. 

Beide vervuilingen staan bekend onder de naam co-reference. De Linked Data community probeert hiervoor oplossingen te vinden.

Hoe kan co-reference worden opgelost?

  1. Als vastgesteld wordt dat 2 entiteiten die geidentificeerd zijn door verschillende URI’s in feite hetzelfde zijn, dan kan de onthology owl:sameAs gebruikt worden om dat aan te geven. Als twee entiteiten verbonden zijn door sameAs, dan zijn ze semantisch identiek. Helaas worden vaak ook entiteiten op die manier aan elkaar geknoopt die toch niet gelijk zijn.
  2. Een andere mogelijkheid is het bundelen van resources door een Consistent Reference Service (CRS). Die kan alle entiteiten die bij elkaar lijken te horen bundelen. Deze kunnen door algorithmen in de CRS vergeleken worden met andere bundels van entiteiten. Wellicht kan dan vastgesteld worden of ze dezelfde entiteiten beschrijven (Jaffri et al, 2008).
  3. Een derde optie is de oprichting van een ENS (Entity Name System) voor URI’s (Bouquet, Stoermer et al, 2008). Je kunt een ENS goed vergelijken met het DNS dat nu gebruikt wordt voor de registratie van domeinnamen. Het idee is simpel: leg een entiteit uniek vast in het ENS. Hierdoor is wereldwijd bekend welke betekenis een entiteit heeft. Alleen kun je natuurlijk niet (zoals dat nu wel met domeinnamen in het DNS gebeurt) entiteiten handmatig beheren. Dat zijn er simpelweg veel te veel. Kortom, dat moet automatisch gebeuren. Daarmee ontstaan ook de eerste moeilijkheden: hoe bepaal je namelijk of een entiteit die je aanmeldt wellicht als eerder in de ENS is opgeslagen onder een andere naam? Trouwens, alleen het zoeken naar een entiteit binnen het ENS-netwerk (de ENS servers zijn net als DNS servers gedistribueerd) kost enorm veel tijd. Je kunt immers veel meer entiteiten verzinnen dan domeinnamen. Bovendien zijn entiteiten niet als domeinnamen hierarchisch georganiseerd (domeinnamen zijn gerangschikt op landcode). Als laatste is er nog een organisatorisch probleem: hoe zorg je er voor dat applicaties van het ENS gebruik gaan maken?
Advertenties
No comments yet

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s