Verrijking van digitale content

Onderzoek naar het verbeteren van de zoek- en gebruiksmogelijkheden van onze digitale content is één van de kernactiviteiten van de afdeling Onderzoek van de KB. Eén van de manieren waarop we dat proberen te bereiken is door onze collecties te verrijken met geëxtraheerde of gerelateerde informatie, uit zowel interne als externe bronnen. Deze verrijkingen kunnen van velerlei aard zijn: van een afgeleid genre of sentiment tot geografische coördinaten of een gerelateerde video op het web. Onze huidige focus ligt bij het verrijken van de historische krantencollectie met gelinkte named entities, d.w.z. namen van personen, locaties en organisaties in de krantenartikelen die gelinkt zijn aan beschrijvingen in internationale kennisbanken zoals DBpedia, Wikidata en VIAF.

Verrijkingsinfrastructuur

We hebben een generieke verrijkingsinfrastructuur opgezet, bestaande uit een verrijkingsdatabase en een aantal services, waarin elk type verrijking van elk object uit de KB collecties opgeslagen kan worden, zonder de originele data wijzigen. Algemeen gesproken bevat de verrijkingsdatabase koppelingen tussen identifiers van objecten uit onze collecties en gerelateerde identifiers. In het geval van gelinkte named entities zijn er koppelingen van identifiers van krantenartikelen aan records die een entiteit representeren, waarin de ons bekende links naar beschrijvingen van die entiteit in een thesauri of kennisbanken gecombineerd worden. Indien voorhanden voegen we metadata over bijvoorbeeld herkomst en betrouwbaarheid van de links toe.

Het entity linking proces

Named entities worden automatisch herkend in artikelen met behulp van speciale software. Door deze namen te zoeken in een index gebaseerd op DBpedia dumps genereren we een verzameling potentiële links. Voor iedere kandidaat link wordt een aantal kenmerken vastgesteld op basis van eigenschappen van de naam zelf en uit contextinformatie, zoals geboortedatum en beroep. Een machine learning model dat getraind is op een verzameling handmatig geannoteerde artikelen selecteert vervolgens de beste link. Hoewel onze software inmiddels een nauwkeurigheid van 85% heeft, nodigen we gebruikers uit om resterende fouten te verbeteren en ontbrekende links toe te voegen. Deze gebruikersfeedback dient tevens als aanvullende trainingsdata voor de entity linking software.

Semantisch zoeken

Als een artikel wordt opgevraagd ten behoeven van indexeren of presentatie kunnen de bijbehorende verrijkingen worden opgevraagd uit de verrijkingsdatabase. Presentatiesoftware kan links naar de beschrijvingen bieden of relevante informatie uit die beschrijvingen, zoals een samenvatting of een afbeelding, tonen. Het samen met de krantenartikelen indexeren van de identifiers van erin herkende namen biedt nieuwe (semantische) zoekmogelijkheden. Gebruikers kunnen zo bijvoorbeeld artikelen zoeken met daarin entiteiten die bepaalde (combinaties van) eigenschappen bezitten, zoals artikelen over Romeinse keizers. Onze software haalt dan op de achtergrond de identifiers van entiteiten met de eigenschap een Romeinse keizer te zijn geweest uit Wikidata en gebruikt deze vervolgens bij een zoekactie in de verrijkte krantenindex.

Demonstratie

Om deze functionaliteit te demonstreren bieden we een online research portal, waarin gebruikers de beschikbare verrijkingen kunnen bekijken en kunnen experimenteren met semantisch zoeken in de krantenindex. De portal ondersteunt volledige SPARQL zoekopdrachten in Wikidata, maar biedt ook een aantal meer gebruikersvriendelijke mogelijkheden voor semantisch zoeken, bijvoorbeeld door een “best guess” SPARQL query te genereren op basis van een conventionele zoekopdracht. Er worden ook links naar extra services geboden, waaronder een pagina om per artikel verrijkingen te verwijderen en toe te voegen.

Theo van Veen en Juliette Lonij