Thema 3: Ontsluiten en delen

Naast het duurzaam bewaren van onze collecties, willen we deze ook optimaal beschikbaar maken voor onze klanten. Het gaat dan om het verbeteren van de kwaliteit van digitale content (opdat de computer die kan interpreteren), om het creëren van metadata, om het verrijken van de content én om het verspreiden ervan.

Hoe verbeteren we de kwaliteit van onze digitale content?

De computer is in staat om met behulp van optische karakter en lay-out herkenning (ocr en olr) scans van krantenartikelen te lezen. We richten ons nu op deep learning-technieken om onze ocr te verbeteren, zodat de computer kan worden getraind om eigen fouten te herkennen en verbeteren.

Hoe creëren we (semi-)automatische metadata om content slimmer en rijker te beschrijven?

Met technieken uit de kunstmatige intelligentie zoals taaltechnologie en beeldherkenning zijn onze computers steeds beter in staat om teksten te interpreteren. Zo kunnen zij inmiddels personages en genres van een publicatie identificeren en toevoegen aan de metadata bij die publicatie. Deze data bieden een enorm potentieel omdat we daarmee in staat zijn onze klanten in de toekomst nog beter te helpen met het vinden van de content waarin zij interesse hebben. Op dit moment herkent en interpreteert de computer nog op basis van aanwijzingen van onze mensen, maar de volgende stap is dat hij dat uit zichzelf doet en aanbevelingen kan gaan doen. Daarnaast kunnen we met behulp van beeldherkenning personen, voorwerpen en onderwerpen op afbeeldingen herkennen. Met slechtere kwaliteit scans is dat echter een stuk lastiger omdat deze een veel lagere resolutie hebben.

Hoe kunnen we onze content slimmer ontsluiten met de hulp van burgerwetenschappers?

Met het inzetten van publiek (‘burgerwetenschappers’) om de computer te trainen zijn grote stappen gezet. Maar met data met een omvang als die van ons, moet het nóg slimmer: de computer moet als het ware een zetje krijgen om menselijke taken te kunnen overnemen. Handschriftherkenning bijvoorbeeld, is bij ons nog altijd mensenwerk. We hebben heel veel goed gedigitaliseerde manuscripten en veel experts, zoals handschriftdeskundigen van middeleeuwse handschriften. Hoe kunnen we experts en het publiek inzetten om dergelijke bronnen nog slimmer te ontsluiten?

Hoe kunnen we collecties verder verrijken, met elkaar verbinden en in samenhang presenteren aan onze klanten?

Vergaande ontwikkelingen van het semantisch web, linked data en kennisdatabases zoals wikipedia bieden de mogelijkheid om entiteiten (zoals personen, locaties en gebouwen) in de digitale content te identificeren en verrijken, zodat de gebruiker zo snel mogelijk alle informatie vindt die hij zoekt. Dit kan door tussenstappen in te voegen en zo de vraag van de gebruiker te kanaliseren. Vervolgens willen we hem dan een zo compleet mogelijk antwoord bieden door (de data uit) verschillende collecties met elkaar te verbinden. Dit alles op een dusdanige manier dat als wij verbeteringen doorvoeren, deze onmiddellijk beschikbaar komen voor onze klanten.

Op welke platforms kan digitale content worden verspreid?

Via welke media en platforms communiceren we over twintig jaar? Welke ontwikkelingen signaleren en vermoeden we en hoe kunnen we daarop anticiperen zodat we in staat zijn om onze content ook aan te kunnen aanbieden op de consumentenplatforms van de toekomst?

Lees verder