De Hoofdafdeling Research & Development van de Koninklijke Bibliotheek doet onderzoek en ontwikkelt technieken en oplossingen die bij grootschalige digitaliseringsprojecten ingezet kunnen worden.
Tekstontsluiting
In het 'Onderzoekstraject Tekstontsluiting' is onderzocht hoe de ontsluiting van historisch tekstmateriaal verbeterd kan worden. Bij de grootschalige tekstdigitaliseringprojecten, zoals Staten-Generaal Digitaal (SGD), Databank Digitale Dagbladen (DDD) en Digitalisering Bijzondere Collecties (DBC) is de tekstontsluiting niet optimaal. De doorzoekbaarheid wordt belemmerd door de slechte tekenherkenning (bij historische teksten slechter dan bij moderne ) en door de aanwezige spellingsvarianten. Met meer geavanceerde technieken kunnen de zoekmogelijkheden worden uitgebreid.
In 2007 zijn drie pilot-projecten gestart met enkele veelbelovende technieken, met als doel de bruikbaarheid te onderzoeken voor historisch tekstmateriaal uit de KB-digitaliseringsprojecten.
De drie pilot-projecten zijn:
- Herkennen van spellingsvariatie en OCR-fouten, door Martin Reynaert van de onderzoeksgroep ILK, Universiteit Tilburg, en een demonstratie van de mogelijkheden door het INL (Instituut voor Nederlandse Lexicologie, Leiden).
- Automatische classificatie van teksten aan de hand van thesauri, door Irion Technologies, Delft.
- Automatisch genereren van samenvattingen, door Carp Technologies uit Enschede onder eindverantwoordelijkheid van Irion Technologies.
Tijdens dit traject is IMPACT gestart, een Europese project met als belangrijkste doelstelling het verbeteren van de OCR-technologie voor historische teksten. Voor een deel overlappen de werkzaamheden van IMPACT met die van de pilots. Daarom is het beoogde resultaat van IMPACT bij de evaluatie van de resultaten in dit verslag betrokken.
Hieronder volgen de belangrijkste conclusies van het Onderzoekstraject Tekstontsluiting:
- De meeste winst is behaald bij het project 'herkennen van spellingsvariatie en OCR-fouten'. De in de pilot ontwikkelde aanpak biedt een uitstekende basis om de vindbaarheid van woorden sterk te verbeteren. Deze techniek is in principe bruikbaar voor alle collecties (taal- en periodeonafhankelijk). Inmiddels is een vervolgtraject gestart, waarin deze techniek binnen de technische infrastructuur van de KB wordt geïmplementeerd.
- Voor de inzet van automatische classificatie van teksten aan de hand van thesauri, moet per project de bruikbaarheid worden beoordeeld. De meerwaarde moet worden afgewogen tegen de verwachte inspanning.
- Het automatische genereren van samenvattingen is als een service aan te bieden. De KB zal deze mogelijkheid verder onderzoeken en mogelijk in een vervolgtraject implementeren.
- Gebruikerspanels zijn belangrijk bij de besluitvorming over het toepassen van tekstontsluitingstechnieken. Dit geldt met name voor de mogelijkheden van samenvattingen en van classificatie.
- Er moet rekening worden gehouden met het IMPACT-project, dat naar verwachting na twee jaar sterk verbeterde OCR-technologie oplevert. Veel van de huidige problemen met de tekenherkenning in historisch tekstmateriaal, zullen dan tot het verleden behoren.
- Gericht op de langere termijn kunnen meer geavanceerde technieken de doorzoekbaarheid van KB-tekstmateriaal nog verder verbeteren. De KB zal daarom de ontwikkelingen op dit gebied actief blijven volgen.
De uitgebreide informatie over het onderzoekstraject is te vinden in het Eindverslag Onderzoekstraject Tekstontsluiting (pdf).
Meer onderzoekstrajecten
Deze pagina is in ontwikkeling en wordt nog aangevuld met meer informatie over onderzoek en ontwikkeling.