De ontsluiting van materiaal ten behoeve van een optimale zoekfunctionaliteit voor de eindgebruiker richtte zich tot nu toe vooral op de kwaliteit van de metadata. Beschrijvende metadata bieden de mogelijkheid te zoeken op titel, auteur, datum, enz. Om full-text te kunnen zoeken in een grote hoeveelheid pagina’s zijn aanvullende oplossingen nodig. De digitale beeldbestanden moeten met behulp van software worden omgezet in computerleesbare tekst. De gebruikte term voor dit proces is Optical Character Recognition (OCR) of optische tekenherkenning.

Optical Character Recognition (OCR)

De kwaliteit van de OCR wordt onder andere bepaald door de kwaliteit van het beeldbestand, de kwaliteit van het bronmateriaal en door de spelling van de originele tekst. Vooral bij ouder materiaal zal maar een bepaald percentage van de letters door de OCR software goed herkend worden, waardoor full-text zoeken maar een beperkt resultaat oplevert. Ook tekst met historische spellingsvariatie bemoeilijkt de OCR. De OCR kan op verschillende manieren verbeterd worden, onder andere door oplossingen voor spellingsvarianten, door automatisch classificeren en door het samenvatten van teksten.

Een project dat uitgebreid onderzoek doet naar methoden die de OCR van historische teksten verbetert is IMPACT (IMProving ACces to Text).

Ontsluitingstechnieken

Als historische spellingsvariatianten herkend kunnen worden, kan een gebruiker zoeken op een woord in moderne spelling (“mens”) en resultaten vinden waar het woord in een oudere spellingvariant staat (“mensch”). Dit levert een aanzienlijke verbetering op van de doorzoekbaarheid van historische teksten.

Bij automatische classificatie gaat het om het automatisch indelen van een tekst in bepaalde, van te voren vastgestelde klassen (categorieën) die inhoudelijk, onderwerpsgericht zijn. Zo kunnen bijvoorbeeld krantenberichten geclassificeerd worden als politiek, sport, cultuur of als nieuwsbericht, familiebericht, advertentie e.d.

Door automatische samenvattingen te genereren kan de doorzoekbaarheid van collecties vergroot worden. Een gebruiker kan snel de inhoud van de tekst beoordelen, het vereenvoudigt het aanbrengen van classificaties en het kan de ranking van zoekresultaten verbeteren.

De technieken voor een betere ontsluiting zijn nog volop in ontwikkeling.

Lay-out pagina

Om een zoekresultaat te kunnen krijgen van een afzonderlijk artikel uit een krant, dat een onderdeel is van een of meerdere pagina's, moet de lay-out van een pagina gereconstrueerd worden. Hiervoor is de XML standaard ALTO ontwikkeld. Na segmentatie van de tekst in afzonderlijke onderdelen, door speciale software, kan de lay-out in ALTO worden vastgelegd. Met ALTO kan daarna de lay-out van een pagina worden gereconstrueerd en kunnen ook op ieder gewenst moment nieuwe afgeleiden, zoals PDF-bestanden, worden gemaakt. ALTO wordt internationaal veelvuldig toegepast in krantendigitalisering.