De ontsluiting omvat alle activiteiten en technieken waarmee de gedigitaliseerde bronnen vindbaar en toegankelijk gemaakt worden voor de (interne) gebruiker. De wensen van de toekomstige eindgebruikers (wetenschappers) van de Databank Digitale Dagbladen zijn geïnventariseerd door Digital Archiving and Networked Services (DANS) en beschreven in het Eindrapport (pdf). De uitkomst van deze inventarisatie dient als leidraad voor het ontsluiten van het materiaal in de Databank.
Voor de ontsluiting worden indexen gemaakt van:
- De volledige tekst, zodat op ieder woord in de tekst kan worden gezocht.
- De beschrijvende metagegevens, zodat gezocht kan worden op bijvoorbeeld de titel van de krant, de datum en de kop van een artikel.
De beschrijvende metagegevens bevatten:
- Per krantentitel: de titel, de jaargangen waarin de krantentitel is verschenen, de voorgangers en opvolgers van de krantentitel, geografische informatie over waar de krant verschenen is en de rechten.
- Per uitgave (nummer van een krant): de datum en de editie.
- Per pagina: paginanummer.
- Per artikel: kop en het soort artikel.
Voor het ontsluiten van collecties werkt de Koninklijke Bibliotheek met een vaste infrastructuur. Deze infrastructuur sluit aan bij open standaarden en beproefde werkwijzen:
- Voor de beschrijvende metagegevens wordt Dublin Core . Eigen elementen kunnen nodig zijn als de specifieke metagegevens niet in Dublin Core voor komen. De beschrijvende metagegevens worden in XML-formaat opgeslagen.
- Voor de structurele metagegevens wordt MPEG21-DIDL gebruikt. Deze metagegevens leggen de hiërarchische relaties vast, die binnen het materiaal aanwezig zijn: zo bestaat een nummer van een krant uit pagina's en iedere pagina bestaat uit artikelen. In MPEG21-DIDL wordt eveneens vastgelegd welke bestanden hier bij betrokken zijn (afbeeldingen en tekstbestanden).
- De opmaak van een pagina (de verschillende zones, zoals plaatje, kolom, kop ect.) wordt met behulp van de segmenteringsstandaard ALTO opgeslagen.
- Alle bestanden zullen met persistente URL's benaderbaar zijn. Dat wil zeggen dat de URL niet verandert als de fysieke opslagplaats van het bestand wijzigt. Voor deze persistente URL's wordt gebruik gemaakt van een resolver , die iedere URL vertaalt naar de fysieke bestandslocatie en het opgevraagde bestand doorstuurt naar de gebruiker.
- Het indexeren van de fulltext en van de beschrijvende metagegevens gaat met behulp van een K2-zoekmachine van Verity.
- Zoekvragen vanuit een webapplicatie worden niet rechtstreeks op de Verity-indexen gedaan. Hiervoor wordt gebruik gemaakt van het SRU-protocol, waarmee zoekvragen op gestandaardiseerde wijze in een URL kunnen worden opgenomen.
Verbeteren doorzoekbaarheid
OCR-technieken voor historisch krantenmateriaal zijn nog volop in ontwikkeling. Het pilotproject ‘Historische kranten in beeld’ leverde een woord accuratesse op van 60-70% 1. De verwachting is dat de resultaten met dagbladen uit de 17e en 18e eeuw slechter zullen zijn vanwege de slechte kwaliteit van het materiaal, andere fonts en historische spelling 2. De grote hoeveelheid bestanden maakt handmatige correctie van de tekst onhaalbaar. Er zullen daarom vooral automatische bewerkingen moeten worden toegepast.
Met twee externe partners, Irion en de Universiteit Tilburg, doet de Koninklijke Bibliotheek onderzoek naar methoden en technieken om de OCR-resultaten van historische teksten te verbeteren3. Onderzocht wordt hoe de OCR kan worden verbeterd door de input van historische lexicons. Daarnaast worden technieken voor automatische classificatie en het automatisch genereren van samenvattingen onderzocht. Thesauri, synoniemenlijsten, en spellingscorrecties kunnen de doorzoekbaarheid van de oorspronkelijke OCR verhogen. Wel geldt als ongeschreven regel dat slechte machineleesbare tekst maar in beperkte mate ‘intelligenter’ kan worden gemaakt 1.
1. A. Verheusen en R. Zaat, ‘Tekstretrieval in krantencollecties’ in: Informatie Professional (2004), 11. URL: <http://igitur-archive.library.uu.nl/DARLIN/2005-0526-202104/VerheusenIP112004.pdf>
2. Over 17e eeuwse kranten, zie: R. Vos, ‘Oudste kranten vind je nu ook in Nederland’ in: Persmuseum Nieuws 3 juni 2003, URL: <http://www.persmuseum.nl/pdf/PM3.pdf>
3. Irion (URL: <http://www.irion.nl/>) en het ILK (Induction of Linguistic Knowledge, Universiteit Tilburg, URL: < http://ilk.uvt.nl/ >)