Na de selectie volgt een uitgebreide materiaalanalyse waarbij instructie voor het digitaliseren worden gemaakt. Binnen de Koninklijke Bibliotheek wordt hiervoor een productiestraat ingericht om procesmatig grote hoeveelheden dagbladen voor te bereiden voor digitalisering. Vervolgens wordt het materiaal gedigitaliseerd; van alle pagina’s worden images, tekstbestanden en metagegevens vervaardigd. Bij grote projecten wordt het digitaliseren altijd uitbesteed.

Bij de materiaalanalyse en digitalisering spelen veel onzekere factoren een rol; sommige dagbladen mogen de bibliotheek niet verlaten, anderen zijn verspreid bewaard over verschillende Europese instellingen en fragmentarisch beschikbaar. Weer andere kranten zullen vanwege hun conditie veel voorbewerking vereisen. Het is op dit moment niet duidelijk hoeveel er op locatie of extern zal worden gedigitaliseerd.

Het originele materiaal

De kwaliteit van de digitale bestanden is niet alleen afhankelijk van de kwaliteit waarmee wordt gedigitaliseerd. De kwaliteit hangt ook af van de conditie van de oorspronkelijke krant. Originele kranten zijn soms slecht gedrukt (bijvoorbeeld doordrukken van de inkt, ‘bleeding ink’, vlekkerig, gescheurd, etc.

Sommige kranten in verzamelbanden zijn zo strak in de kneep gebonden dat het moeilijk is de afzonderlijke pagina’s goed in te scannen. Zowel bij digitalisering vanaf het origineel als vanaf de microfilm kunnen deze problemen zich voordoen. In het geval van microfilm kan de conditie van de filmdrager de kwaliteit ook nog beïnvloeden.

Origineel versus microfilm

De kranten worden vanaf het origineel of vanaf microfilm gedigitaliseerd. Van alle Nederlandse dagbladen die in de periode 1618-1995 zijn verschenen, is volgens een schatting - op basis van gegevens uit het Gemeenschappelijk Geautomatiseerd Catalogussysteem en Metamorfoze- circa 20% beschikbaar op microfilm. De kwaliteit van deze microfilms is wisselend. Het digitaliseren vanaf microfilm is sneller én goedkoper, maar levert over het algemeen kwalitatief minder goede digitale bestanden dan bij digitalisering vanaf origineel.
In de Koninklijke Bibliotheek is een onderzoek gaande naar de mate van geschiktheid voor digitalisering en OCR van verschillende typen microfilms. De resultaten van dit onderzoek worden in een later stadium op deze pagina beschikbaar gesteld.

Digitalisering en OCR

Elke pagina levert op:

  • één master beeldbestand;
  • één of meerdere afgeleide bestanden;
  • meerdere machineleesbare tekstbestanden van de pagina;
  • beschrijvende metadata zoals titel en datum;
  • technische metadata over de totstandkoming van de digitale bestanden;
  • structurele metadata over de indeling van de krant en de pagina.

Onder digitaliseren verstaan we niet alleen het scannen van het materiaal maar ook het omzetten van beeldbestanden naar machineleesbare tekst door middel van optische tekenherkenning (Optical Character Recognition; OCR). Hoe beter de beeldbestanden van de krantenpagina’s, des te succesvoller de OCR. De machineleesbare tekst vormt de basis van het project. Een goed OCR-resultaat verhoogt de toegankelijkheid van de collectie. Het is daarom belangrijk hier veel aandacht aan te besteden.

Specificaties voor beeldbestanden

De kwaliteit van beeldbestanden wordt bepaald door de mate waarin een scan een getrouwe weergave is van het origineel. Om de kwaliteit te bepalen, spelen verschillende factoren een rol zoals bitdiepte, resolutie, opslagformaat en compressie. In het project wordt gestreefd naar meetbare en ‘objectieve’ kwaliteitsnormen. Kwaliteitsmanagers controleren de beeldbestanden systematisch en in overleg met de leveranciers worden afspraken gemaakt over de optimale afstemming van de apparatuur en software.

In de Databank Digitale Dagbladen wordt onderscheid gemaakt tussen twee soorten beeldbestanden: masterbestanden en afgeleide bestanden. De masterbestanden vormen de basis voor alle verdere bewerkingen. Afgeleide bestanden zijn nodig voor presentatie op het Internet en als ‘intermediair’ voor de verbetering van de OCR.

De specificaties voor de masterbestanden en de afgeleiden worden opgenomen in het bestek ten behoeve van de Europese aanbesteding voor digitalisering en OCR dat in september 2007 wordt gepubliceerd. Het bestek wordt dan ook op deze pagina beschikbaar gesteld.

Lay-out analyse

De machineleesbare tekst zal net als de metadata worden aangeleverd in XML. De relatie tussen de verschillende bestanden wordt vastgelegd in een concordantietabel. Het identificeren van krantenkoppen, artikelen en andere ‘eenheden’ op een krantenpagina vindt plaats door middel van een lay-out analyse. De afzonderlijke elementen zoals bijvoorbeeld tekstblokken, plaatjes en horizontale/verticale lijnen worden geregistreerd. Door vervolgens de afzonderlijke tekstblokken te OCR’en en de inhoud te analyseren, worden verschillende segmenten onderscheiden; artikelen, advertenties, onderschriften, et cetera. Door de coördinaten van woorden en eventueel afzonderlijke tekens te registreren, kunnen zoektermen in een plaatje worden gemarkeerd (‘hitterm highlighting’).

Met gesegmenteerde krantenpagina’s kan een collectie op artikelniveau doorzoekbaar worden gemaakt, terwijl de opslag van de data op paginaniveau gehandhaafd blijft. Het controleren van de lay-outanalyse, maar ook het samenvoegen van artikelen die verspreid zijn over verschillende pagina’s, zijn belangrijke maar ook arbeidsintensieve onderdelen van het proces.’