Werkwijze

Digitaliseren

De KB besteedt het digitaliseren van de oude tijdschriften uit aan Karmac Microfilm Systems b.v. Karmac maakt beeldbestanden van alle pagina’s door deze één voor één te scannen. Dit gebeurt op speciaal aangepaste scanapparaten. Alle bladzijden worden handmatig omgeslagen. Hierdoor wordt beschadiging van de oude originele tijdschriften zoveel mogelijk voorkomen. Als de pagina’s omgezet zijn in beeldbestanden begint een nieuwe fase van het digitaliseringsproces. De gehele inhoud van de pagina’s wordt omgezet naar tekstbestanden met behulp van optical character recognition (OCR). Op deze manier is het mogelijk de tijdschriften op naam en op trefwoord te doorzoeken. Om het beeldmateriaal en de tekst goed te kunnen ontsluiten moet tijdens het scanproces ook beschrijvende metadata worden verzameld. Dit zijn bijvoorbeeld tijdschrifttitels, publicatatiedata en metadata over de structuur, zoals de volgorde van de pagina’s.

Het originele materiaal

De kwaliteit van de uiteindelijke digitale beeld- en tekstbestanden is van een aantal factoren afhankelijk. Van de manier waarop wordt gedigitaliseerd, maar ook van de conditie van het oorspronkelijke tijdschrift. De geselecteerde tijdschriften zijn soms 200 jaar oud, en gedrukt op papier dat niet bedoeld was om lange tijd mee te gaan. Ook levert het gebruik van slechte drukinkt soms problemen op. Er zijn bijvoorbeeld tijdschriften geselecteerd die last hebben van doordrukken van de inkt, ‘bleeding ink’ en vlekkerige letters.

Specificaties voor beeldbestanden

De kwaliteit van de uiteindelijke beeldbestanden wordt bepaald door de mate waarin een scan een getrouwe weergave is van het origineel. Om de kwaliteit te bepalen, spelen verschillende factoren een rol. Bijvoorbeeld: bitdiepte, resolutie, opslagformaat en compressie. In dit project wordt gestreefd naar meetbare en ‘objectieve’ kwaliteitsnormen. Kwaliteitsmanagers ontroleren de beeldbestanden systematisch. In overleg met de leveranciers worden afspraken gemaakt over de optimale afstemming van de apparatuur en software.

Lay-out analyse, OCR en ALTO

Om van een beeldbestand een machineleesbare tekst te maken moet er eerst lay-out analyse worden toegepast op het beeldbestand van een pagina. Hierdoor wordt onder meer vastgesteld waar op de pagina zich tekstblokken, tekstregels, individuele woorden en individuele karakters bevinden. Vervolgens worden de karakters en woorden omgezet in machineleesbare tekst. Het resultaat hiervan bevat zowel tekst- als lay-out informatie en wordt vastgelegd in ALTO, een standaard XML-formaat.

Kwaliteitscontroles

De KB besteedt het proces van het maken van de beeldbestanden en OCR uit. Omdat er voor het maken van de beeldbestanden en OCR voor verschillende projecten met verschillende partijen wordt gewerkt is een aanleverstandaard voor al het digitale materiaal vastgesteld. Materiaal dat volgens deze standaard wordt aangeleverd kan direct in de bij de KB ontwikkelde omgeving worden geladen waar kwaliteits- en integriteits-controle op het aangeleverde materiaal worden uitgevoerd. De controles zijn gericht op de beeldkwaliteit van de images (uitgevoerd door kwaliteitsmanagers), de geldigheid van de XML-bestanden, de inhoudelijke correctheid van de metagegevens en de correcte samenhang tussen de verschillende bestanden. De controles worden deels geautomatiseerd en deels handmatig, via steekproeven, uitgevoerd.

Een materiaalvoorbereider bladert door _De vrijdagavond_. Alle bijzonderheden worden ingevoerd in een database.

Een materiaalvoorbereider bladert door De vrijdagavond. Alle bijzonderheden worden ingevoerd in een database.