Projectvoorstel in het kader van Metamorfoze2
Koninklijke Bibliotheek
Den Haag
Oktober 2001
1. Inleiding
De beste en meest geraadpleegde bron voor onderzoek naar aspecten uit het dagelijks
leven is de krant. Het papier waar kranten op zijn gedrukt is echter niet lang houdbaar.
Het beschikbaarstellen van kranten uit magazijnen van bibliotheken en archieven is
daarom slechts een beperkt aantal jaren mogelijk. Om de informatie voor de gebruikers
toch toegankelijk te houden is microverfilming al vele jaren praktijk bij kranten.
In het kader van Metamorfoze, het Nationaal Programma voor Conservering van
Bibliotheekmateriaal, worden Nederlandse dagbladen op microfilm gezet. De
voordelen van microfilm zijn dat de film een bewezen duurzame drager is en altijd een
exacte weergave van het origineel is. Microfilms worden
echter door gebruikers niet echt gewaardeerd doordat de benodigde microfilmreaders onhandig in gebruik zijn en geen plezierige beeldweergave hebben.
Sinds 1996 verschijnen er in toenemende mate nationale en regionale kranten op het Internet en op CD-ROM. Daarbij is zoeken op trefwoord en full-text vaak mogelijk. Deze faciliteiten vereenvoudigen het zoeken door de gebruikers en voegen een extra waarde toe aan de elektronische kranten ten opzichte van het gedrukte exemplaar. Het voordeel van digitale beschikbaarstelling is dat de toegang tot het krantenmateriaal niet langer aan tijd en plaats gebonden is. Oudere jaargangen van kranten zijn echter over het algemeen niet digitaal toegankelijk gemaakt.
Met het verfilmen en digitaliseren van microfilms van kranten kunnen de voordelen van beide werelden worden bereikt. De microfilm blijft de levensvaste drager voor de toekomst en de digitale versie maakt de gebruiker onafhankelijk van de beperkte functionaliteit van de microfilmreader een geeft hem betere mogelijkheden om informatie te zoeken en te bewerken.
2. Doelstelling
Dit project wordt uitgevoerd in het kader van Metamorfoze, het Nationaal Programma voor Conservering van Bibliotheekmateriaal. Het project beoogt het digitaliseren van microfilm van drie Nederlandse dagbladen uit de periode 1910-1919, het beschikbaarstellen van dit materiaal op het Internet en het ontsluiten van de inhoud door middel van indexering op trefwoord van belangrijkste informatie. Het zal gaan om circa 150.000 pagina's. Het project sluit aan bij het tussen november 1999 en augustus 2001 uitgevoerde project "The Roaring Twenties", waarin 10 jaargangen (1920-1929) van drie Nederlandse dagbladen (Nieuwe Rotterdamsche Courant, Het Vaderland en Het Centrum) zijn gedigitaliseerd en ontsloten via het Internet. Het onderhavige project is gebaseerd op de ervaringen die zijn opgedaan met The Roaring Twenties.
In principe wordt gekozen voor het digitaliseren van dezelfde kranten als bij het Roaring Twenties project. Hierover heeft overleg plaatsgevonden met prof. dr. J.M.H.J. Hemels, hoogleraar pers- en communicatiewetenschappen aan de Universiteit Amsterdam en tevens lid van de Beoordelingscommissie Metamorfoze.
Kranten lenen zich heel bij uitstek voor diachronisch onderzoek. Veranderingen in cultuur en samenleving kunnen door de tijd heen worden gevolgd. Het heeft daarom de voorkeur dezelfde bronnen over een langere periode beschikbaar te stellen en te ontsluiten boven meer bronnen uit eenzelfde periode te kiezen. De drie geselecteerde Nederlandse dagbladen het Vaderland, de NRC en het Centrum, bieden een representatief overzicht van de stromingen in de Nederlandse samenleving in deze periode; ze geven daarmee een brede maatschappelijke dekking.
Het Vaderland verscheen in 1869 voor het eerst. Het was succesvol als liberaal tegenwicht voor conservatieve kranten in de regio Den Haag en het kende een reeks van liberale politici als hoofdredacteur.
De Nieuwe Rotterdamse Courant werd opgericht in 1844 en werd in de tweede helft van de negentiende eeuw een belangrijk landelijk politiek orgaan van liberale snit.
Het Centrum was een krant van een katholieke signatuur. Bij de oprichting was het de derde katholieke krant naast de conservatieve De Maasbode en De Tijd. De krant werd landelijk van belang onder invloed van hoofdredacteur H.J.A.M. Schaepman.
Digitalisering van deze drie dagbladen over de periode 1910-1919 sluit aan bij de periode die reeds digitaal beschikbaar is. Het gaat om een interessante periode in de Europese en Vaderlandse geschiedenis. Berichtgeving in Nederlandse kranten over de Eerste Wereldoorlog en over de Russische Revolutie kan informatie opleveren over de wijze waarop in Nederland tegen deze Europese crisis werd aangekeken. De beeldvorming rond de interne sociale onrust in Nederland, culminerend in de "revolutie" van Troelstra in 1918 kan vanuit het perspectief van met name het liberale en confessionele gedachtengoed worden gevolgd.
In het algemeen stelt het in digitale vorm beschikbaarstellen van deze drie kranten uit de periode 1910-1930 onderzoekers in staat om de verslaglegging van dezelfde gebeurtenissen in een aantal landelijke dagbladen van verschillende politieke en maatschappelijke ideologie te vergelijken. Zo zal bijvoorbeeld het RK dagblad Het Centrum een andere weergave geven van gebeurtenissen dan het Vaderland of de Nieuwe Rotterdamse Courant. Naast de wetenschappers is er een grote groep algemeen historisch geïnteresseerden en scholieren uit het middelbaar onderwijs die bij digitale versies van deze kranten bijzonder veel baat zullen hebben
Een bijkomende factor voor de keuze van deze periode in plaats van een latere is de verwachting dat zich weinig rechtenproblemen zullen voordoen ten aanzien van journalistieke bijdragen, illustraties en foto's.
3. Resultaten project The Roaring Twenties
Uit een omgevingsverkenning bleek dat er in 1999 nationaal en internationaal weinig soortgelijke projecten waren te vinden. Voorts bleek uit de digitaliseringstest dat digitalisering vanaf negatieve duplicaatfilms de beste resultaten gaf. Tevens werd de veronderstelling bevestigd dat de ontsluiting van dit materiaal een grote uitdaging vormt en dat er potentieel interessante technologie voor de ontsluiting beschikbaar is. Het gaat hier bijvoorbeeld om technologie om full-text te creëeren d.m.v OCR (Optical Charater Recognition). Andere mogelijkheden zijn data-entry en ontsluiting d.m.v. het toekennen van trefwoorden. Met verschillende alternatieven werd in de tweede fase een test uitgevoerd.
In de tweede fase werd de website opgeleverd waar 150.000 pagina's doorzoekbaar worden aangeboden. Het aanbieden van digitale images van krantenpagina's via het Internet vormt een uitdaging omdat de bestanden veel opslagruimte vergen en zich moeilijk laten presenteren op beeldschermen. Op de website is het mogelijk om te zoeken op naam van de krant en datum/editie.
Het onderzoek naar ontsluitingsmethoden waartoe in de eerste fase werd besloten, leidde niet tot het inzetten van een uitvoeringstraject. Alhoewel ontsluiting zoals hierboven genoemd wenselijk is, overschreden de kosten het beschikbare budget en was de technologie moeilijk te verenigen met de toen bestaande technische infrastructuur in de Koninklijke Bibliotheek. Voor verdere informatie wordt verwezen naar de rapportages van dit project.
4. Aanpak
In de voorbereidende fase zullen de specificaties voor het digitaliseren en vastleggen van metagegevens worden herzien en waar nodig aangepast. Deze zijn reeds gemaakt in het kader van het The Roaring Twenties project. Tevens zullen offertes worden aangevraagd voor de uitvoerende werkzaamheden inclusief het vervaardigen van negatieve zilverduplicaat films t.b.v. het digitaliseringstraject. Vervolgens zal indien nodig een test worden uitgevoerd, waarna de uitvoerende werkzaamheden worden gestart. Ook zal aandacht worden gegeven aan auteursrechten.
In de volgende fase wordt het materiaal beschikbaar gesteld op het Internet. Het project krijgt een eigen website binnen de KB website. Hiervoor zal gebruik worden gemaakt van de functionaliteit van de huidige website ( www.kb.nl/kranten ) en de bestaande infrastructuur voor opslag van digitale images en metagegevens. Er zal aandacht worden gegeven aan eventuele verbeteringen en aanpassingen aan de bestaande functionaliteit.
Het is ook de bedoeling dat het materiaal beschikbaar wordt gesteld binnen de website van het nationale digitaliseringsprogramma Het Geheugen van Nederland (www.geheugennederland.nl ). Dit valt echter buiten de scope van het onderhavige projectvoorstel.
Mede op basis van de ervaringen in het project The Roaring Twenties zal de ontsluiting van het materiaal gebaseerd zijn op enkele metagegevens; de naam van de krant en de datum/editie van de betreffende uitgave. Hiermee wordt aangesloten bij de reeds bestaande functionaliteit.
5. Verdere ontsluiting door middel van OCR (pilot)
Met de op dit moment beschikbare gelden is een volledige ontsluiting van al het materiaal door middel van Optical Character Recognition (OCR) niet mogelijk. Omdat OCR de mogelijkheid biedt de in kranten opgeslagen informatie optimaal te ontsluiten op woordniveau, is ervoor gekozen in het kader van dit project een pilotproject OCR uit te voeren voor het historisch belangrijke jaar 1918. Deze jaargang van de drie kranten zal daarmee volledig doorzoekbaar worden gemaakt. Dit element is nieuw. De KB heeft eerder al vooronderzoek verricht naar de mogelijkheden om OCR toe te passen en tests laten uitvoeren. Dit project biedt de mogelijkheid om enerzijds meer ervaring op te doen met het procedé en anderzijds direct al belangrijke historische informatie optimaal aan een breed publiek beschikbaar te stellen. Deze pilot zal gelijk oplopen met het hoofdtraject.
6. Werkpakketten
6.1 Werkpakket 1. Voortraject
In dit werkpakket zal door het projectteam het te digitaliseren materiaal worden geselecteerd en bijeengebracht. Specificaties voor het digitaliseren en vervaardigen van de metagegevens zullen worden opgesteld danwel aangepast. Offertes voor digitaliseren en het creëeren van metagegevens worden aangevraagd en beoordeeld. De kwaliteitsmanager digitalisering van de Koninklijke Bibliotheek zal adviseren over de specificaties voor het digitaliseren. In het voortraject zal ook speciale aandacht worden gegeven aan auteursrechten. Eventuele rechthebbenden zullen indien nodig worden benaderd om toestemming te verkrijgen voor publikatie van het materiaal op het Internet.
Resultaat: Specificaties voor digitaliseren en vervaardigen metadata, offerte en opdrachtverlening
Doorlooptijd: 2 maanden
6.2 Werkpakket 2. Digitaliseren en metagegevens
Van de posititeve duplicaatmicrofilms zullen negatieve kopieën worden gemaakt ten behoeve van de digitalisering. Daarbij zal voorrang worden gegeven aan de jaargangen 1918. Het geselecteerde bedrijf voert de digitaliseringswerkzaamheden volgens specificaties uit. Het projectteam beschrijft de workflow voor verzenden en ontvangen van het materiaal, het controleren van de uitgevoerde werkzaamheden en het laden van de gecontroleerde images en metagegevens. De controle op de werkzaamheden m.b.t. het digitaliseren en het vervaardigen van de metagegevens wordt in de offerte meegenomen. Daarnaast zal ook het projectteam een steekproefsgewijze controle uitvoeren. Er wordt een administratie opgezet om de status van de verschillende onderdelen van het werkpakket te kunnen bijhouden. Er zal worden gestart met het scannen van de jaargangen 1918, zodat zo snel mogelijk met de OCR-pilot kan worden begonnen (zie werkpakket 3)
Er wordt gebruik gemaakt van reeds bestaande laadprocedures, waarmee de projectresultaten worden opgeslagen in bestaande systemen. Deze procedure zal worden getest.
De kwaliteitsmanager digitaliseren zal adviseren over de kwaliteitscontrole voor digitale images.
Resultaat: Images en metagegevens van 150.000 pagina's geproduceerd, verwerkt en opgeslagen.
Doorlooptijd: 9 maanden
6.3 Werkpakket 3: OCR
De scans van één jaargang (1918) van de geselecteerde kranten zullen worden ontsloten door middel van Optical Character Recognition (OCR) Dit zal worden uitbesteed aan een extern bedrijf. Het zal gaan om 15.000 pagina's. Daarbij zal tevens een intensieve controle en correctie op de teksten worden uitgevoerd. Deze extra ontsluiting zal via de huidige website voor kranten en tevens via de website van het Geheugen van Nederland beschikbaar worden gesteld.
Resultaat: 1 jaargang van de drie kranten doorzoekbaar op volledige tekst. Werkpakket 3 loopt gelijk op met werkpakket 2.
Doorlooptijd: 6 maanden
6.4 Werkpakket 4: Het ontwikkelen en aanpassen van de website
Ten behoeve van OCR zal de structuur en de functionaliteit van de website moeten worden aangepast.Een medewerker/webredacteur van de sectie netwerkinformatie van de Hoofdafdeling Research en Development draagt zorg voor de inhoudelijke aanpassing van de website. Een medewerker/ontwikkelaar van de afdeling ICT draagt zorg voor de technische aanpassing van de website. Het projectteam test de website.
Resultaat: website
Doorlooptijd: 5 maanden
6. Planning
Het totale project heeft een doorlooptijd van 12 maanden: van 1 december 2001 tot en met 30 november 2002.
| dec | jan | feb | mrt | apr | mei | jun | jul | aug | sep | okt | nov | |
| Werkpakket 1 | ||||||||||||
| Werkpakket 2 | ||||||||||||
| Werkpakket 3 | ||||||||||||
| Werkpakket 4 |
7. Projectorganisatie
Het project wordt uitgevoerd onder verantwoordelijkheid van de afdeling Nationale Projecten (i.o.) van de Hoofdafdeling Research & Development. De projectleider overlegt maandelijks met het hoofd van genoemde afdeling.
Het projectteam bestaat uit een projectleider (S11) en een projectmedewerker (S9). De taak van de projectleider bestaat uit het coördineren van het project, het controleren van de planning en de workflow. Hij/zij is verantwoordelijk voor het maken van maandelijkse voortgangsrapportages, de eindrapportage en de financiële verantwoording. De projectleider is verantwoordelijk voor documentatie van verschillende facetten van het project en de overdacht aan de functioneel en technisch beheerder na afronding van het project. De projectleider is verantwoordelijk voor promotie zowel binnen als buiten de KB en voert hiertoe overleg met de afdeling Communicatie. De projectleider draagt verder zorg voor de aansturing van de projectmedewerker, van de verschillende betrokken interne afdelingen en externe leveranciers. De projectmedewerker zal belast worden met uitvoerende werkzaamheden in alle werkpakketten.
Er zijn inspanningen begroot van de kwaliteitsmanager digitalisering (S9), een medewerker van de afdeling Innovatieve Projecten (S9) en van de afdeling ICT (S10) van de KB. Het vervaardigen van duplicaat films, het digitaliseren en vervaardigen van de metagegevens zal door externe leveranciers worden uitgevoerd. De projectleider en projectmedewerker zullen ten behoeve van het project worden aangetrokken.
Het project wordt begeleid door een interne begeleidingscommissie bestaande uit het hoofd van Hoofdafdeling Research & Development, het hoofd van de afdeling Innovatieve Projecten (i.o.) van deze hoofdafdeling en de projectmanager van het Nationaal Programma voor Conservering van Bibliotheekmateriaal Metamorfoze. De begeleidingscommissie zal drie keer tijdens het project bijeenkomen.