Historische kranten als ‘big data’

25 maart 2015 – 9 miljoen gedigitaliseerde Nederlandse krantenpagina’s staan inmiddels online in Delpher. Wetenschappers ontdekken in de kranten een goudmijn voor nieuw historisch, taalkundig, sociologisch en interdisciplinair onderzoek. Maar daarvoor hebben ze digitale technieken nodig, ‘die we nog niet voldoende beheersen’, aldus Prof.dr. Huub Wijfjes.

Reden voor een drukbezocht symposium waar onderzoekers, informatiespecialisten en KB’ers gedachten uitwisselden over wat er allemaal wel en niet mogelijk is en wordt. Want, zo zei Prof. Wijfjes, ‘de problemen die we tegenkomen moeten we in een netwerk oplossen’ - een netwerk dat bestaat uit geesteswetenschappers, informatici en dataleveranciers als de KB.

Onderaan deze pagina vindt u alle powerpointpresentaties. Ze worden voorafgegaan door een samenvatting van de belangrijkste onderwerpen die de revue passeerden.

Organisator Steven Claeyssens KB symposium digitale kranten
Steven Claeyssens (KB) beschrijft het krantencorpus van de KB
Huub Wijfjes KB symposium digitale kranten
Huub Wijfjes maakt verzuiling zichtbaar in word clouds

De mogelijkheden van historische kranten

Het symposium bood een fraaie staalkaart van nieuwe onderzoeksvragen die met behulp van digitale kranten gesteld kunnen worden en welke methoden worden gebruikt voor dat onderzoek. Want nooit eerder was het mogelijk om vele duizenden documenten in samenhang te bestuderen en analyseren.

Zo koppelt Prof. Wijfjes met zijn team de digitale versie van de Handelingen van de Staten-Generaal aan de tekst van digitale kranten om de verhouding tussen politieke structuren en de media in de twintigste eeuw te onderzoeken. Wat gebeurt er in de Tweede Kamer en hoe wordt daarover in de media geschreven?

KB symposium digitale kranten
Geanimeerde discussies met de zaal
Marian Hellema KB Symposium digitale kranten
Marian Hellema van de KB: 'De OCR-kwaliteit wisselt.'

Lastige aspecten van het werken met digitale bestanden

Wijfjes noemde aan het begin van het symposium ook direct een aantal obstakels die zijn team tegenkomt, en de reacties uit de zaal maakten duidelijk dat de problemen door velen herkend werden:

  • We moeten allerlei software ontwikkelen om te werken met deze bestanden, en daar hebben historici vaak geen verstand van. Dr. Martijn Kleppe van de Erasmus Universiteit: ‘Dit is best wel eng voor een historicus’.
  • Hoe weten we of de software wel de juiste resultaten oplevert? Want er kan achter de schermen van alles fout gaan wat de historicus niet ziet. Wijfjes’ suggestie: probeer de software uit op onderwerpen waar we al veel van weten. Dr. Antske Fokkens van de Vrije Universiteit merkte later op dat de software niet perfect hoeft te zijn, maar dat het wel belangrijk is dat gebruikers precies weten wat er aan mankeert en daar rekening mee houden.
  • Een ander probleem is gebrek aan computercapaciteit in de wetenschap. Er is gigantisch veel rekencapaciteit nodig om analyses los te laten op grote hoeveelheden data. En die rekencapaciteit is er vaak niet bij de instellingen.

Victor de Boer KB symposium digitale kranten
Victor de Boer over de techniek van Linked Data
Myriam Traub KB symposium digitale kranten
Myriam Traub over de impact van OCR-kwaliteit op onderzoek
Katrien Depuydt KB symposium digitale kranten
Katrien Depuydt over de waarde van historische lexicons

  • De krantencollecties zijn nogal eens incompleet. Collectiespecialist Huib Crijns van de KB schat dat er nu zo’n 8% gedigitaliseerd is van alle kranten die ooit in Nederland zijn gemaakt, en de verdeling over titels en tijdvakken is niet evenwichtig. Zo zitten er in de KB-collectie naar verhouding veel kranten uit de Tweede Wereldoorlog. En ontbreken soms ineens afleveringen. Dat vertekent de resultaten van ieder onderzoek.
  • Woorden en termen veranderen in de loop van de tijd van betekenis. Wie langjarig onderzoek doet, krijgt daarmee te maken en moet er rekening mee houden. Katrien Depuydt van het Instituut voor Nederlandse Lexicologie noemde het woord ‘opium’ als voorbeeld. Ooit was was dat reguliere grondstof voor de productie van medicijnen. Pas later werd het geassocieerd met verslaving en drugs.

KB symposium digitale kranten
Informatie uitwisselen tijdens de lunchpauze
Olaf Janssen KB symposium digitale kranten
Olaf Janssen (KB) presenteert een Wikiproject met verzetskranten

  • De teksten die geanalyseerd worden zijn meestal automatisch afgelezen van de scans van de pagina’s (optical character recognition oftewel OCR). En daarbij kan veel fout gaan, vooral in historisch materiaal met gotische letters of de lange ‘s’ die vaak voor ‘f’ wordt aangezien. Om nog maar te zwijgen van beschadigde pagina’s. Myriam Traub van het Centrum voor Wetenschap en Informatica (CWI): ‘Ook de OCR kwaliteit kan van invloed zijn op de resultaten van een onderzoek, maar niemand weet welke invloed dat dan is. Wij waren verbaasd dat zelfs de KB niet weet hoe goed of slecht de OCR is.’
  • En dan is er het auteursrecht. Het materiaal dat de KB online zet is meestal historisch en onderzoekers zouden ook graag modern materiaal bestuderen. Sophie Ham van de KB gaf uitleg: iedere tekst, iedere illustratie is in Nederland beschermd tot 70 jaar na de dood van de maker. In de praktijk betekent dit dat al het materiaal van vóór 1874 vrij te gebruiken is, maar dat materiaal van na de Tweede Wereldoorlog niet of nauwelijks beschikbaar is voor digitalisering en wetenschappelijk onderzoek. Want de KB zou met iedere schrijver en iedere illustrator waarvan werk in die miljoenen pagina’s zit apart afspraken moeten maken. Dat is ondoenlijk.

KB symposium digitale kranten als big data
Organisatoren Steven Claeyssens en Huibert Crijns (KB)

Leren werken met big data: een gezamenlijke uitdaging

Onderzoekers hadden tijdens het symposium veel vragen voor de aanwezige KB-medewerkers.

Kan de OCR verbeterd worden? Marian Hellema (KB): ‘Het is altijd lastig keuzes maken tussen kwantiteit en kwaliteit. In het verleden is er in overleg met onderzoekers voor gekozen om vooral véél te digitaliseren. Dat had consequenties voor de kwaliteit.’ Momenteel doet de KB een project met het Meertens Instituut om met behulp van crowdsourcing de teksten van de 17de-eeuwse kranten te verbeteren. Daardoor kunnen ook de ‘confidence levels’ omhoog gaan.

Kan de KB ertoe bijdragen dat de uitgevers zich soepeler opstellen waar het gaat om toegang tot recent materiaal? Sophie Ham (KB): ‘Ja, daar werken we continu aan. Zo overleggen we met collectieve beheersorganisaties over mogelijkheden om teksten toch online te zetten. Maar het blijft een lastige balans tussen de legitieme rechten van de eigenaars en de wens naar meer openheid.’

'Wij zijn blij met de KB-kranten voor ons lexicografisch werk.' Katrien Depuydt, INL

De KB levert veel data. Het zou mooi zijn als de KB ook de servercapaciteit zou aanbieden om analyses daarop los te laten. Steven Claeyssens (KB), na enige aarzeling: ‘Dat zit nu nog even niet in onze plannen.’ Sophie Ham: ‘Maar auteursrechtelijk gezien zou het misschien wel een goed idee zijn: een beveiligde omgeving voor wetenschappelijke toegang.’ Matthijs Kattenberg (SURFsara): ‘Wij kunnen capaciteit leveren voor de wetenschap, en gratis ook nog.’

Lotte Wilms (KB): ‘We bieden wel de KB-Research lab-omgeving aan, waarin software kan worden uitgeprobeerd op KB-datasets. Dit lab is toegankelijk via http://www.kb.nl/lab’. Daar staat bijvoorbeeld de ngram-viewer op historische kranten die gebouwd is in het Project Political Mashup.

KB symposium Digitale kranten als big data
Lotte Wilms (KB): 'Wij willen graag samenwerken met onderzoekers'
KB symposium digitale kranten en big data
Martin Reynaert van Nederlab

Misschien zit er ook muziek in Nederlab, een NWO-project dat werd gepresenteerd door dr. Martin Reynaert. ‘Het doel is om daar alle teksten op te nemen die vanaf 800 in Nederland zijn gemaakt, te beginnen met de KB en de Digitale Bibliotheek van Nederlandse Letteren (DBNL).’

Wat er allemaal al wél mogelijk is

Ondanks de genoemde obstakels wordt er al veel onderzoek gedaan met behulp van nieuwe digitale technieken. Dr. Victor de Boer van de VU liet zien wat er allemaal mogelijk is met de techniek van ‘Linked data’. Die maakt het mogelijk om hele diverse databanken op een zinnige manier aan elkaar te koppelen, zodat informatie uit de ene databank (bijv. een scheepsregister) kan worden gebruikt om informatie uit Delpher te verrijken. De Boer noemde ook de ANP-radiobulletins in Delpher als een zeer waardevolle onderzoeksbron.

Dr. Jaap Verheul van de Universiteit Utrecht presenteerde de ‘Texcavator’, een instrument-in-wording dat text mining en visualisatie van de resultaten op allerlei manieren mogelijk maakt, en dat vrij beschikbaar zal komen zodra het is uitontwikkeld. Het project ‘Polimedia’, gepresenteerd door Dr. Martijn Kleppe (EUR) en Dr. Laura Hollink (VU), maakt het mogelijk om gegevens uit de KB, het Instituut voor Beeld en Geluid en de Staten-Generaal digitaal in samenhang te analyseren en zo te onderzoeken hoe politieke debatten verlopen.

KB symposium Historische kranten als big data
Martijn Kleppe en Laura Hollink
KB symposium historische kranten en big data
Alastair Dunning presenteerde het Europeana Newspapers project

En zo is er nog veel meer onderzoek gaande naar de digitale data zelf en de manieren waarop ze wetenschappelijke inzichten kunnen brengen.

Dr. Martijn Kleppe toonde zich tevreden aan het eind van de bijeenkomst: ‘Complimenten aan de KB voor deze geweldige bijeenkomst. Het is heel nuttig om te horen hoe andere wetenschappers zaken aanpakken. En om meer te weten over de overwegingen van de KB bij allerhande keuzes.’

De presentaties

Zie ook