Historisch onderzoek in digitale kranten: verslag van het big data-congres

24 januari 2017 - Steeds meer onderzoekers maken gebruik van de miljoenen gedigitaliseerde pagina's die de KB en andere bibliotheken online zetten. Computers maken het mogelijk om onderzoek te doen op een schaal die nooit eerder vertoond is. Bijvoorbeeld naar de verandering van de betekenis van concepten door de tijd heen.

Maar computers zijn machines en zij gaan aan het werk met teksten die door mensen zijn gemaakt. Dat is vragen om ruis en misverstanden. Hoe kun je toch betekenisvolle antwoorden op onderzoeksvragen krijgen? Daarover ging het volgepakte Symposium Historische kranten als 'big data'II: concepten op drift in de aula van de KB afgelopen vrijdag 20 januari. 20 sprekers deelden hun oplossingen én hun vragen met collega-onderzoekers. En met de KB.

Alles hangt af van de context

Een 'paard' kan een dier zijn, een schaakstuk of een turntoestel - een computer ziet het verschil niet. En of het woord 'efficiënt' in 1940 iets anders betekende dan in 1980, valt ook niet zomaar op. Daar heb je contextinformatie voor nodig. Volgens Serge ter Braake (pdf) begint de zoektocht naar die context meestal met edel handwerk: lezen van teksten van domeinexperts én je bekend maken met het corpus dat je onderzoekt: tellen en categoriseren.

Dan de keuze voor een onderzoeksmethode. Ter Braake noemde er een aantal die allemaal hun eigen voor- en nadelen hebben:

Zelf werkt ter Braake met de Amsterdam Content Analysis Toolkit, die in de derde categorie valt.

De aanpak: van filosofisch tot pragmatisch

Dat onderzoeksvragen in digitaal materiaal op heel verschillende manieren kunnen worden aangevlogen, werd al snel duidelijk. Keynotespreker Hein van den Berg (pdf) definieerde een concept als een 'netwerk van begrippen'. Om die te onderzoeken heb je schema's nodig, mentale frameworks, die je omzet in ontologieëen. Door een onderscheid te maken tussen core en margins van de concepten, kun je begripsverandering analyseren. Oftewel: een top-down benadering om het mentale framework te maken, en daarna verder met bottom-up analyse.

Voor iedere onderzoeker een tool en voor iedere tool een onderzoeker (Jaap Kamps)

Pim Huijnen en Melvin Wevers (pdf) gaan juist uit van een case study, het begrip 'efficiency' in krantenartikelen. Welke woorden komen voor in de nabijheid van dat concept? Zij gebruiken daarvoor de tool ShiCo.

Een zeer pragmatische benadering kwam van Ewoud Sanders die vertelde over zijn binnenkort te verschijnen proefschrift over 'jodenbekering'. Hij liet zien hoe subjectief de beschrijvingen van joden vaak zijn in de literatuur. Voor zijn onderzoek gebruikte hij laagdrempelige, goedkope tools als Evernote, iAnnotate en dtSearch. Natuurlijk liep ook hij tegen slecht leesbare teksten aan door falende Optical Character Recognition (OCR). In Delpher kwam hij maar liefst 5.559 keer de spelling 'joodsehe' tegen. Sanders vroeg zich af of dat soort fouten er niet automatisch uit te halen zijn.

Bovenal benadrukte hij het belang van slimme zoektechnieken. In zijn ervaring hebben studenten vaak geen goed idee van wat er allemaal mogelijk is. Om betere resultaten te krijgen moeten studenten daarin getraind worden, er is literatuur genoeg (bijv. Sanders' boekje Digitaal schatgraven bij de KB; bij de KB-ontvangstbalie ook op papier verkrijgbaar).

En, zo benadrukte Sanders, vergeet de andere grote digitale bronnen niet: naast Delpher bijvoorbeeld Krantenbank Zeeland en DigiBron.

Bibliotheken en digitaal onderzoek

Jaap Kamps (pdf) stelde de fundamentele vraag: 'Is dit de tijd van de digitale incunabelen?' Kamps heeft het idee dat we - net als in de tijd van de eerste boeken - nog vooral bezig zijn met 'oude' vragen te stellen. Het zal nog even duren voordat we echt digitaal gaan denken en werken.

Daarna gebruikte Kamps vijf 'slogans' om zijn visie op digitaal onderzoek en bibliotheken duidelijk te maken (zie ook dia hierboven).

  1. De tijd van klassiek bibliografisch ontsluiten is nu echt voorbij. Maar het lijkt erop dat we nog weinig écht gebruik maken van de digitale mogelijkheden.
  2. De hang naar kwaliteit is belangrijk, maar we moeten accepteren dat de wereld van data rommelig is. Niets is perfect. Als je streeft naar perfectie kun je als bibliotheek nooit iets online zetten. Het is wel belangrijk om de manco's in de bestanden goed zichtbaar te maken. Dan kunnen onderzoekers er rekening mee houden.
  3. Voor veel zaken werken algoritmes niet. We moeten de kracht en de controle terugleggen bij gebruikers.
  4. Dé gebruiker bestaat niet.
  5. Wat we nodig hebben zijn technologiegedreven documentalisten die meegroeien met het digitale veld.

'Een bibliotheek voor mensen én machines'

Steven Claeyssens (pdf) kon zich vinden in veel van Kamps' slogans. Hij gaf een samenvatting van de KB-geschiedenis met digitale data en concludeerde dat de KB 'ook een bibliotheek voor machines moet worden'. Dat betekent: gedifferentieerder omgaan met data dan in het tijdperk van de bibliografische beschrijving. Claeyssens noemde 4 kerngebieden voor de ontwikkeling van de KB:

  • samenwerking: met onderzoekers, met onderzoeksinstellingen, met andere bibliotheken, etc.
  • auteursrecht: hoe kan de KB ertoe bijdragen dat steeds meer data vrij toegankelijk worden voor onderzoek? Door te blijven onderhandelen met belangenverenigingen van makers.
  • collecties als data, met nieuwe mogelijkheden
  • diensten voor de digitale geesteswetenschappen.

KB-collega Lotte Wilms (pdf) presenteerde de nieuwe website van het KB-Lab, waarin tools én data beschikbaar worden gesteld voor onderzoekers. Wilms nodigde onderzoekers uit om de nieuwe site te helpen testen. In april gaat de site online.

KB-lab testversie
http://www.kblabtest.nl/

Goed nieuws over Delpher ...

Het grote nieuws van de dag was dat de teksten en metadata van 370.000 kranten van vóór 1877 nu gratis in zipfiles gedownload kunnen worden vanuit het landelijke platform Delpher. Deze aankondiging door KB-directeur Lily Knibbeler werd zowel door de zaal als op Twitter met enthousiasme begroet.

... en vragen over OCR en context

Maar dat wil niet zeggen dat nu alles aan Delpher klopt. Claeyssens (pdf) gaf ruiterlijk toe dat zowel de OCR (optische tekenherkenning) als de gebruiksvriendelijkheid beter kunnen. Wat aan Jaap Kamps (pdf) de opmerking ontlokte dat de KB zich nergens voor hoeft te schamen (zie zijn 2e slogan hierboven). 'Als niemand iets te klagen heeft, houdt de KB te veel data achter.'

De zaal had veel vragen aan Claeyssens en de KB. Een greep hieruit:

  • Blijven de krantencollecties gratis? Claeyssens: Als het aan ons ligt wel. Maar er is natuurlijke politieke wil voor nodig om dit werk te blijven financieren.
  • Kan een wetenschapper in Delpher zien of hij met een pulpblad te maken heeft of met een gerenommeerde krant? Claeyssens: Nee, die expertise moet je zelf ontwikkelen.
  • Zijn de afbeeldingen uit de kranten in Delpher apart beschikbaar? Martijn Kleppe (KB Research): In het KB-Lab hebben we een aparte dataset ontwikkeld met 1,6 miljoen afbeeldingen. De set is onder voorwaarden beschikbaar.

  • Wat voor effect hebben grote programma's als IMPACT op de kwaliteit van de OCR? Wilms: We hebben nu betere technieken om te scannen. Het verbeteren van de oude OCR is nog een punt van zorg. De KB evalueert dit jaar wat de kwaliteit van de OCR is en hoe we die zouden kunnen verbeteren. Dat zal leiden tot een advies aan de KB-directie.
  • Is het een taak voor de KB om ook contextinformatie toe te voegen? Maaike Napolitano (KB, Delpher): De KB biedt het materiaal, de context moet uit de onderzoekswereld komen. Het is een kwestie van samenwerking. Olaf Jansen (KB): Op Wikipedia wordt wel context ontwikkeld rond de KB-collecties. Maar die komt niet in Delpher.
  • Gaat de KB ook handgeschreven materiaal digitaliseren? Claeyssens: Tot dusverre heeft massadigitalisering voorrang gekregen.
  • Kun je wel onderzoek doen met collecties die onvolledig zijn? Jaap Kamps: Jawel, als je maar transparant maakt wat er ontbreekt.
  • Kan de KB het webarchief breder beschikbaar maken voor onderzoekers? Claeyssens: Dat zouden we graag willen, maar het auteursrecht geeft ons tot nu toe geen mogelijkheden om het webarchief buiten de KB-leeszaal te benaderen.

Flitspresentaties

Tussen de lezingen door waren er acht 'flitspresentaties' - korte presentaties van tools, technieken en ook vragen van onderzoekers aan elkaar. Onderaan deze pagina vindt u de links naar alle presentaties.

Conclusies?

KB-fellow Prof.dr. Joris van Eijnatten sloot de dag af met enkele opmerkingen over de diversiteit aan tools en methodes die langsgekomen waren. Er moeten plekken zijn waar die al die methodes bij elkaar komen, bijvoorbeeld CLARIAH, het KB-Lab, Nederlab en het Gentse initiatief genoemd door Joke Daems. Maar er zijn zorgen over de continuïteit van deze projecten.

congres Historische kranten als big data II 2017
De KB-organisatoren: Steven Claeyssens, Joris van Eijnatten, Martijn Kleppe

Meer informatie

De presentaties (in alfabetische volgorde)

De flitspresentaties (in alfabetische volgorde)

Verslag: Inge Angevaare, KB; foto's Theo de Nooij, Beeldstudio, KB