WebART: het KB webarchief bruikbaar maken voor de wetenschap

Archieven verzamel je om te gebruiken. Dat geldt ook voor het Nederlands webarchief bij de KB dat in 2007 tot stand kwam. Inmiddels oogst (harvest) de KB op regelmatige basis ca. 5.000 Nederlandse websites en zit er zo'n 8 terabyte aan data in het archief. Maar die data zijn veel complexer dan een gewoon boek of tijdschrift. Een enkele website kan allerhande bestanden en informatie bevatten: films, software, tekst, plaatjes, links naar andere websites, enz. Omdat het een nieuw type collectie is voor de KB, rijst de vraag met wat voor soort vragen onderzoekers naar het webarchief zullen komen. En hoe zorgt de KB ervoor dat de informatie ook zo wordt geordend dat de vragen uit de wetenschap beantwoord worden?

Hugo Huurdeman van WebART: "Onderzoek in webarchieven staat nog in de kinderschoenen"

Het KB Webarchief is nu nog alleen beschikbaar in de KB-leeszalen; de huidige interface is de WayBack Machinedie is ontwikkeld door het InternetArchive (klik op afbeelding om te vergroten)

De WebARTist zoekmachine in actie (klik om te vergroten)

Dit zijn niet alleen vragen voor de KB, maar ook voor de wetenschap zelf. Daarom heeft Jaap Kamps van de Universiteit van Amsterdam het initiatief genomen voor WebART, een samenwerkingsproject van de KB, de Universiteit van Amsterdam (UvA) en het Centrum Wiskunde en Informatica (CWI). In tegenstelling tot wat de naam misschien doet vermoeden, heeft het project niets met kunst te maken, maar met web archive retrieval tools, zo legt Hugo Huurdeman uit. Namens projectpartner UvA brengt deze promovendus een deel van zijn tijd digitaal door in het KB webarchief, en fysiek bij de afdeling Onderzoek van de KB.

Websites hebben een heel eigen dynamiek

"Het gaat hier om een heel nieuw type informatie," aldus Hugo. "Een belangrijk verschil met boeken en tijdschriften is dat er ook een tijdsfactor in zit. Bij Google vind je alleen de laatste versie van een website; in het webarchief kun je de geschiedenis vinden. Niet alleen van de teksten en beelden zelf, maar ook van de manier waarop in het internettijdperk informatie tot stand komt en gedeeld wordt, de dynamiek van het web. De nieuwe media vormen een heel nieuwe onderzoekdiscipline."

"Om een voorbeeld te geven: voor een proefproject verzamelden we Nederlandse internetpagina's over Syrië, en analyseerden de links. Wat bleek? Er waren duidelijke verschillen in de manier waarop diverse nieuwssites hun informatie verzamelden. Sommigen gebruikten vooral (semi-)officiële bronnen, anderen vertrouwden meer op informatie die door burgers op het web was gezet (user-generated content). Ook bleek dat het meeste nieuws niet uit Syrië zelf kwam, maar uit buitenlandse bronnen. Dat zijn interessante fenomenen."

Hulpmiddelen om een webarchief te kunnen gebruiken

Om informatie in een webarchief goed te kunnen bestuderen heb je specifieke tools nodig, hulpmiddelen, die de informatie in het archief helpen vinden en analyseren. Het eerste jaar van het project is de meeste tijd daarin gaan zitten. "We hebben een kleine Google ontwikkeld die full-text kan zoeken naar specifieke teksten of beelden en die de tijdsfactor mee kan nemen [de tool heet WebARTist, en ook die afkorting heeft niets met kunst te maken]. En we ontwikkelden allerhande filters, bijvoorbeeld versies uit specifieke periodes of (UNESCO-)categorieën, links tussen pagina's onderling, etc."

Wisselwerking tussen webarchief en wetenschap

Meer theoretische zaken (Wat voor soort onderzoeksvragen zouden we aan een webarchief kunnen/willen stellen?) zijn het domein van Hugo's collega Anat Ben-David (postdoctoraal onderzoeker UvA) en het echte programmeerwerk komt van Thaer Sammar, promovendus en programmeur bij het CWI. Vanuit de KB zijn ook medewerkers van Collecties en Product Support (digitaal magazijn) betrokken. Die wisselwerking tussen vraag en aanbod is essentieel voor het project.

"Tijdens het proefproject kwam er bijvoorbeeld commentaar van de wetenschappers dat het webarchief van de KB wel een beetje braaf is." Dat kan natuurlijk kloppen, want de KB verzamelt vooral officiële en semi-officiële websites. Die keuze is gemaakt omdat de KB niet de middelen en de mensen heeft om het hele NL-domein te verzamelen en te bewaren. Maar dergelijk collectiebeleid is niet in steen gebeiteld; ook voor de KB is het webarchief een relatief nieuw fenomeen waarvoor de spelregels al doende kunnen worden aangepast.

Hergebruik beperkt door Auteurswet

Eén belangrijke hinderpaal voor het hergebruik van het webarchief mag hier niet onbenoemd blijven: de Auteurswet. De huidige wet is van 1912 en nog helemaal gebaseerd op gedrukte informatie. Tot 70 jaar na de dood van de auteur hebben de erfgenamen alleenrecht op hergebruik. En voor één enkele versie van één website kunnen er vele verschillende rechthebbenden zijn (fotograaf, journalist, ontwerper, diverse schrijvers, etc.). Hoe de KB hiermee omgaat wordt onderwerp van een andere bijdrage.

Feiten en cijfers

WebART is een project onder de CATCH-paraplu (Continuous Access to Cultural Heritage), gefinancierd door NWO. Looptijd: 2012-2016.
Projectmedewerkers: (KB) Hildelies Balk, René Voorburg, (UvA) Jaap Kamps (projectleider), Richard Rogers, Hugo Huurdeman, Anat Ben-David, (CWI) Arjen de Vries, Thaer Sammar.

WebArt project

WebART gaat niet over kunst, maar over Web Archive Retrieval Tools