Technische aspecten bij webarchivering

Hoe werkt webarchivering?

De KB maakt gebruik van een set aan open source tools die specifiek voor webarchivering ontwikkeld zijn onder de vlag van het International Internet Preservation Consortium (IIPC).

Het archiveren bestaat uit een aantal stappen. Nadat is bepaald welke websites er gearchiveerd gaan worden, is de volgende stap het binnenhalen van deze websites (harvesten of crawlen genoemd) met behulp van speciaal daarvoor ontwikkelde software. Dit is vergelijkbaar met wat de crawlers van zoekmachines als Google doen, met dit verschil dat de crawler van een webarchief daadwerkelijk alle bestanden van een website probeert binnen te halen. Op basis van het te archiveren domein (bijvoorbeeld www.kb.nl) volgt de crawler alle links vanaf de startpagina.

De KB streeft ernaar om alle bestanden waaruit een geselecteerde website is opgebouwd te archiveren (voor zover de techniek en eventuele beveiliging dat toelaat). Uit kwaliteitsonderzoek blijkt dat de beperkingen die zijn aangegeven in het zogenaamde robots.txt-bestand te vaak complete archivering verhinderen. Eventuele beperkende aanwijzingen in dit robots.txt-bestand negeert de crawler. Mocht hier bezwaar tegen zijn, dan kunnen wij testen in hoeverre de website is te archiveren bij het respecteren van de beperkingen. In overleg met de website-eigenaar kunnen wij daarna bepalen of archivering nog zinvol is.

Websites zijn over het algemeen opgebouwd uit een grote hoeveelheid losse bestanden. De door de KB gebruikte crawler Heritrix “verpakt” al deze losse bestanden in een soort “container” waardoor de gearchiveerde versie van de site makkelijker te beheren is. In deze verpakking worden de verschillende losse bestanden voorzien van een metadata'-omschrijving. Deze metadata bevat informatie over het bestandsformaat, tijd en datum van crawlen en de omvang van het bestand.

Het webarchief is sinds 2011 beschikbaar in de leeszaal van de KB (link werkt alleen binnen de muren van de KB).