Hoe werkt webarchivering?

De KB maakt gebruik van een set aan open source tools die specifiek voor webarchivering ontwikkeld zijn onder de vlag van het International Internet Preservation Consortium (IIPC).

Het archiveren bestaat uit een aantal stappen. Nadat is bepaald welke websites er gearchiveerd dienen te worden, is de volgende stap het binnenhalen van deze websites (harvesten of crawlen genoemd) met behulp van speciaal daarvoor ontwikkelde software. Dit is sterk vergelijkbaar met wat de crawlers van zoekmachines als Google doen, met dit verschil dat de crawler van een webarchief daadwerkelijk alle bestanden van een website probeert binnen te halen. Op basis van het te archiveren domein (bijvoorbeeld www.kb.nl) volgt de crawler alle links vanaf de startpagina. In het voorbeeld hieronder volgt de crawler dus vanaf de indexpagina de verwijzingen naar 1a, 2a, 1b en verder. Totdat de volledige oorspronkelijke website is binnengehaald.

De KB streeft ernaar om alle bestanden waaruit een geselecteerde website is opgebouwd te archiveren (voor zover de techniek en eventuele beveiliging dat toelaat). Websites zijn over het algemeen opgebouwd uit een grote hoeveelheid losse bestanden. De door de KB gebruikte crawler Heritrix “ verpakt” al deze losse bestanden in een soort “container” waardoor de gearchiveerde versie van de site makkelijker te beheren is. In deze verpakking worden de verschillende losse bestanden voorzien van een metadata omschrijving. Deze metadata bevat informatie over het bestandsformaat, tijd en datum van crawlen en de omvang van het bestand.

Voordat de gecrawlde websites kunnen worden opgeslagen in het e-Depot wordt er een kwaliteitscontrole uitgevoerd. Daarbij wordt in eerste instantie gekeken naar de volledigheid en de kwaliteit van de binnengehaalde sites; missen er onderdelen en kloppen de links binnen een site. Vervolgens worden er gegevens met betrekking tot de verschillende bestandsformaten en versies daarvan verzameld. Het zijn vooral deze gegevens die van belang zijn voor toekomstige presentatie. Deze informatie wordt als technische metadata opgeslagen.

Vervolgens worden de gearchiveerde websites beschreven en geïndexeerd. De beschrijving gebeurt zo veel mogelijk automatisch en zorgt ervoor dat de websites opgenomen in het webarchief vindbaar zijn via de centrale catalogus van de KB. Daarnaast worden de websites full-text geïndexeerd, waardoor de gebruiker op vrije tekst kan zoeken in het archief. Het resultaat van de zoekvraag wordt gepresenteerd in een interface die behalve de gevraagde versie van de betreffende site ook de mogelijkheid biedt om via een tijdbalk eerdere en latere versies van deze website te raadplegen.

Het online webarchief van de Koninklijke Bibliotheek zal in de eerste helft van 2010 beschikbaar komen.