2020: twintig jaar webarchivering in Nederland

26 februari 2020 Kees Teszelszky Digitale geesteswetenschappen

Januari 2020 was een historische maand voor Nederlands digitaal geboren erfgoed. Twintig jaar geleden ging webarchivering van start in Nederland: om precies te zijn in Groningen. In dezelfde maand voerde de Koninklijke Bibliotheek de eerste experimentele nationale domeincrawl uit van het Nederlandse web. Dit is webarchivering waarbij geprobeerd wordt met speciale software zoveel mogelijk websites van een bepaald webdomein binnen te halen.

Archipol

Het bewaren van digitaal geboren erfgoed van het web begon in Nederland bij het Documentatiecentrum Nederlandse Politieke Partijen aan de Universiteitsbibliotheek van de Rijksuniversiteit Groningen. Daar in het hoge noorden werd voor het eerst een website van een Nederlandse politieke partij gearchiveerd in het kader van webarchiveringsproject Archipol. Dit webarchief bestaat nog steeds en heeft in de loop van twintig jaar meer dan 1.000 sites van Nederlandse politieke partijen, politici en politieke bewegingen bewaard. Sommige websites worden al twee decennia elke maand trouw gecrawled, waardoor in de loop der jaren een unieke collectie van twee decennia digitaal geboren data van en over de Nederlandse politieke cultuur op het web is opgebouwd. Zie ook deze publicatie.

Het eerste Nederlandse webarchief ging pas relatief laat van start, als we bedenken dat de eerste Nederlandse website al in 1992 online kwam (als derde website van de wereld!) en de vroegste Nederlandse homepage al in 1993 het licht zag als een van de eerste op het web. (De laatste is in 2019 in de webcollectie van de KB opgenomen.) Daarna explodeerde het web: bij het begin van webarchivering rond het millennium waren er al meer dan een half miljoen .nl-websites in Nederland online, naast de tienduizenden particuliere homepages en bedrijfssites die waren gehost bij verschillende providers, waarvan XS4ALL de grootste was. Daarnaast was een groot deel van deze digitaal geboren publicaties in de tussentijd ook alweer offline gegaan. Juist vanwege dit snelle digitale verval wereldwijd begon het Internet Archive met webarchivering op grote schaal in 1996. In Europa deed de Koninklijke Bibliotheek van Zweden al in 1997 de eerste ervaringen op met een domeincrawl van delen van het Zweedse nationale domein.

Het vertrekpunt van de domeincrawl was de inhoud van NL-Menu, een van de eerste webdirectories van Nederland uit 1992. Deze site werd beheerd door de KB als service voor zoekers naar informatie op het web. De laatste versie van deze site uit 2004 is onlangs op basis van CD-ROMS gereconstrueerd door collega Johan van der Knijff van de afdeling Onderzoek en online gezet. Omdat in de beginjaren van het web geen efficiënte zoekmachines bestonden op het internet, waren webdirectories de telefoongidsen van het web. De beheerders van deze directories brachten handmatig het Nederlandse web in kaart. Deze bestonden uit thematisch, alfabetisch of geografisch geordende lijsten van websites waarbinnen de gebruiker online kon navigeren en zo snel het gewenste webadres kon vinden. Het NL-Menu bevatte de gegevens van de op dat moment meest relevante 30.000 Nederlandse websites en was daarmee een uitstekend begin van een domeincrawl.