KB-Webarchief: veelgestelde vragen

Algemeen

Wat is het webarchief van de Koninklijke Bibliotheek?

Het webarchief (of liever gezegd: de webcollectie) is een van de speciale collecties van de Koninklijke Bibliotheek. Het is niet het webarchief van Nederland, maar bevat een selectie Nederlandse websites die periodiek gearchiveerd worden.

Waarom onderhoudt de Koninklijke Bibliotheek een webarchief?

Websites horen tot de categorie van digitale publicaties en daarmee tot ons verzamelterrein. Vrijwel alle (grote) nationale bibliotheken archiveren websites uit hun nationale domein en doen dit in het publieke belang of uit een wettelijke verplichting. De Koninklijke Bibliotheek archiveert websites in het publieke belang. Omdat websites steeds veranderen dreigt er – zonder regelmatige archivering – waardevolle digitale informatie verloren te gaan die anders nergens meer bewaard is. Het web is een onmisbaar onlosmakelijk onderdeel van onze maatschappij geworden. In het eerste halfjaar (september 2007-maart 2008) zijn ongeveer 1.000 websites door ons geselecteerd en gearchiveerd. In 2016 bleek 25% daarvan niet meer online te zijn.

Voldoet het webarchief van de Koninklijke Bibliotheek aan de Archiefwet?

Het webarchief van de Koninklijke Bibliotheek is een bibliotheekcollectie die niet hoeft te voldoen aan de Archiefwet.

Wanneer is het webarchief gestart?

In september 2007 zijn de eerste websites officieel aan het webarchief toegevoegd.

Hoe groot is het webarchief?

De selectie bevat ongeveer 12.350 websites met een totale omvang van ongeveer 26 terabyte (mei 2017).

Zijn er nog meer webarchieven in Nederland?

Er is een aantal webarchieven met lokale - geografisch bepaalde - verzamelingen, zoals de Groninger archieven. Voorbeelden van thematische webarchieven zijn Archipol (websites van politieke partijen) en Beeld & Geluid (websites van publieke omroepen).

Waar kan ik meer informatie vinden over het webarchief van de Koninklijke Bibliotheek?

Alle informatie over ons webarchief is samengebracht op de pagina Webarchivering en de pagina's die daaronder hangen.

Selectie voor het webarchief

Hoe komt de selectie tot stand?

De selectiecriteria zijn verwoord in het algemene collectiebeleid van de Koninklijke Bibliotheek: alles van en over Nederland. Voor wat betreft het webarchief is het technisch, juridisch en financieel nog niet mogelijk om alles te archiveren. De collectiespecialisten van de Koninklijke Bibliotheek selecteren relevante websites op hun vakgebied: Nederlandse taal, cultuur en geschiedenis. In enige mate houden wij rekening met andere Nederlandse webarchieven door bijvoorbeeld geen websites van politieke partijen of publieke omroepen op te nemen. De collectiespecialisten proberen in de selectie een evenwicht in het aanbod te bewaren.

Zijn er alleen Nederlandse websites opgenomen in de collectie?

Het webarchief bevat voornamelijk websites met de domeinextensie .nl. Dat zijn Nederlandse websites, ongeacht de taal waarin zij gesteld zijn.

Waarom archiveert de Koninklijke Bibliotheek niet het hele Nederlandse webdomein?

Het Nederlandse webdomein telde in 2015 ruim 5,6 miljoen geregistreerde domeinen, maar niet achter elk adres zit een website. Het voor ons technisch, juridisch en financieel nog niet mogelijk om alles te archiveren. Er zijn vooral Juridische aspecten bij webarchivering: wij laten elke website-eigenaar weten dat we zijn of haar website archiveren. Daarnaast zijn wij niet wettelijk verplicht om een Nederlands webarchief te onderhouden.

Zijn er alleen .nl-websites is de selectie opgenomen?

Het webarchief bevat ook Nederlandse websites met regionale (.eu, .frl) en algemene domeinextensies (.com).

Welke websites zijn in de selectie opgenomen?

Ieder kwartaal publiceren wij een overzicht van het webarchief.

Welke websites vallen buiten de selectie?

Als een website vanwege de gebruikte technieken (bijvoorbeeld Flash of complexe javascript) niet of nauwelijks te archiveren is, is opname niet zinvol. Websites met illegale inhoud worden niet opgenomen. In enige mate houden wij rekening met andere Nederlandse webarchieven door bijvoorbeeld geen websites van politieke partijen of publieke omroepen op te nemen.

Zijn er zwaartepunten aan te wijzen in de collectie?

Websites met historische onderwerpen, musea en overheidswebsites zijn momenteel sterk vertegenwoordigd in de collectie. De collectiespecialisten stellen ook speciale webcollecties samen, bijvoorbeeld rond de troonswisseling in 2013. In 2015 is gestart met het selecteren van websites die het verdwijnend kloosterleven vastleggen. In overleg met Tresoar archiveert de Koninklijke Bibliotheek enkele honderden Friese websites.

Met welke frequentie archiveren jullie websites?

Gewoonlijk is de archiveerfrequentie jaarlijks. Tijdens de selectie bepaalt de collectiespecialist of een hogere frequentie gewenst is.

Welke website wordt het vaakst gearchiveerd?

Dagelijks archiveren wij de startpagina en de eerste onderliggende pagina’s van nu.nl

Welke website is als eerste gearchiveerd?

De website ‘Thomas Instituut te Utrecht’ van de Tilburg University is op 20 september 2007 officieel als eerste gearchiveerd. Deze website is in 2016 nog steeds in dezelfde vormgeving online.

Welke website is het grootst?

Momenteel is de website Nu.nl met een omvang van ruim 62 gigabyte het grootst in het webarchief.

Kan ik een website aandragen voor opname?

U kunt uw verzoek richten tot webarchivering@kb.nl. Een van onze collectiespecialisten beoordeelt de website. Mocht tot opname besloten worden, dan ontvangt de website-eigenaar van ons een bericht.

Hoeveel websites in het webarchief bestaan niet meer online?

Voor het hele webarchief is daar nog geen antwoord op te geven. In het eerste halfjaar (september 2007-maart 2008) zijn ongeveer 1.000 websites door ons geselecteerd en gearchiveerd. In 2016 bleek 25% niet meer online vindbaar.

Website Griepepidemie 2009
Website Griepepidemie 2009
Website Geldmuseum 2013
Website Geldmuseum 2013

Toegang tot het webarchief

Waar kan ik het webarchief vinden?

Het webarchief is toegankelijk via de publieksterminals in de leeszalen van de Koninklijke Bibliotheek voor pashouders. Beschikbaarstelling via de KB-website is vanwege juridische belemmeringen vooralsnog niet mogelijk.

Wanneer is een geselecteerde website voor het eerst te zien in het webarchief?

Na selectie is er een wachttijd van vier weken voordat de website wordt gearchiveerd. Enkele maanden daarna is de website toegankelijk via een speciale interface op de publieksterminals in de leeszalen van de Koninklijke Bibliotheek.

Waarom ontbreken delen van gearchiveerde websites?

Ons streven is om websites compleet te archiveren. Helaas zijn niet alle toegepaste technieken te archiveren. Functionaliteiten die contact vereisen met de oorspronkelijke server, zoals formulieren en filters, ontbreken. Onderdelen achter een inlogprocedure blijven ook buiten beeld.
Voor de speciale webcollecties kunnen de collectiespecialisten onderdelen of zelfs afzonderlijke pagina’s van een website selecteren.

Kunnen jullie gegevens van of over mij uit het webarchief verwijderen?

Ons uitgangspunt is dat gegevens op openbare websites ook daadwerkelijk openbaar zijn. Het strijkt in tegen het principe van een webarchief om gegevens te verwijderen. Mocht u bezwaar willen aantekenen, dan kunt u een met redenen omkleed verzoek tot verwijdering richten aan webarchivering@kb.nl.

Voor website-eigenaren

Vragen jullie om toestemming voor opname in het webarchief?

Voor het collectioneren van websites brengen wij vooraf de website-eigenaren op de hoogte van ons voornemen. Dit doen wij met een zogenaamd opt-outbericht. Hierin staat ons voornemen om een specifieke website op te nemen in het webarchief, gerelateerd aan het belang van het duurzaam bewaren van websites. De geadresseerde kan binnen een termijn van vier weken toestemming weigeren. In het opt-outbericht nodigen wij uit om contact met ons op te nemen als meer informatie wenselijk is.
Zie ook: Juridische aspecten bij webarchivering.

Wat is de meest voorkomende reden voor weigering?

De website-eigenaar ziet het nut van archivering voor hem of voor zijn organisatie niet in. Wij laten dan weten dat wij niet alleen archiveren voor de eigenaar, maar ook voor de onderzoekers die het webarchief gebruiken als informatiebron voor websites die niet meer online beschikbaar zijn.

Waarom sturen jullie een standaardbericht?

Gelet op de omvang van de selectie is het helaas niet mogelijk om alle website-eigenaren met een persoonlijk schrijven te benaderen.

Moet ik betalen voor opname in het webarchief?

Alle kosten worden door de Koninklijke Bibliotheek gedragen.

Kan ik afspraken maken met betrekking tot mijn website?

Wij zijn altijd bereid om samen met de website-eigenaren te kijken hoe de website optimaal in het webarchief terecht kan komen. Het webarchief van de Koninklijke Bibliotheek is echter geen dienst ten behoeve van individuele website-eigenaren.

Merken mijn bezoekers iets tijdens het archiveren?

De gevolgen van het technisch proces om websites in het webarchief op te nemen zijn voor bezoekers van uw website minimaal. De archiveersoftware bezoekt de (server van de) website eens per jaar en loopt alle pagina's af. De software is zo ingesteld dat een zogenaamde request van onze kant (verzoek pagina of bestand op te sturen) 5x zo traag gaat als de tijd die het de webserver kostte om een pagina naar ons op te sturen. Dus als de website een pagina in 0,5 seconde opstuurt dan zal de archiveringssoftware 2,5 seconden wachten voordat een nieuwe pagina opgevraagd wordt. Zo wordt de webserver dus maar beperkt belast. Inmiddels archiveren wij al acht jaar websites zonder dat wij klachten met betrekking tot overbelasting hebben ontvangen, terwijl het bezoek van de Koninklijke Bibliotheek via de logbestanden is te achterhalen.

Welke archiveersoftware gebruikt de Koninklijke Bibliotheek?

De archivering vindt plaats met behulp van de software Heritrix. Deze software slaat de bestanden van een website precies zo op zoals ze aan de bezoeker van de site opgestuurd zijn. Voor de permanente opslag worden ze samengevoegd in een .ARC-bestand. Voor het tonen van de gearchiveerde sites maken we gebruik van de applicatie “Wayback machine”, die de gearchiveerde websites weer kan tonen zoals deze eruit zagen op het moment van archivering.. Deze software is ontwikkeld door the Internet Archive.

Respecteren jullie de robots.txt?

In een robots.txt-bestand kan de website-eigenaar beperkingen definiëren, bijvoorbeeld voor bezoekende indexeerdiensten als Google. De praktijk leert dat veel organisaties op hun site een robots.txt hebben staan zonder dat de invulling daarvan bewust gekozen is. Vaak is de robots.txt automatisch door het content management systeem geïnstalleerd en verhindert het een goede archivering van de site doordat archivering van vormgeving (css) en afbeeldingen geblokkeerd wordt. Om deze reden kiezen we er standaard voor om robots.txt te negeren. De archivering van individuele websites kan echter worden aangepast. Zo is bij de archivering van een website in te stellen dan we het robots-txt-bestand op verzoek van de website-eigenaar wel respecteren. Wij gaan dan wel een test uitvoeren om te bepalen wat het gevolg daarvan is.

Archiveren jullie voorbij een inlogprocedure?

Als er persoonlijke gegevens op een website staan, dan zullen deze waarschijnlijk alleen toegankelijk zijn voor geautoriseerde bezoekers door middel van een inlogprocedure. Onze harvester kan alleen de pagina's downloaden die openbaar zijn (die door de harvester gevonden kunnen worden én die te downloaden zijn). Privacygevoelige informatie zullen we zo dus niet kunnen archiveren.

Zijn winkelwagentjes en invulformulieren nog bruikbaar binnen het webarchief?

Een archiefversie is een op zichzelf staande eenheid, waarbij geen contact meer is met de oorspronkelijke server. Daardoor ontbreekt interactiviteit en is het gebruik van winkelwagentjes en invulformulieren niet mogelijk.

Kan ik het bezoek van de archiveersoftware terugvinden in mijn logbestanden?

De user-agent van de crawler bevat onze domeinnaam 'www.kb.nl'. Het huidige ip-adres van de crawler is 145.100.36.85 (webharvest01.kb.nl).