Algemene vragen over het KB-Webarchief

Wat is het KB-Webarchief?

Het KB-Webarchief (of liever gezegd: de webcollectie) is een van de digitale collecties van de KB. Het is niet het webarchief van Nederland, maar bevat een selectie Nederlandse websites die periodiek gearchiveerd worden.

Waarom onderhoudt de KB een webarchief?

Websites horen tot de categorie van digitale publicaties en daarmee tot ons verzamelterrein. Vrijwel alle (grote) nationale bibliotheken archiveren websites uit hun nationale domein en doen dit in het publieke belang of uit een wettelijke verplichting. De KB archiveert websites in het publieke belang. Omdat websites steeds veranderen dreigt er – zonder regelmatige archivering – waardevolle digitale informatie verloren te gaan die anders nergens meer bewaard is. Het web is een onmisbaar onlosmakelijk onderdeel van onze maatschappij geworden. In het eerste halfjaar (september 2007-maart 2008) zijn ongeveer 1.000 websites door ons geselecteerd en gearchiveerd. In 2016 bleek 25% daarvan niet meer online te zijn.

Voldoet het webarchief van de KB aan de Archiefwet?

Het webarchief van de KB is een bibliotheekcollectie die niet hoeft te voldoen aan de Archiefwet.

Wanneer is het webarchief gestart?

In september 2007 zijn de eerste websites officieel aan het webarchief toegevoegd.

Hoe groot is het webarchief?

De selectie bevat ongeveer 23.600 websites met een totale omvang van ongeveer 102 terabyte (31 december 2023).

Zijn er nog meer webarchieven in Nederland?

Er is een aantal webarchieven met lokale - geografisch bepaalde - verzamelingen, zoals de Groninger archieven. Voorbeelden van thematische webarchieven zijn Archipol (websites van politieke partijen) en Beeld & Geluid (websites van publieke omroepen). De webarchieven van een aantal instellingen zijn opgenomen in het Nationaal Register Webarchieven.

Waar kan ik meer informatie vinden over het webarchief van de KB?

Alle informatie over ons webarchief is samengebracht op de pagina Webarchivering en de pagina's die daaronder hangen.

Selectie voor het webarchief

Hoe komt de selectie tot stand?

De selectiecriteria zijn verwoord in het algemene collectiebeleid van de KB: alles van en over Nederland. Voor wat betreft het webarchief is het technisch, juridisch en financieel nog niet mogelijk om alles te archiveren. De collectiespecialisten van de KB selecteren relevante websites op hun vakgebied: Nederlandse taal, cultuur en geschiedenis. In enige mate houden wij rekening met andere Nederlandse webarchieven door bijvoorbeeld geen websites van politieke partijen of publieke omroepen op te nemen. De collectiespecialisten proberen in de selectie een evenwicht in het aanbod te bewaren.

Zijn er alleen Nederlandse websites opgenomen in de collectie?

Het webarchief bevat voornamelijk websites met de domeinextensie .nl. Dat zijn Nederlandse websites, ongeacht de taal waarin zij gesteld zijn.

Waarom archiveert de KB niet het hele Nederlandse webdomein?

Het Nederlandse .nl-webdomein telde in mei 2023 ruim 6.3 miljoen geregistreerde domeinen, maar niet achter elk adres zit een website. Het voor ons technisch, juridisch en financieel nog niet mogelijk om alles te archiveren. Er zijn vooral Juridische aspecten bij webarchivering: wij laten elke website-eigenaar weten dat we zijn of haar website archiveren. Daarnaast zijn wij niet wettelijk verplicht om een Nederlands webarchief te onderhouden.

Zijn er alleen .nl-websites in de selectie opgenomen?

Het webarchief bevat ook Nederlandse websites met regionale (.eu, .frl) en algemene domeinextensies (.com).

Welke websites zijn in de selectie opgenomen?

Enkele keren per jaar publiceren wij een overzicht van het webarchief.

Welke websites vallen buiten de selectie?

Als een website vanwege de gebruikte technieken (bijvoorbeeld Flash of complexe javascript) niet of nauwelijks te archiveren is, is opname niet zinvol. Websites met illegale inhoud worden niet opgenomen. In enige mate houden wij rekening met andere Nederlandse webarchieven door bijvoorbeeld geen websites van politieke partijen of publieke omroepen op te nemen.

Zijn er zwaartepunten aan te wijzen in de collectie?

Websites met historische onderwerpen, musea en overheidswebsites zijn momenteel sterk vertegenwoordigd in de collectie. De collectiespecialisten stellen ook speciale webcollecties samen, bijvoorbeeld rond de troonswisseling in 2013. In 2020 is gestart met het selecteren van Nederlandse websites naar aanleiding van de Covid-19-pandemie, als onderdeel van een internationale webcollectie. In overleg met Tresoar archiveert de KB enkele honderden Friese websites.

Met welke frequentie archiveren jullie websites?

Gewoonlijk is de archiveerfrequentie jaarlijks. Tijdens de selectie bepaalt de collectiespecialist of een hogere frequentie gewenst is.

Welke website wordt het vaakst gearchiveerd?

Dagelijks archiveren wij de startpagina en de eerste onderliggende pagina’s van nu.nl.

Welke website is als eerste gearchiveerd?

De website ‘Thomas Instituut te Utrecht’ van de Tilburg University is op 20 september 2007 officieel als eerste gearchiveerd. Deze website is in 2022 nog steeds in dezelfde vormgeving online.

Welke website is het grootst?

Kan ik een website aandragen voor opname?

U kunt uw verzoek richten tot @email. Een van onze collectiespecialisten beoordeelt de website. Mocht tot opname besloten worden, dan ontvangt de website-eigenaar van ons een bericht.

Hoeveel websites in het webarchief bestaan niet meer online?

Voor het hele webarchief is daar nog geen antwoord op te geven. In het eerste halfjaar (september 2007-maart 2008) zijn ongeveer 1.000 websites door ons geselecteerd en gearchiveerd. In 2016 bleek 25% niet meer online vindbaar.

Toegang tot het webarchief

Waar kan ik het webarchief vinden?

Het webarchief is toegankelijk via de publieksterminals in de leeszalen van de KB voor pashouders. Beschikbaarstelling via de KB-website is vanwege juridische belemmeringen vooralsnog niet mogelijk.

Wanneer is een geselecteerde website voor het eerst te zien in het webarchief?

Na selectie is er een wachttijd van vier weken voordat de website wordt gearchiveerd. Binnen een jaar is de website toegankelijk via een speciale interface op de publieksterminals in de leeszalen van de KB.

Waarom ontbreken delen van gearchiveerde websites?

Ons streven is om websites compleet te archiveren. Helaas zijn niet alle toegepaste technieken te archiveren. Functionaliteiten die contact vereisen met de oorspronkelijke server, zoals formulieren en filters, ontbreken. Onderdelen achter een inlogprocedure blijven ook buiten beeld.
Voor de speciale webcollecties kunnen de collectiespecialisten onderdelen of zelfs afzonderlijke pagina’s van een website selecteren.

Kunnen jullie gegevens van of over mij uit het webarchief verwijderen?

Ons uitgangspunt is dat gegevens op openbare websites ook daadwerkelijk openbaar zijn. Het strijkt in tegen het principe van een webarchief om gegevens te verwijderen. Mocht u bezwaar willen aantekenen, dan kunt u een met redenen omkleed verzoek tot verwijdering richten aan @email. Zie ook de informatie met betrekking tot de Algemene Verordening Gegevensbescherming (AVG).

Voor website-eigenaren

Mag ik vermelden dat mijn website in het KB-webarchief is opgenomen?

Ja, dat mag. U kunt bijvoorbeeld vermelden: ‘Deze website is gearchiveerd door de KB, nationale bibliotheek’. Eventueel kunt u het KB-woordmerk erbij plaatsen.

Vragen jullie om toestemming voor opname in het webarchief?

Voor het collectioneren van websites brengen wij vooraf de website-eigenaren op de hoogte van ons voornemen. Dit doen wij met een zogenaamd opt-outbericht. Hierin staat ons voornemen om een specifieke website op te nemen in het webarchief, gerelateerd aan het belang van het duurzaam bewaren van websites. De geadresseerde kan binnen een termijn van vier weken toestemming weigeren. In het opt-outbericht nodigen wij uit om contact met ons op te nemen als meer informatie wenselijk is. Zie ook Juridische aspecten bij webarchivering.

Wat is de meest voorkomende reden voor weigering?

De website-eigenaar ziet het nut van archivering voor hem of voor zijn organisatie niet in. Wij laten dan weten dat wij niet alleen archiveren voor de eigenaar, maar ook voor de onderzoekers die het webarchief gebruiken als informatiebron voor websites die niet meer online beschikbaar zijn.

Waarom sturen jullie een standaardbericht?

Gelet op de omvang van de selectie is het helaas niet mogelijk om alle website-eigenaren met een persoonlijk schrijven te benaderen.

Moet ik betalen voor opname in het webarchief?

Alle kosten worden door de KB gedragen.

Kan ik afspraken maken met betrekking tot mijn website?

Wij zijn altijd bereid om samen met de website-eigenaren te kijken hoe de website optimaal in het webarchief terecht kan komen. Het webarchief van de KB is echter geen dienst ten behoeve van individuele website-eigenaren.

Kan ik beschikken over archiefversies van mijn eigen website?

Aan opname in het KB-webarchief kunnen geen rechten ontleend worden. Het is geen dienst ten behoeve van individuele website-eigenaren. Wij kunnen nooit garanderen dat een archivering voor 100% geslaagd is. Als een website-eigenaar de garantie wil hebben dat zijn website gearchiveerd wordt volgens zijn eigen wensen, dan zal hij hier zelf zorg voor moeten dragen.

Merken mijn bezoekers iets tijdens het archiveren?

De gevolgen van het technisch proces om websites in het webarchief op te nemen zijn voor bezoekers van uw website minimaal. De archiveersoftware bezoekt de (server van de) website eens per jaar en loopt alle pagina's af. De software is zo ingesteld dat een zogenaamde request van onze kant (verzoek pagina of bestand op te sturen) 5x zo traag gaat als de tijd die het de webserver kostte om een pagina naar ons op te sturen. Dus als de website een pagina in 0,5 seconde opstuurt dan zal de archiveringssoftware 2,5 seconden wachten voordat een nieuwe pagina opgevraagd wordt. Zo wordt de webserver dus maar beperkt belast. Inmiddels archiveren wij al ruim tien jaar websites zonder dat wij klachten met betrekking tot overbelasting hebben ontvangen, terwijl het bezoek van de KB via de logbestanden is te achterhalen.

Welke archiveersoftware gebruikt de KB?

De archivering vindt plaats met behulp van de software Heritrix. Deze software slaat de bestanden van een website precies zo op zoals ze aan de bezoeker van de site opgestuurd zijn. Voor de permanente opslag worden ze samengevoegd in een .WARC-bestand. Voor het tonen van de gearchiveerde sites maken we gebruik van de applicatie “Wayback machine”, die de gearchiveerde websites weer kan tonen zoals deze eruit zagen op het moment van archivering. Deze software is ontwikkeld door the Internet Archive.

Respecteren jullie de robots.txt?

In een robots.txt-bestand kan de website-eigenaar beperkingen definiëren, bijvoorbeeld voor bezoekende indexeerdiensten als Google. De praktijk leert dat veel organisaties op hun site een robots.txt hebben staan zonder dat de invulling daarvan bewust gekozen is. Vaak is de robots.txt automatisch door het content management systeem geïnstalleerd en verhindert het een goede archivering van de site doordat archivering van vormgeving (css) en afbeeldingen geblokkeerd wordt. Om deze reden kiezen we er standaard voor om robots.txt te negeren. De archivering van individuele websites kan echter worden aangepast. Zo is bij de archivering van een website in te stellen dan we het robots-txt-bestand op verzoek van de website-eigenaar wel respecteren. Wij gaan dan wel een test uitvoeren om te bepalen wat het gevolg daarvan is.

Archiveren jullie voorbij een inlogprocedure?

Als er persoonlijke gegevens op een website staan, dan zullen deze waarschijnlijk alleen toegankelijk zijn voor geautoriseerde bezoekers door middel van een inlogprocedure. Onze harvester kan alleen de pagina's downloaden die openbaar zijn (die door de harvester gevonden kunnen worden én die te downloaden zijn). Privacygevoelige informatie zullen we zo dus niet kunnen archiveren.

Zijn winkelwagentjes en invulformulieren nog bruikbaar binnen het webarchief?

Een archiefversie is een op zichzelf staande eenheid, waarbij geen contact meer is met de oorspronkelijke server. Daardoor ontbreekt interactiviteit en is het gebruik van winkelwagentjes en invulformulieren niet mogelijk.

Kan ik het bezoek van de archiveersoftware terugvinden in mijn logbestanden?

De user-agent van de crawler bevat onze domeinnaam 'www.kb.nl'.