Inleiding
Hoewel het e-Depot een duurzame opslag garandeert, moet ook de toegankelijkheid van digitale documenten op de lange termijn gewaarborgd worden. Uit onderzoek blijkt dat het opslagformaat – de structuur waarin de gegevens van een digitaal document zijn opgeslagen op de informatiedrager – in dit kader een zwak punt is. Formaten zijn vaak complex en niet gebaseerd op open standaarden of specificaties. Omdat de KB streeft naar het behoud van de originele publicatie, komt slechts een beperkt aantal strategieën in aanmerking om de duurzame toegang tot digitale documenten te waarborgen.
Samen met IBM Nederland heeft de KB een nieuwe methode ontwikkeld, gebaseerd op de Universal Virtual Computer (UVC). Met de UVC is het mogelijk om op de lange termijn bestanden te kunnen lezen zonder dat hiervoor de originele hard- en software nodig is of het originele bestand moet worden aangepast. De ontwikkelde methode maakt het mogelijk om afbeeldingen die opgeslagen zijn in JPEG formaat altijd te bekijken, ongeacht technologische veranderingen in de toekomst. De methode is vervolgens uitgebreid voor afbeeldingen in GIF formaat. Het project vond plaats tussen september 2003 en april 2004.
Hoe werkt de UVC?
Met behulp van de ontwikkelde UVC-methode kan elk computerbestand weer tot leven gewekt worden. Of het nu gaat om tekstdocumenten, geluidsopnames, afbeeldingen, spreadsheets of video, met de UVC-methode - nadat deze geschikt is gemaakt voor een bepaald bestandsformaat- is het mogelijk de opgeslagen informatie eeuwig te reconstrueren.
Het concept van de UVC is ontwikkeld door IBM-onderzoeker Raymond Lorie. Op basis hiervan is een implementatie gemaakt die bestaat uit vier componenten:
- Universal Virtual Computer (UVC)
- Format decoder
- Logical Data Schema (LDS)
- Viewer
De samenhang tussen deze vier componenten is schematisch weergegeven in figuur 1.
|
| Figuur 1: Samenhang UVC componenten |
De format decoder is een programma dat kan worden uitgevoerd op de UVC. Dit programma zorgt ervoor dat een bestand, bijvoorbeeld een afbeelding of PDF document, wordt vertaald naar een begrijpelijker formaat, de Logical Data View (LDV). Deze LDV beschrijft stap voor stap hoe het document is opgebouwd. Bij een afbeelding wordt elke pixel beschreven naar de kleuren waaruit het bestaat, terwijl een spreadsheet gedefinieerd wordt door de cellen en formules. Als voor een bepaald bestandsformaat eenmaal een format decoder wordt ontwikkeld, kan hiermee elk bestand in dat formaat ontcijferd worden. Hierbij is het van belang om de decoder voor een bepaald bestandsformaat te ontwikkelen zolang het formaat in kwestie nog bekend is. Zo kan onderzocht worden of de decoder ook werkelijk een goede vertaling maakt ten opzichte van het origineel. Dit betekent dat voor bedreigde formaten snel actie ondernomen zal moeten worden.
Om de samenhang van de elementen in de LDV te bepalen, is een Logical Data Schema (LDS) nodig. De LDS geeft aan welke elementen kunnen voorkomen en hoe deze gerelateerd zijn. Zo kan een pixel in een afbeelding uit de kleuren rood, groen en blauw bestaan. Daarnaast bevat de LDS informatie over de betekenis (semantiek) van deze elementen. Wat betekent de kleur blauw eigenlijk? En hoe kan deze betekenis worden vastgelegd, zodat toekomstige gebruikers nog steeds de authentieke kleuren te zien krijgen? Dit alles is beschreven in een LDS, die voor elk soort digitaal document wordt opgesteld. Tot slot dient de LDV vertaald te worden naar een bekende representatie. Hiervoor wordt het vierde en tevens laatste component gebruikt: een viewer.
In figuur 2 staat het proces schematisch afgebeeld. Een onbekend digitaal document wordt door middel van een format decoder omgezet in een LDV. Deze LDV dient te voldoen aan de structuur zoals gedefinieerd in de LDS. Vervolgens kan de viewer op basis van de LDV en de informatie in de LDS het originele document reconstrueren.
|
| Figuur 2: de UVC methode voor digitale documenten |
De KB oplossing
Momenteel bestaat de elektronische collectie van de KB grotendeels uit publicaties in Portable Document Format (PDF). Om die reden en op basis van de uitkomsten van de ‘proof of concept’ die beschreven is in de Long-Term Preservation (LTP) studie van IBM en de KB, is gekozen om een vangnet-constructie te ontwikkelen voor documenten in PDF met behulp van de UVC methode. Hiervoor zijn de benodigde UVC, LDS en viewer ontwikkeld. Aangezien PDF een complex formaat is en de looptijd van het project beperkt, is voor de ontwikkeling van een format decoder een tussenweg gekozen. Een PDF wordt hierbij eerst omgezet in een serie JPEG afbeeldingen. Elke pagina van een PDF komt dan overeen met een JPEG afbeelding op 300 dpi (dots per inch). Deze stap wordt uitgevoerd door de preservation processor. Vervolgens kunnen alle JPEG afbeeldingen één voor één door middel van de UVC en een JPEG decoder worden gereconstrueerd. Door deze tussenstap verliest het object mogelijk aan functionaliteit: alleen de afbeelding zal nog te zien zijn. Daar staat tegenover dàt er tenminste nog wat te zien is. Op dit moment is dit de enige methode die een dergelijke garantie kan bieden. De keuze voor een UVC voor JPEG betekent dat deze optie - een soort vangnet - voor ieder huidig formaat geldt: alle opgeslagen documenten kunnen immers naar JPEG geconverteerd worden. In figuur 3 zijn alle stappen van PDF tot representatie weergegeven.
|
| Figuur 3: van PDF naar representatie |
|
| Figuur 4 |
|
| Figuur 5 |
De bevindingen
Met behulp van de UVC methode kunnen nu zowel JPEG als GIF afbeeldingen met zekerheid gereconstrueerd worden, ook op de lange termijn. Evaluatie van deze methode toonde dat de UVC een veelbelovende techniek is. Om wereldwijd inzetbaar te worden is het belangrijk dat de UVC methode nu verder uitgebreid wordt. Dit houdt in dat er meerdere decoders, LDS en viewers ontwikkeld moeten worden. Op deze manier kan de UVC geschikt worden gemaakt voor duurzaam behoud van documenten, ongeacht het opslagformaat. In het kort kunnen de volgende voordelen aan de UVC methode worden toegeschreven:
- Lange termijn toegankelijkheid gegarandeerd
- Originele document kan behouden blijven
- Hard- en software onafhankelijk
- Geen periodieke actie nodig (in tegenstelling tot migratie)
- Efficiënt: één decoder geeft toegang tot elk document in hetzelfde formaat
Toekomstig werk:
- Verbeteren van de performance
- Ontwikkelen van meerdere decoders, LDS en viewers
- Ondersteuning voor ontwikkeling van programma's voor de UVC.
De KB streeft ernaar om deze taken de komende jaren, eventueel in samenwerking met andere instellingen, op te pakken.
Zelf proberen
De UVC methode kan gratis worden gedownload van de IBM Alphaworks website: http://www.alphaworks.ibm.com/tech/uvc
Het pakket dat kan worden gedownload bevat: Een UVC ontwikkeld in Java; twee format decoders (JPEG en GIF); een image viewer (met ingebouwde LDS voor afbeeldingen) en een set met testafbeeldingen in JPEG en GIF-formaat.
Het UVC project werd uitgevoerd door IBM Nederland en de Koninklijke Bibliotheek, met ondersteuning van het IBM Research Center Almaden, USA.
Meer informatie
Artikelen
- Lorie, R., The UVC: a method for preserving digital documents - proof of concept. LTP report serie, nummer 4, 2002.
- Wijngaarden, H. van en Oltmans, E., Digital Preservation and Permanent Access: the UVC for images, 2004.
- Hoeven, J.R. van der, Diessen, R.J. van en Meer, K. van der, Development of a Universal Virtual Computer (UVC) for long-term preservation of digital objects, Journal of Information Science, vol. 31(3), p. 196-208, 2005.
- Wikipedia, Universal Virtual Computer: http://en.wikipedia.org/wiki/Universal_Virtual_Computer
Presentaties
- Hoeven, J.R. van der, UVC and emulation as preservation strategies. Workshop on electronic publishing, Lund, Zweden 2005
Contact
Voor meer informatie over dit project kunt u contact opnemen met Hilde van Wijngaarden