In het e-Depot van de KB worden miljoenen publicaties opgeslagen. Om te zorgen dat deze publicaties ook op de lange termijn nog toegankelijk zijn, wordt uitgebreid onderzoek gedaan. Zo onderzoekt de KB verschillende strategieën om de bestanden leesbaar te houden, zoals emulatie en migratie. Welke strategie er ook gebruikt wordt, in alle gevallen is kennis nodig over de bestandsformaten waarin de publicaties zijn opgeslagen. Een bestandsformaat is de manier waarop de informatie in een computerbestand gecodeerd is. Het kan gaan om een publicatie in PDF of MS Word, een TIFF of JPEG plaatje, een filmpje opgeslagen in MPEG of AVI, een technische tekening in het DWG formaat van AutoCAD, een database als MS Access of MySQL of een bestand opgeslagen in een toekomstig, nu nog niet bekend, formaat.
Om de juiste beslissingen te kunnen nemen over migratie, emulatie of andere te volgen strategieën is het van groot belang dat de KB kennis opbouwt over de verschillende bestandsformaten. Deze expertise kan ook gebruikt worden om keuzes te maken voor een bepaald formaat. Kan een publicatie beter als PDF, TIFF, MS Word of nog een ander formaat worden opgeslagen? En als gekozen wordt voor PDF, welke versie van PDF is dan het beste met het oog op digitale duurzaamheid? Welke mogelijkheden van het bestand moeten wel of niet benut worden? Denk bijvoorbeeld aan de mogelijkheid om een bestand met een wachtwoord te beveiligen.
Resultaten
De KB streeft er naar om in het project Bestandsformatenonderzoek antwoorden te vinden op al deze vragen. Op basis van gestructureerde testen, onderzoek naar softwarespecificaties en onderzoeksresultaten van andere instellingen zullen aanbevelingen worden opgesteld met betrekking tot de duurzame opslag en toegang van diverse bestandsformaten. Verder wordt onderzoek gedaan naar de toegankelijkheid van de diverse formaten, wordt gekeken naar alternatieve viewers en wordt een risicoanalyse opgesteld. Uiteindelijk zal de KB op deze manier met grotere zekerheid de duurzame opslag en toegankelijkheid van de bestanden in het e-Depot kunnen garanderen.
Concreet zal het project de volgende resultaten opleveren:
- Documentatie van de beschrijvende informatie over de bestanden uit het e-Depot (technische preservation metadata, informatie die nodig is om een bestand in de toekomst nog te kunnen interpreteren )
- Documentatie van de opgedane kennis over bestandsformaten, per bestandsformaat en versie. Hierbij wordt met name ingegaan op de invloed van bepaalde eigenschappen van bestandsformaten op de duurzame opslag van bestanden in dit formaat.
- Voor ieder type bestandsformaat dat is opgeslagen in het e-Depot zal een risicoanalyse worden gemaakt en wordt advies gegeven over eventuele stappen (migratie, emulatie of iets anders) die ondernomen moeten worden om het formaat toegankelijk te houden op de lange termijn.
- Er worden richtlijnen opgesteld voor de leveranciers van het e-Depot waarin per bestandsformaat wordt aangegeven welke instellingen en eigenschappen al dan niet gebruikt moeten worden. Zie Publicaties & links# Richtlijnen.
- Waar nodig wordt onderzoek gedaan naar verschillende writers en viewers voor bepaalde bestandsformaten.
- Tot slot worden verschillende tools bestudeerd die preservation metadata uit bestanden kunnen extraheren, zoals JHOVE en DROID. Het gaat hierbij om informatie over bestandsgrootte, gebruikte compressiemethodes en fonts. Aan de hand hiervan wordt een advies opgesteld over de implementatie van één van deze tools in de workflow van het e-Depot.
De bovengenoemde documentatie, adviezen en richtlijnen zullen op deze site gepubliceerd worden.
Planning
Het project Bestandsformatenonderzoek werd uitgevoerd in de periode van oktober 2005 tot en met december 2006.