Onder content wordt verstaan, al het originele materiaal en de digitale bestanden die daarvan worden gemaakt. De productie van de content vormt de basis van ieder digitaliseringsproject. Welke eisen daaraan gesteld worden hangt af van het doel van het project. Dat kan de online beschikbaarstelling van beeld en/of tekst zijn, maar ook de conservering van kwetsbaar bibliotheek- en archiefmateriaal.

Content die wordt gecreëerd, afhankelijk van het materiaal (beeld of tekst), kan bestaan uit:

  • één master beeldbestand;
  • één of meerdere afgeleide bestanden;
  • machineleesbare tekstbestanden van de pagina;
  • metadata (beschrijvende, structurele en technische).

Beeldbestanden

Er wordt onderscheid gemaakt tussen twee soorten beeldbestanden (images): masterbestanden en afgeleide bestanden. De masterbestanden vormen de basis voor alle verdere bewerkingen. Mogelijke bestandsformaten hiervoor zijn: TIFF 6.0, TIFF LZW, JPEG kwaliteit 10, JPEG2000, PNG. Afgeleide bestanden zijn nodig voor de presentatie op het internet en bij tekstbestanden als ‘intermediair’ voor de verbetering van de OCR. JPEG en searchable PDF zijn hiervoor gangbare formaten.

De kwaliteit van de masterbestanden wordt bepaald door de mate waarin het bestand een getrouwe weergave is van het origineel. Om de kwaliteit te bepalen, spelen verschillende factoren een rol zoals bitdiepte, resolutie, opslagformaat en compressie. Kwaliteitsmanagers controleren de beeldbestanden systematisch en in overleg met de leverancier, die de masterbestanden produceert, worden afspraken gemaakt over de optimale afstemming van de apparatuur en software.

De Koninkijke Bibliotheek heeft onderzoek (zie onderzoeksrapport pdf) gedaan naar bestandsformaten voor de opslag van de masterbestanden. Vanwege de steeds groeiende benodigde opslagcapaciteit, is uiteindelijk gekozen voor JPEG 2000.

Metadata

De beschrijvende en structurele metadata staan ten dienste van de zoekfunctionaliteit op de website. Beschrijvende metadata bevatten bibliografische gegevens, zoals auteur, titel of datum van uitgave. De structurele metadata geven informatie over de structuur van het bestand zoals: paginering, bladzijden, paragrafen, indexen en inhoudsopgave. Het kan ook de relatie tussen de materialen vastleggen, zoals een hoofdstuk uit een boek of een plaatje uit een bepaald document.  Technische metadata beschrijven de technische kenmerken van de masterbestanden, zoals gegevens over de gebruikte scanner, de resolutie, bitdiepte, kleur en lichtbron. Voor het vastleggen van de metadata worden verschillende standaarden gebruikt.