Automatisch metadateren met de Demosaurus
Wat is automatisch metadateren precies? En waarom is het van belang? Alle boeken, kranten en tijdschriften die binnenkomen bij de KB, komen in de KB-catalogus te staan. Van elk werk schrijven we op wie de auteur is, wanneer het verschenen is, bij welke uitgever, wat het formaat is, enzovoorts. Dit gebeurt handmatig, maar de KB onderzoekt of het toevoegen van deze informatie (ook wel metadata genoemd) ook automatisch kan, ter ondersteuning van het handwerk. De tool die we hiervoor ontwikkelen heet de Demosaurus.
Wat is automatisch metadateren?
Bij het automatisch metadateren maken we gebruik van Artificial Intelligence (AI), oftewel kunstmatige intelligentie. Met behulp van computers onderzoeken we de mogelijkheid om automatisch metadata toe te kennen aan nieuwe werken in onze collectie. Dit gebeurt nu nog handmatig door een gespecialiseerd team van catalogiseerders. Maar een simpele titelbeschrijving bestaat al snel uit 20 of 30 verschillende velden, en bij complexe titels zijn dat er nog meer. De KB ontwikkelt een tool die de catalogiseerders kan ondersteunen. Deze tool heet de Demosaurus.
Deze tool:
• Maakt gebruik van de open source tool Annif. De Finse nationale bibliotheek ontwikkelde deze. De tool richt zich op automatisch indexeren en indelen van onderwerpen. De KB ontwikkelt de tool verder tot een voor de KB bruikbaar model.
• Toont een lijst met trefwoorden waarvan het systeem denkt dat ze bij de titels horen. Bijvoorbeeld over genre of onderwerp.
• Is gekoppeld aan de Nederlandse Thesaurus van Auteursnamen (NTA). Hierin staat informatie over Nederlandstalige makers als auteurs en illustratoren, bijvoorbeeld namen, spellingvarianten daarvan, geboortedatum en beroep. Zo kunnen we auteurs en illustratoren die dezelfde namen hebben van elkaar onderscheiden en zorgen we dat het boek bij het oeuvre van de juiste persoon komt te staan.
• Toont dankzij informatie uit de NTA een lijst met meest waarschijnlijke makers. De tool vermoedt dat ze de tekst geschreven of geïllustreerd kunnen hebben.
• Doet alleen suggesties. De uiteindelijke keuze ligt altijd bij de catalogiseerders.
Voor wie ontwikkelen we het automatisch metadateren?
Automatisch metadateren helpt de catalogiseerders van de KB. Zij kennen nu nog metadata met de hand toe. Automatisch metadateren moet hen ondersteunen en het beschrijven van titels minder arbeidsintensief maken. Van het werk van de catalogiseerders profiteren uiteindelijk onze lezers en onderzoekers: een goede titelbeschrijving zorgt dat zij de werken vinden die ze zoeken.
Kunstmatige intelligentie en de KB
Kunstmatige intelligentie wordt steeds belangrijker in de bibliotheekwereld en in de geesteswetenschappen. Met machine learning bijvoorbeeld, oftewel door computers te laten leren aan de hand van teksten, kunnen we teksten steeds beter analyseren. Zo achterhalen computers soms al wie een tekst geschreven heeft als de auteur niet bekend is.
Automatisch metadateren is een voorbeeld van hoe we kunstmatige intelligentie toepassen in bibliotheken. We testen de Demosaurus regelmatig samen met onze catalogiseerders. De resultaten worden steeds betrouwbaarder.
Met wie werkt de KB samen?
De Demosaurus bouwt voort op de tool Annif. Deze is gemaakt door de Finse nationale bibliotheek. Voor het ontwikkelen werken we verder samen met hun catalogiseerders. Dankzij hun ervaringen, kennis en tips kan de KB de Demosaurus steeds beter laten werken.
Automatisch metadateren en de KB-missie
Door automatisch metadateren willen we boeken, kranten en tijdschriften steeds beter vindbaar maken voor lezers en onderzoekers. Zo dragen we bij aan een slimmer, creatiever en vaardiger Nederland.