Improving Access to Text
Op 1 januari 2008 startte het project Improving Access to Text (IMPACT). Doel van dit project is om de electronische toegang tot historische gedrukte teksten significant te verbeteren en de weg vrij te maken voor de massadigitalisering van het Europese gedrukte cultureel erfgoed. De visie van een Europese digitale bibliotheek kan namelijk alleen werkelijkheid worden als het proces van digitalisering ingrijpend wordt verbeterd.
Doelstellingen
- De toegang tot gedigitaliseerde historische tekst aanmerkelijk verbeteren door innovatie van OCR technologie.
- De belangrijkste hindernissen voor massadigitalisering in Europa wegnemen en daarmee de weg vrijmaken voor de vorming van een echte Europese digitale bibliotheek.
- Duurzame tools en applicaties ontwikkelen die na afloop van het project binnen het opgebouwde Centre of Competence hun nut zullen blijven bewijzen.
Aanleiding
Steeds meer bibliotheken en archieven digitaliseren hun collecties. Jaarlijks worden miljoenen pagina’s uit boeken, kranten en tijdschriften gescand en vervolgens omgezet naar tekst door middel van optische tekenherkenning (OCR). Op deze manier wordt het mogelijk de tekst te doorzoeken en te bewerken, net als bij teksten die oorspronkelijk digitaal zijn. Voor de digitalisering van historisch materiaal is de bestaande commerciële OCR software echter niet geschikt: die levert te lage resultaten op in de herkenning van oude lettertypes en druktechnieken, spellingsvarianten en ingewikkelde lay-out. Post-correctie is duur en tijdrovend en niet geschikt voor digitaliseren op grote schaal. Daarnaast is de kennis over digitalisering ongelijk verspreid over instellingen, binnen Nederland en in Europa, waardoor het wiel steeds opnieuw wordt uitgevonden.
Wat doet IMPACT?
In IMPACT wordt daarom gewerkt aan verschillende innovatieve software applicaties voor OCR, zoals een OCR machine die gebruik maakt van de feedback van gebruikers. Ook worden bronnen ontwikkeld voor de ontsluiting van gedigitaliseerd materiaal, zoals computerwoordenboeken voor oud Nederlands, Duits en nog zeven andere talen. De meeste applicaties zullen worden aangeboden als webservice, geïntegreerd in een gebruiksvriendelijk platform op internet.
IMPACT heeft ook een belangrijk strategisch doel: significante verbetering van het proces van massadigitalisering in Europa: hogere snelheid, volume en kwaliteit, lagere kosten. Dit wordt bereikt door de verspreiding van techniek, kennis en ervaring door Europa. Het project is uitgebreid aanwezig op het web (www.impact-project.eu) en heeft een uitgebreid trainingsprogramma. Ook zal er een ‘Centre of Competence’ worden opgezet waarin de resultaten van IMPACT na afloop van de subsidie beschikbaar blijven en verder ontwikkeld kunnen worden voor de gebruikers.
Uitbreiding
In 2010 is de tweede fase van IMPACT ingegaan. De EC heeft een proposal voor uitbreiding van het project goedgekeurd, hetgeen betekent dat er per 1 april 2010 nog eens 11 nationale bibliotheken, onderzoeksinstellingen en universiteiten uit Frankrijk, Spanje, Polen, Bulgarije, Slovenië en Tsjechië aan het originele consortium van 15 partners zijn toegevoegd. De nieuwe partners zullen zich richten op het ontwikkelen van historische lexica voor hun talen en op het demonstreren en verspreiden van projectresultaten in Zuid- en Oost-Europa.
Organisatie
IMPACT wordt gecoördineerd door de Koninklijke Bibliotheek en uitgevoerd door een consortium van zesentwintig instellingen uit Europa, Israel en Rusland (nationale bibliotheken, universiteiten en bedrijven). Het wordt gefinancierd binnen het Zevende Kader programma van de Europese Commissie (KP7). De doorlooptijd is vier jaar (2008-2011).
Meer informatie is te vinden op de IMPACT project website.