Welke romans waren lang geleden populair? Hoe worden vrouwelijke en mannelijke personages beschreven? Is literatuur meetbaar? In de DBNL-dataset vind je meer dan 5 miljoen gedigitaliseerde pagina’s Nederlandstalige taal- en letterkunde. De bestanden zijn voor een deel vrij toegankelijk en te downloaden.

Wat vind je in de DBNL-dataset?

In de DBNL-dataset kun je onderzoek doen naar Nederlandse en Vlaamse taal- en letterkunde van de middeleeuwen tot vandaag. Ook de Limburgse, Friese, Surinaamse en Zuid-Afrikaanse literatuur zijn vertegenwoordigd.

De dataset bestaat uit gedigitaliseerde teksten, handmatig gecorrigeerd door een redactie, met bijbehorende metadata. In de collectie vind je Middelnederlandse literatuur, maar ook klassieke romans. Daarnaast bevat de dataset tijdschriften uit de neerlandistiek, zoals De Gids en De Revisor.

Hoe is de informatie beschikbaar?

Van elk boek of tijdschriftjaargang in DBNL zijn de volgende bestanden beschikbaar:

  • de fulltext (php)
  • een TEI XML-bestand
  • een .txt-bestand

Vaak is ook beschikbaar:

  • een doorzoekbare pdf
  • een epub
  • een pdf met scans van het boek of tijdschrift

Van teksten waarvan zeker is dat ze niet langer auteursrechtelijk beschermd zijn (‘publiek domein’), zijn zip-bestanden met XML- en .txt-bestanden beschikbaar. Daarnaast is een csv-bestand met metadata beschikbaar. Recenter materiaal mag vanwege het auteursrecht niet als dataset worden aangeboden, maar kan wel per titel gedownload worden als XML- of .txt-bestand.

Voorwaarden voor hergebruik

De KB streeft ernaar om informatie zo open mogelijk te ontsluiten. Dat kan niet altijd omdat er soms nog auteursrecht op DBNL-teksten rust en er (gevoelige) persoonsgegevens in kunnen voorkomen.

Deze dataset valt, op basis van het auteursrecht, uiteen in twee regimes. Werken waarvan de maker langer dan 70 jaar geleden overleden is, vallen in het publieke domein. Dat wil zeggen dat er geen rechten meer op rusten en je ze dus vrij mag gebruiken. Een groot deel van deze rechtenvrije werken is als zip-bestand beschikbaar. Andere werken zijn nog wel auteursrechtelijk en privacyrechtelijk beschermd. Deze zijn voor niet-commercieel wetenschappelijk onderzoek in sommige gevallen op aanvraag beschikbaar.  Vraag hiervoor toegang via @email.

Soms bieden we maatwerk. Stel je vraag via @email.

Contact en feedback

We zijn benieuwd wie onze teksten gebruikt en hoe. We verzoeken je dan ook een mail te sturen met je contactgegevens en een korte uitleg over wat je met de data doet naar @email. Feedback is natuurlijk ook welkom. Het verstrekken van je gegevens geeft ons ook de mogelijkheid om je op de hoogte te houden van relevante ontwikkelingen, zoals wijzigingen in de dataset of het vrijkomen van nieuwe datasets.