Corpora & lexica

Het Instituut voor de Nederlandse Taal legt gespecialiseerde dataverzamelingen aan en stelt die beschikbaar voor taalkundig onderzoek: grote verzamelingen geschreven of gesproken teksten (corpora) en gestructureerde datasets met woorden en taalkundige informatie (lexica).

Corpora

Een corpus is een grote verzameling geschreven of gesproken teksten, gemaakt om een taal te kunnen bestuderen en beschrijven. Corpora worden als basis gebruikt voor het maken van woordenboeken, computationele lexica en grammatica’s en voor allerlei wetenschappelijk onderzoek.

Brieven als Buit (origineel + aanvulling)

Het corpus Brieven als Buit bevat 1.000 Sailing Letters: Nederlandse brieven uit de tweede helft van de 17e tot de vroege 19e eeuw van en aan het thuisfront, die zijn buitgemaakt door kapers en in Britse archieven zijn bewaard. De teksten in het corpus zijn aangevuld met taalkundige informatie. Brieven als Buit-2 is een aanvulling op het originele corpus en bevat ruim 1.300 Sailing Letters. Deze teksten zijn niet taalkundig verrijkt maar wel voorzien van metadata.

Corpus Gysseling

Het Corpus Gysseling is een verzameling 13e-eeuwse teksten. Het bestaat uit voornamelijk ambtelijke en literaire teksten die gebruikt zijn als bronnenmateriaal voor het Vroegmiddelnederlands Woordenboek (VMNW). De teksten in het corpus zijn taalkundig verrijkt (aangevuld met taalkundige informatie).

Corpus Hedendaags Nederlands

Het Corpus Hedendaags Nederlands (CHN) is een groeiende tekstverzameling van meer dan 2.500.000 teksten uit kranten, tijdschriften, blogs, websites, journaaluitzendingen en romans. Het corpus is automatisch aangevuld met taalkundige informatie zoals woordsoort en lemma.

Corpus Juridisch Nederlands

Het Corpus Juridisch Nederlands omvat een verzameling van 5.856 wetsteksten uit de periode 1814 tot 1989, die per jaar zijn samengevoegd. Aanvankelijk maakte dit corpus deel uit van het 38 miljoenwoordencorpus en later van het Corpus Hedendaags Nederlands. Sinds 2021 is het beschikbaar gemaakt in een zelfstandige corpusapplicatie. Het corpus is automatisch taalkundig verrijkt met woordsoort en lemma.

Corpus Middelnederlands

Het Corpus Middelnederlands is een verzameling van ruim 350 Middelnederlandse rijm- en prozateksten uit de periode 1300-1550. Het corpus bevat veel literair materiaal, waaronder de Beatrijs en de Reynaert. Het corpus is in 2021 online gekomen en wordt op termijn aangevuld met woordsoort en trefwoord om het beter doorzoekbaar te maken.

Corpus Oudnederlands

Het Corpus Oudnederlands is een verzameling van al het bekende Nederlandse woordmateriaal uit de periode 475-1200. Het bestaat uit drie grote teksten (Wachtendonkse Psalmen, Leidse Willeram, Mittelfränkische Reimbibel) en een aantal kleinere teksten, fragmenten, losse woorden en plaatsnamen. Het corpus is taalkundig verrijkt met woordsoort en lemma, en is gebruikt als bronnenmateriaal voor het Oudnederlands Woordenboek (ONW).

Couranten Corpus

Het Couranten Corpus omvat de zeventiende-eeuwse Nederlandse kranten die op Delpher beschikbaar zijn. De oudst overgeleverde kranten zijn gepubliceerd in 1618. Dit corpus bevat momenteel de inhoud van 13 kranten, 109.532 artikelen en 18.926.425 woorden. De informatie in deze kranten is van belang voor onderzoekers van verschillende disciplines, variërend van historici tot historische taalkundigen, literatuurwetenschappers en kunsthistorici.

Eindhoven-corpus

Het Eindhoven-corpus is een verzameling Nederlandstalige geschreven en (uitgeschreven) gesproken teksten uit de periode van 1960 tot 1976. Het bevat materiaal uit kranten en tijdschriften en correspondentie tussen de regering en de Staten-Generaal, en diverse gesproken bronnen. Het is in diverse fases verbeterd. Versie 2.5 is door het Instituut voor de Nederlandse Taal bruikbaar gemaakt in een hedendaagse corpusapplicatie.

Gekaapte brieven

Het corpus Gekaapte brieven is een verzameling van circa 6000 brieven en andere documenten zoals rekeningen die in de zeventiende en achttiende eeuw als scheepspost aan Nederlandse schepen zijn meegegeven. Tijdens een van de vier oorlogen tussen de Republiek en Groot-Brittannië zijn ze door de Engelsen gekaapt, met name in de periodes 1664-1672 en 1773-1790.

Nederlab

Nederlab is een webinterface die onderzoekers in staat stelt verspreide digitale historische corpora als eenheid te doorzoeken en te analyseren; dit geldt zowel voor tekstniveau als voor metadataniveau.

Computationele lexica

Computationele lexica zijn gestructureerde datasets met woorden en taalkundige informatie over die woorden (woordsoort, uitspraak, betekenis, etc.), bedoeld om door een computerprogramma gebruikt te worden. Bronnen van lexica zijn corpora, andere lexica, of woordenboeken met citaten.

DiaMaNT

DiaMaNT staat voor Diachroon seMantisch lexicon van de Nederlandse Taal. Het is een computationeel semantisch lexicon in ontwikkeling, dat betekenisinformatie over woorden door de tijd heen moet bieden. DiaMaNT legt verbanden tussen woordvormen en betekeniseenheden (concepten), en plaatst ze in de tijd.

GiGaNT

GiGaNT staat voor Groot Geïntegreerd Lexicon van de Nederlandse Taal. Het is een computationeel lexicon in ontwikkeling van de Nederlandse taal vanaf de zesde eeuw tot en met het heden. Dit lexicon vormt straks een verzameling van woorden en woordgroepen in alle mogelijke spelling- en vormvarianten. Het biedt bij elk woord veel extra taalkundige informatie.

IMPACT-lexica

IMPACT was een Europees project dat was opgezet om historische teksten online toegankelijker te maken. Er zijn daarbij diverse lexica tot stand gekomen, bedoeld om in te kunnen zetten voor OCR, OCR-postcorrectie en betere zoekmogelijkheden in teksten

PAROLE-lexicon

Het PAROLE-lexicon is een computationeel lexicon met modern Nederlands taalmateriaal van ongeveer 1970-1998. Het bevat ruim 20.000 entry’s, die voorzien zijn van woordsoort, getal, naamval en gebruik in de zin. Het lexicon is gebouwd in de periode 1996-1998 en is onderdeel van een project voor basiscorpora en -lexica voor alle Europese talen.