Korpuszok

Korpusz neve	Típusa (beszélt/írott)	Nyelvek száma	Leírás	Létrehozó intézmény	Koordinátor
Parlamint	írott	egynyelvű	Az európai országok nemzeti és regionális parlamentjeinek felszólalásaiból létrejött a több mint 1 milliárd szavas ParlaMint 3.1 korpusz. A 30 millió szavas magyar alkorpusz a parlament 2014. május 6. és 2023. július 31. közötti felszólalásait tartalmazza, metaadatokkal gazdagítva.	HUN-REN NYTK	Ligeti-Nagy Noémi
Hungarian Webcorpus - magyar webkorpusz és gyakorisági szótár	írott	egynyelvű	A magyar weben található honlapokból 2003-ban készült 589 millió szavas korpusz, négy alkategóriával. Open Content licensz alatt áll.	BME MOKK	Varga Dániel
Hunglish angol-magyar párhuzamos korpusz és mondattár	írott	kétnyelvű	Ingyenesen elérhető, mondatszinten rendezett magyar-angol párhuzamos korpusz. 4 millió mondatpárban 120 millió szót tartalmaz.	BME MOKK	Varga Dániel
Beszédadatbázisok gépi beszédfelismeréshez	beszélt	egynyelvű	Összesen 31 darab különböző adatbázis (a zajos telefonbeszélgetéstől a patologikus beszédig) a gépi beszédfelismeréshez.	BME TMIT	Vicsi Klára
Budapesti Szociolingvisztikai Interjú (BUSZI)	beszélt	egynyelvű	A BUSZI beszélt nyelvi korpusz 1987-89-ben készült nagyszabású felmérés, amely megbízható adatokat és elemzéseket szolgáltat a magyar nyelv Budapesten beszélt változatairól.	MTA NYTI	Váradi Tamás
MNSZ szógyakorisági adatbázis	írott	egynyelvű	Az MNSZ szóalakjainak és lemmáinak gyakorisági adatbázisa összesíve valamint regiszterekre bontva.	MTA NYTI	Váradi Tamás
Magyar Nemzeti Szövegtár	írott	egynyelvű	Több mint egymilliárd szavas, nyelvi elemzést is tartalmazó írott nyelvi korpusz öt regionális nyelvváltozattal és öt stílusréteggel.	MTA NYTI	Váradi Tamás
Magyar ragozási adatbázis				MTA NYTI	Váradi Tamás
Magyar Óvodai Nyelvi Korpusz (MONYEK)	beszélt	egynyelvű	A korpusz 62 óvodással készült beszélgetést tartalmaz, több feladattípussal.	MTA NYTI	Jelencsik-Mátyus Kinga
Ómagyar korpusz	írott	egynyelvű	Annotált korpusz, amely tartalmazza az összes fennmaradt ómagyar kori (896–1526) szövegemléket, és amely nyelvészetileg releváns kérdésekre tud választ szolgáltatni.	MTA NYTI	Simon Eszter
Uráli adatbázis	írott és beszélt	többnyelvű	Annotált adatbázis udmurt, tundrai nyenyec, szinjai és szurguti hanti nyelvű, írott és beszélt nyelvi szövegekből, amely lehetővé teszi az uráli–orosz kontaktushatás kutatását.	MTA NYTI	Simon Eszter
4lang fogalmi szótár	írott	többnyelvű	Magyar, angol, latin és lengyel nyelvű szótár a szavak absztrakt jelentésével és fogalmak közti kapcsolatokkal.	MTA SZTAKI	Makrai Márton
BioScope korpusz	írott	egynyelvű	Orvosi és biológiai szövegeket tartalmazó korpusz, tagadást, spekulációt és azok hatókörét tartalmazó annotációval.	SZTE	Vincze Veronika
Homepage korpusz	írott	egynyelvű	Manuálisan részletesen annotált korpusz webes tartalombányászathoz. A korpusz és a hozzá tartozó annotációs szoftver is letölthető.	SZTE	Vincze Veronika
HunLearner magyar nyelvtanulói korpusz	írott	egynyelvű	Magyarul tanulók korpusza, amely 35 magyar szakos diák (Zágrábi Egyetem) írásait tartalmazza, amelyeket a magyarlanc eszköz segítségével morfológiailag és szintaktikailag elemeztek.	SZTE	Vincze Veronika
HunOr magyar-orosz párhuzamos korpusz	írott	kétnyelvű	Magyar-orosz párhuzamos korpusz, jelenleg mintegy 800 ezer szóval. A korpusz morfológiailag annotált és folyamatosan növekszik.	SZTE	Vincze Veronika
Magyar EuroWordnet fogalomháló	írott	egynyelvű	Lexikai adatbázis, amelyben a szavak jelentés alapján rendeződnek csoportokba (synsetekbe). A magyar EuroWordnet több mint 42 000 synsetet tartalmaz.	SZTE	Vincze Veronika
Magyar jelentés-egyértelműsített korpusz	írott	egynyelvű	Az MNSZ HVG alkorpuszának felhasználásával készült korpusz. A többértelmű szavak címkézésést a nemzetközi gyakorlatnak megfelelően két nyelvész végezte.	SZTE	Vincze Veronika
Szeged Dependencia Treebank	írott	egynyelvű	A Szeged Treebank dependencia formátumú változata. A frázisstruktúrás treebankből automatikus elemzéssel készült el a dependencia treebank, melyet kézzel ellenőriztek.	SZTE	Vincze Veronika
Szeged Named Entity korpusz	írott	egynyelvű	A tulajdonnevek felismerése nagyon fontos az NLP folyamatokban, ehhez nyújt segítséget a Szegeden kidolgozott korpusz.	SZTE	Vincze Veronika
SzegedParalell: angol-magyar párhuzamos korpusz	írott	kétnyelvű	Angol-magyar párhuzamos korpusz 6 féle szövegmintával (pl. nyelvtankönyvekből, magazinokból).	SZTE	Vincze Veronika
Szeged TreeBank Szintaktikailag annotált magyar nyelvi korpusz	írott	egynyelvű	A legnagyobb manuálisan annotált magyar korpusz, 6 alkopruszban összesen 1,2 millió szót tartalmaz.	SZTE	Vincze Veronika
Véleménydetekciós korpusz	írott	egynyelvű	Az első véleménydetekciós korpusz magyar nyelvre. Alapját az országgyűlés kettős állampolgárságra vonatkozó hozzászólásai adják.	SZTE	Vincze Veronika
Wiki50 korpusz	írott	egynyelvű	50 angol wikipédia szócikket (4350 mondat) tartalmazó korpusz, melyben számos fajta többszavas kifejezés, valamint négy típusú tulajdonnév címkézését kézzel végezték.	SZTE	Vincze Veronika