Korpuszok

Korpusz neve Típusa (beszélt/írott)

Nyelvek száma

Leírás

Létrehozó intézmény

Koordinátor
Parlamint írott egynyelvű Az európai országok nemzeti és regionális parlamentjeinek felszólalásaiból létrejött a több mint 1 milliárd szavas ParlaMint 3.1 korpusz. A 30 millió szavas magyar alkorpusz a parlament 2014. május 6. és 2023. július 31. közötti felszólalásait tartalmazza, metaadatokkal gazdagítva. HUN-REN NYTK Ligeti-Nagy Noémi
Hungarian Webcorpus - magyar webkorpusz és gyakorisági szótár írott egynyelvű A magyar weben található honlapokból 2003-ban készült 589 millió szavas korpusz, négy alkategóriával. Open Content licensz alatt áll. BME MOKK Varga Dániel
Hunglish angol-magyar párhuzamos korpusz és mondattár írott kétnyelvű Ingyenesen elérhető, mondatszinten rendezett magyar-angol párhuzamos korpusz.  4 millió mondatpárban 120 millió szót tartalmaz.  BME MOKK Varga Dániel
Beszédadatbázisok gépi beszédfelismeréshez beszélt egynyelvű Összesen 31 darab különböző adatbázis (a zajos telefonbeszélgetéstől a patologikus beszédig) a gépi beszédfelismeréshez. BME TMIT Vicsi Klára
Budapesti Szociolingvisztikai Interjú (BUSZI) beszélt egynyelvű A BUSZI beszélt nyelvi korpusz 1987-89-ben készült nagyszabású felmérés, amely megbízható adatokat és elemzéseket szolgáltat a magyar nyelv Budapesten beszélt változatairól. MTA NYTI Váradi Tamás
MNSZ szógyakorisági adatbázis írott egynyelvű Az MNSZ szóalakjainak és lemmáinak gyakorisági adatbázisa összesíve valamint regiszterekre bontva. MTA NYTI Váradi Tamás
Magyar Nemzeti Szövegtár írott egynyelvű Több mint egymilliárd szavas, nyelvi elemzést is tartalmazó írott nyelvi korpusz öt regionális nyelvváltozattal és öt stílusréteggel. MTA NYTI Váradi Tamás
Magyar ragozási adatbázis       MTA NYTI Váradi Tamás
Magyar Óvodai Nyelvi Korpusz (MONYEK) beszélt  egynyelvű A korpusz 62 óvodással készült beszélgetést tartalmaz, több feladattípussal. MTA NYTI Jelencsik-Mátyus Kinga
Ómagyar korpusz  írott egynyelvű Annotált korpusz, amely tartalmazza az összes fennmaradt ómagyar kori (896–1526) szövegemléket, és amely nyelvészetileg releváns kérdésekre tud választ szolgáltatni. MTA NYTI Simon Eszter
Uráli adatbázis írott és beszélt többnyelvű Annotált adatbázis udmurt, tundrai nyenyec, szinjai és szurguti hanti nyelvű, írott és beszélt nyelvi szövegekből, amely lehetővé teszi az uráli–orosz kontaktushatás kutatását. MTA NYTI  Simon Eszter
4lang fogalmi szótár írott többnyelvű Magyar, angol, latin és lengyel nyelvű szótár a szavak absztrakt jelentésével és fogalmak közti kapcsolatokkal.  MTA SZTAKI Makrai Márton
BioScope korpusz írott egynyelvű Orvosi és biológiai szövegeket tartalmazó korpusz, tagadást, spekulációt és azok hatókörét tartalmazó annotációval.  SZTE Vincze Veronika
Homepage korpusz írott egynyelvű Manuálisan részletesen annotált korpusz webes tartalombányászathoz. A korpusz és a hozzá tartozó annotációs szoftver is letölthető.  SZTE Vincze Veronika
HunLearner magyar nyelvtanulói korpusz írott egynyelvű Magyarul tanulók korpusza, amely 35 magyar szakos diák (Zágrábi Egyetem) írásait tartalmazza, amelyeket a magyarlanc eszköz segítségével morfológiailag és szintaktikailag elemeztek.  SZTE Vincze Veronika
HunOr magyar-orosz párhuzamos korpusz írott kétnyelvű Magyar-orosz párhuzamos korpusz, jelenleg mintegy 800 ezer szóval. A korpusz morfológiailag annotált és folyamatosan növekszik.  SZTE Vincze Veronika
Magyar EuroWordnet fogalomháló írott egynyelvű Lexikai adatbázis, amelyben a szavak jelentés alapján rendeződnek csoportokba (synsetekbe). A magyar EuroWordnet több mint 42 000 synsetet tartalmaz.  SZTE Vincze Veronika
Magyar jelentés-egyértelműsített korpusz írott egynyelvű Az MNSZ HVG alkorpuszának felhasználásával készült korpusz. A többértelmű szavak címkézésést a nemzetközi gyakorlatnak megfelelően két nyelvész végezte. SZTE Vincze Veronika
Szeged Dependencia Treebank írott egynyelvű A Szeged Treebank dependencia formátumú változata. A frázisstruktúrás treebankből automatikus elemzéssel készült el a dependencia treebank, melyet kézzel ellenőriztek.  SZTE Vincze Veronika
Szeged Named Entity korpusz írott egynyelvű A tulajdonnevek felismerése nagyon fontos az NLP folyamatokban, ehhez nyújt segítséget a Szegeden kidolgozott korpusz. SZTE Vincze Veronika
SzegedParalell: angol-magyar párhuzamos korpusz írott kétnyelvű Angol-magyar párhuzamos korpusz 6 féle szövegmintával (pl. nyelvtankönyvekből, magazinokból).  SZTE Vincze Veronika
Szeged TreeBank Szintaktikailag annotált magyar nyelvi korpusz írott egynyelvű A legnagyobb manuálisan annotált magyar korpusz, 6 alkopruszban összesen 1,2 millió szót tartalmaz.  SZTE Vincze Veronika
Véleménydetekciós korpusz írott  egynyelvű Az első véleménydetekciós korpusz magyar nyelvre. Alapját az országgyűlés kettős állampolgárságra vonatkozó hozzászólásai adják.  SZTE Vincze Veronika
Wiki50 korpusz írott egynyelvű 50 angol wikipédia szócikket (4350 mondat) tartalmazó korpusz, melyben számos fajta többszavas kifejezés, valamint négy típusú tulajdonnév címkézését kézzel végezték. SZTE Vincze Veronika