Korpuszok
Korpusz neve | Típusa (beszélt/írott) |
Nyelvek száma |
Leírás |
Létrehozó intézmény |
Koordinátor |
---|---|---|---|---|---|
Parlamint | írott | egynyelvű | Az európai országok nemzeti és regionális parlamentjeinek felszólalásaiból létrejött a több mint 1 milliárd szavas ParlaMint 3.1 korpusz. A 30 millió szavas magyar alkorpusz a parlament 2014. május 6. és 2023. július 31. közötti felszólalásait tartalmazza, metaadatokkal gazdagítva. | HUN-REN NYTK | Ligeti-Nagy Noémi |
Hungarian Webcorpus - magyar webkorpusz és gyakorisági szótár | írott | egynyelvű | A magyar weben található honlapokból 2003-ban készült 589 millió szavas korpusz, négy alkategóriával. Open Content licensz alatt áll. | BME MOKK | Varga Dániel |
Hunglish angol-magyar párhuzamos korpusz és mondattár | írott | kétnyelvű | Ingyenesen elérhető, mondatszinten rendezett magyar-angol párhuzamos korpusz. 4 millió mondatpárban 120 millió szót tartalmaz. | BME MOKK | Varga Dániel |
Beszédadatbázisok gépi beszédfelismeréshez | beszélt | egynyelvű | Összesen 31 darab különböző adatbázis (a zajos telefonbeszélgetéstől a patologikus beszédig) a gépi beszédfelismeréshez. | BME TMIT | Vicsi Klára |
Budapesti Szociolingvisztikai Interjú (BUSZI) | beszélt | egynyelvű | A BUSZI beszélt nyelvi korpusz 1987-89-ben készült nagyszabású felmérés, amely megbízható adatokat és elemzéseket szolgáltat a magyar nyelv Budapesten beszélt változatairól. | MTA NYTI | Váradi Tamás |
MNSZ szógyakorisági adatbázis | írott | egynyelvű | Az MNSZ szóalakjainak és lemmáinak gyakorisági adatbázisa összesíve valamint regiszterekre bontva. | MTA NYTI | Váradi Tamás |
Magyar Nemzeti Szövegtár | írott | egynyelvű | Több mint egymilliárd szavas, nyelvi elemzést is tartalmazó írott nyelvi korpusz öt regionális nyelvváltozattal és öt stílusréteggel. | MTA NYTI | Váradi Tamás |
Magyar ragozási adatbázis | MTA NYTI | Váradi Tamás | |||
Magyar Óvodai Nyelvi Korpusz (MONYEK) | beszélt | egynyelvű | A korpusz 62 óvodással készült beszélgetést tartalmaz, több feladattípussal. | MTA NYTI | Jelencsik-Mátyus Kinga |
Ómagyar korpusz | írott | egynyelvű | Annotált korpusz, amely tartalmazza az összes fennmaradt ómagyar kori (896–1526) szövegemléket, és amely nyelvészetileg releváns kérdésekre tud választ szolgáltatni. | MTA NYTI | Simon Eszter |
Uráli adatbázis | írott és beszélt | többnyelvű | Annotált adatbázis udmurt, tundrai nyenyec, szinjai és szurguti hanti nyelvű, írott és beszélt nyelvi szövegekből, amely lehetővé teszi az uráli–orosz kontaktushatás kutatását. | MTA NYTI | Simon Eszter |
4lang fogalmi szótár | írott | többnyelvű | Magyar, angol, latin és lengyel nyelvű szótár a szavak absztrakt jelentésével és fogalmak közti kapcsolatokkal. | MTA SZTAKI | Makrai Márton |
BioScope korpusz | írott | egynyelvű | Orvosi és biológiai szövegeket tartalmazó korpusz, tagadást, spekulációt és azok hatókörét tartalmazó annotációval. | SZTE | Vincze Veronika |
Homepage korpusz | írott | egynyelvű | Manuálisan részletesen annotált korpusz webes tartalombányászathoz. A korpusz és a hozzá tartozó annotációs szoftver is letölthető. | SZTE | Vincze Veronika |
HunLearner magyar nyelvtanulói korpusz | írott | egynyelvű | Magyarul tanulók korpusza, amely 35 magyar szakos diák (Zágrábi Egyetem) írásait tartalmazza, amelyeket a magyarlanc eszköz segítségével morfológiailag és szintaktikailag elemeztek. | SZTE | Vincze Veronika |
HunOr magyar-orosz párhuzamos korpusz | írott | kétnyelvű | Magyar-orosz párhuzamos korpusz, jelenleg mintegy 800 ezer szóval. A korpusz morfológiailag annotált és folyamatosan növekszik. | SZTE | Vincze Veronika |
Magyar EuroWordnet fogalomháló | írott | egynyelvű | Lexikai adatbázis, amelyben a szavak jelentés alapján rendeződnek csoportokba (synsetekbe). A magyar EuroWordnet több mint 42 000 synsetet tartalmaz. | SZTE | Vincze Veronika |
Magyar jelentés-egyértelműsített korpusz | írott | egynyelvű | Az MNSZ HVG alkorpuszának felhasználásával készült korpusz. A többértelmű szavak címkézésést a nemzetközi gyakorlatnak megfelelően két nyelvész végezte. | SZTE | Vincze Veronika |
Szeged Dependencia Treebank | írott | egynyelvű | A Szeged Treebank dependencia formátumú változata. A frázisstruktúrás treebankből automatikus elemzéssel készült el a dependencia treebank, melyet kézzel ellenőriztek. | SZTE | Vincze Veronika |
Szeged Named Entity korpusz | írott | egynyelvű | A tulajdonnevek felismerése nagyon fontos az NLP folyamatokban, ehhez nyújt segítséget a Szegeden kidolgozott korpusz. | SZTE | Vincze Veronika |
SzegedParalell: angol-magyar párhuzamos korpusz | írott | kétnyelvű | Angol-magyar párhuzamos korpusz 6 féle szövegmintával (pl. nyelvtankönyvekből, magazinokból). | SZTE | Vincze Veronika |
Szeged TreeBank Szintaktikailag annotált magyar nyelvi korpusz | írott | egynyelvű | A legnagyobb manuálisan annotált magyar korpusz, 6 alkopruszban összesen 1,2 millió szót tartalmaz. | SZTE | Vincze Veronika |
Véleménydetekciós korpusz | írott | egynyelvű | Az első véleménydetekciós korpusz magyar nyelvre. Alapját az országgyűlés kettős állampolgárságra vonatkozó hozzászólásai adják. | SZTE | Vincze Veronika |
Wiki50 korpusz | írott | egynyelvű | 50 angol wikipédia szócikket (4350 mondat) tartalmazó korpusz, melyben számos fajta többszavas kifejezés, valamint négy típusú tulajdonnév címkézését kézzel végezték. | SZTE | Vincze Veronika |