Nyelvtudományi Kutatóközpont

A Nyelvtudományi Kutatóközpont elődje, a Magyar Tudományos Akadémia Nyelvtudományi Intézete az európai CLARIN projekt egyik alapító tagja volt. A Nyelvtechnológiai Kutatócsoport munkatársai, számos jelentős projektben közreműködve, nagyszabású korpuszok (mint például a Magyar Nemzeti Szövegtár, BEA, UraloNet, BUSZI) és eszközök (például egy magyar-angol gépi fordítórendszer) kifejlesztésében vettek részt. A Kutatócsoport úttörő szerepet töltött be a nyugati nyelvekre kidolgozott számítógépes nyelvfeldolgozás magyarra adaptálásában.
Az Intézet, számos partnerrel együttműködve, létrehozott egy digitális nyelvfeldolgozó rendszert (https://e-magyar.hu/hu/), amely magyar nyelvű szövegek feldolgozásához nyújt segítséget a már meglévő, magyarra kidolgozott számítógépes nyelvfeldolgozó eszközök összegyűjtésével és egységes láncba való integrálásával. Az e-magyar számos modulja egyenként, vagy rendszerben is használható.

A HUN-CLARIN központjaként az Nyelvtudományi Kutatóközpont kiemelt feladata a kutatásiinfrastruktúra-hálózat koordinálása, valamint a HunCLARIN promotálása.

Bővebb információ: www.nytud.hu

Az MTA NYTI kutatói által létrehozott korpuszok és eszközök:

Erőforrás neve	Leírás	Koordinátor
Parlamint	Az európai országok nemzeti és regionális parlamentjeinek felszólalásaiból létrejött a több mint 1 milliárd szavas korpusz. A 30 millió szavas magyar alkorpusz a parlament 2014. május 6. és 2023. július 31. közötti felszólalásait tartalmazza, metaadatokkal gazdagítva.	Váradi Tamás
e-magyar	Számítógépes nyelvfeledolgozó-eszközök elemzőlánca magyar nyelvű szövegek feldolgozásához. A szövegfeldolgozó modul jelenleg nyolc elemzőt tartalmaz.	Váradi Tamás
Budapesti Szociolingvisztikai Interjú (BUSZI)	A BUSZI beszélt nyelvi korpusz 1987-89-ben készült nagyszabású felmérés, amely megbízható adatokat és elemzéseket szolgáltat a magyar nyelv Budapesten beszélt változatairól.	Váradi Tamás
MNSZ szógyakorisági adatbázis	Az MNSZ szóalakjainak és lemmáinak gyakorisági adatbázisa összesítve valamint regiszterekre bontva.	Váradi Tamás
Magyar Nemzeti Szövegtár	Több mint egymilliárd szavas, nyelvi elemzést is tartalmazó írott nyelvi korpusz öt regionális nyelvváltozattal és öt stílusréteggel.	Váradi Tamás
Magyar ragozási adatbázis		Váradi Tamás
Magyar nyelvelemző eszközök a NooJ keretrendszerben	A NooJ rendszer egy nagyon gyors, hatékony szövegelemző rendszer, amelynek célja, hogy támogatást nyújtson a magyar nyelv korszerű technológiával történő, empirikus kutatásához.	Váradi Tamás
Mazsola	Lekérdezőeszköz a magyar igei bővítményszerkezet vizsgálatára. A lekérdező a Magyar Nemzeti Szövegtár anyagára épül.	Sass Bálint
Magyar Óvodai Nyelvi Korpusz (MONYEK)	A korpusz 62 óvodással készült beszélgetést tartalmaz, több feladattípussal.	Jelencsik-Mátyus Kinga
Ómagyar korpusz	Annotált korpusz, amely tartalmazza az összes fennmaradt ómagyar kori (896–1526) szövegemléket, és amely nyelvészetileg releváns kérdésekre tud választ szolgáltatni.	Simon Eszter
Uráli adatbázis	Annotált adatbázis udmurt, tundrai nyenyec, szinjai és szurguti hanti nyelvű, írott és beszélt nyelvi szövegekből, amely lehetővé teszi az uráli–orosz kontaktushatás kutatását.	Simon Eszter