Nyelvtudományi Kutatóközpont
A Nyelvtudományi Kutatóközpont elődje, a Magyar Tudományos Akadémia Nyelvtudományi Intézete az európai CLARIN projekt egyik alapító tagja volt. A Nyelvtechnológiai Kutatócsoport munkatársai, számos jelentős projektben közreműködve, nagyszabású korpuszok (mint például a Magyar Nemzeti Szövegtár, BEA, UraloNet, BUSZI) és eszközök (például egy magyar-angol gépi fordítórendszer) kifejlesztésében vettek részt. A Kutatócsoport úttörő szerepet töltött be a nyugati nyelvekre kidolgozott számítógépes nyelvfeldolgozás magyarra adaptálásában.
Az Intézet, számos partnerrel együttműködve, létrehozott egy digitális nyelvfeldolgozó rendszert (https://e-magyar.hu/hu/), amely magyar nyelvű szövegek feldolgozásához nyújt segítséget a már meglévő, magyarra kidolgozott számítógépes nyelvfeldolgozó eszközök összegyűjtésével és egységes láncba való integrálásával. Az e-magyar számos modulja egyenként, vagy rendszerben is használható.
A HUN-CLARIN központjaként az Nyelvtudományi Kutatóközpont kiemelt feladata a kutatásiinfrastruktúra-hálózat koordinálása, valamint a HunCLARIN promotálása.
Bővebb információ: www.nytud.hu
Az MTA NYTI kutatói által létrehozott korpuszok és eszközök:
Erőforrás neve | Leírás | Koordinátor |
---|---|---|
Parlamint | Az európai országok nemzeti és regionális parlamentjeinek felszólalásaiból létrejött a több mint 1 milliárd szavas korpusz. A 30 millió szavas magyar alkorpusz a parlament 2014. május 6. és 2023. július 31. közötti felszólalásait tartalmazza, metaadatokkal gazdagítva. | Váradi Tamás |
e-magyar | Számítógépes nyelvfeledolgozó-eszközök elemzőlánca magyar nyelvű szövegek feldolgozásához. A szövegfeldolgozó modul jelenleg nyolc elemzőt tartalmaz. | Váradi Tamás |
Budapesti Szociolingvisztikai Interjú (BUSZI) | A BUSZI beszélt nyelvi korpusz 1987-89-ben készült nagyszabású felmérés, amely megbízható adatokat és elemzéseket szolgáltat a magyar nyelv Budapesten beszélt változatairól. | Váradi Tamás |
MNSZ szógyakorisági adatbázis | Az MNSZ szóalakjainak és lemmáinak gyakorisági adatbázisa összesítve valamint regiszterekre bontva. | Váradi Tamás |
Magyar Nemzeti Szövegtár | Több mint egymilliárd szavas, nyelvi elemzést is tartalmazó írott nyelvi korpusz öt regionális nyelvváltozattal és öt stílusréteggel. | Váradi Tamás |
Magyar ragozási adatbázis | Váradi Tamás | |
Magyar nyelvelemző eszközök a NooJ keretrendszerben | A NooJ rendszer egy nagyon gyors, hatékony szövegelemző rendszer, amelynek célja, hogy támogatást nyújtson a magyar nyelv korszerű technológiával történő, empirikus kutatásához. | Váradi Tamás |
Mazsola | Lekérdezőeszköz a magyar igei bővítményszerkezet vizsgálatára. A lekérdező a Magyar Nemzeti Szövegtár anyagára épül. | Sass Bálint |
Magyar Óvodai Nyelvi Korpusz (MONYEK) | A korpusz 62 óvodással készült beszélgetést tartalmaz, több feladattípussal. | Jelencsik-Mátyus Kinga |
Ómagyar korpusz | Annotált korpusz, amely tartalmazza az összes fennmaradt ómagyar kori (896–1526) szövegemléket, és amely nyelvészetileg releváns kérdésekre tud választ szolgáltatni. | Simon Eszter |
Uráli adatbázis | Annotált adatbázis udmurt, tundrai nyenyec, szinjai és szurguti hanti nyelvű, írott és beszélt nyelvi szövegekből, amely lehetővé teszi az uráli–orosz kontaktushatás kutatását. | Simon Eszter |