Szegedi Tudományegyetem
A Szegedi Tudományegyetem a Magyar Tudományos Akadémiával közös kutatócsoportja, a Mesterséges Intelligencia Kutatócsoport 1996 óta foglalkozik nyelvtechnológiával. A kutatócsoport jelenlegi fókuszai a nyelvfeldolgozás és a beszédtechnológia, amelyhez a gépi tanulás módszertani és elméleti területein is folynak kutatások.
A csoportban kidolgozott nagyméretű korpuszok, mint például a kézzel egyértelműsített Szeged Korpusz és TreeBank, a Magyar WordNet és a SzegedNE lehetőséget nyújtanak a gépi tanulási módszerek alkalmazására magyar és angol nyelvű szövegek szintaktikai és szemantikai elemzésében. A csoport rendelkezik az ehhez szükséges eszközökkel, például szófaji és szintaktikai elemzővel, tulajdonnév-felismerővel.
További információ: http://rgai.inf.u-szeged.hu
Az SZTE által létrehozott korpuszok és eszközök:
Erőforrás neve | Leírás | Koordinátor |
---|---|---|
BioScope korpusz | Orvosi és biológiai szövegeket tartalmazó korpusz, tagadást, spekulációt és azok hatókörét tartalmazó annotációval. | Vincze Veronika |
Homepage korpusz | Manuálisan részletesen annotált korpusz webes tartalombányászathoz. A korpusz és a hozzá tartozó annotációs szoftver is letölthető. | Vincze Veronika |
HunLearner magyar nyelvtanulói korpusz | Magyarul tanulók korpusza, amely 35 magyar szakos diák (Zágrábi Egyetem) írásait tartalmazza, amelyeket a magyarlanc eszköz segítségével morfológiailag és szintaktikailag elemeztek. | Vincze Veronika |
HunOr magyar-orosz párhuzamos korpusz | Magyar-orosz párhuzamos korpusz, jelenleg mintegy 800 ezer szóval. A korpusz morfológiailag annotált és folyamatosan növekszik. | Vincze Veronika |
Magyar EuroWordnet fogalomháló | Lexikai adatbázis, amelyben a szavak jelentés alapján rendeződnek csoportokba (synsetekbe). A magyar EuroWordnet több mint 42 000 synsetet tartalmaz. | Vincze Veronika |
Magyar jelentés-egyértelműsített korpusz | Az MNSZ HVG alkorpuszának felhasználásával készült. A többértelmű szavak címkézésést a nemzetközi gyakorlatnak megfelelően két nyelvész végezte. | Vincze Veronika |
Szeged Dependencia Treebank | A Szeged Treebank dependencia formátumú változata. A frázisstruktúrás treebankből automatikus elemzéssel készült el a dependencia treebank, melyet kézzel ellenőriztek. | Vincze Veronika |
Szeged Named Entity korpusz | A tulajdonnevek felismerése nagyon fontos az NLP folyamatokban, ehhez nyújt segítséget a Szegeden kidolgozott korpusz. | Vincze Veronika |
SzegedParalell: angol-magyar párhuzamos korpusz | Angol-magyar párhuzamos korpusz 6 féle szövegmintával (pl. nyelvtankönyvekből, magazinokból). | Vincze Veronika |
Szintaktikailag annotált magyar nyelvi korpusz | A legnagyobb manuálisan annotált magyar korpusz, 6 alkopruszban összesen 1,2 millió szót tartalmaz. | Vincze Veronika |
Véleménydetekciós korpusz | Az első véleménydetekciós korpusz magyar nyelvre. Alapját az országgyűlés kettős állampolgárságra vonatkozó hozzászólásai adják. | Vincze Veronika |
Wiki50 korpusz | 50 angol wikipédia szócikket (4350 mondat) tartalmazó korpusz, melyben számos fajta többszavas kifejezés, valamint négy típusú tulajdonnév címkézését kézzel végezték. | Vincze Veronika |
Automatikus BNO kódoló szoftvereszköz | Orvosi leletek kódolására alkalmas eszköz, mely a Betgeségek Nemzetközi Osztályozását veszi alapul. | Vincze Veronika |
magyarlanc: magyar nyelvi elemző lánc | 6 almodulból (pl. mondatra bontó, tokeinzáló, szófajfelismerő) álló elemzőlánc magyar szövegek elemzéséhez. | Vincze Veronika |
Nyelvfüggetlen tulajdonnév-azonosító szoftver | Magyar és angol nyelvre kidolgozott tulajdonnév-azonosító szoftver. | Vincze Veronika |