Szegedi Tudományegyetem

A Szegedi Tudományegyetem a Magyar Tudományos Akadémiával közös kutatócsoportja, a Mesterséges Intelligencia Kutatócsoport 1996 óta foglalkozik nyelvtechnológiával. A kutatócsoport jelenlegi fókuszai a nyelvfeldolgozás és a beszédtechnológia, amelyhez a gépi tanulás módszertani és elméleti területein is folynak kutatások.

A csoportban kidolgozott nagyméretű korpuszok, mint például a kézzel egyértelműsített Szeged Korpusz és TreeBank, a Magyar WordNet és a SzegedNE lehetőséget nyújtanak a gépi tanulási módszerek alkalmazására magyar és angol nyelvű szövegek szintaktikai és szemantikai elemzésében. A csoport rendelkezik az ehhez szükséges eszközökkel, például szófaji és szintaktikai elemzővel, tulajdonnév-felismerővel.

További információ: http://rgai.inf.u-szeged.hu

Az SZTE által létrehozott korpuszok és eszközök:

Erőforrás neve	Leírás	Koordinátor
BioScope korpusz	Orvosi és biológiai szövegeket tartalmazó korpusz, tagadást, spekulációt és azok hatókörét tartalmazó annotációval.	Vincze Veronika
Homepage korpusz	Manuálisan részletesen annotált korpusz webes tartalombányászathoz. A korpusz és a hozzá tartozó annotációs szoftver is letölthető.	Vincze Veronika
HunLearner magyar nyelvtanulói korpusz	Magyarul tanulók korpusza, amely 35 magyar szakos diák (Zágrábi Egyetem) írásait tartalmazza, amelyeket a magyarlanc eszköz segítségével morfológiailag és szintaktikailag elemeztek.	Vincze Veronika
HunOr magyar-orosz párhuzamos korpusz	Magyar-orosz párhuzamos korpusz, jelenleg mintegy 800 ezer szóval. A korpusz morfológiailag annotált és folyamatosan növekszik.	Vincze Veronika
Magyar EuroWordnet fogalomháló	Lexikai adatbázis, amelyben a szavak jelentés alapján rendeződnek csoportokba (synsetekbe). A magyar EuroWordnet több mint 42 000 synsetet tartalmaz.	Vincze Veronika
Magyar jelentés-egyértelműsített korpusz	Az MNSZ HVG alkorpuszának felhasználásával készült. A többértelmű szavak címkézésést a nemzetközi gyakorlatnak megfelelően két nyelvész végezte.	Vincze Veronika
Szeged Dependencia Treebank	A Szeged Treebank dependencia formátumú változata. A frázisstruktúrás treebankből automatikus elemzéssel készült el a dependencia treebank, melyet kézzel ellenőriztek.	Vincze Veronika
Szeged Named Entity korpusz	A tulajdonnevek felismerése nagyon fontos az NLP folyamatokban, ehhez nyújt segítséget a Szegeden kidolgozott korpusz.	Vincze Veronika
SzegedParalell: angol-magyar párhuzamos korpusz	Angol-magyar párhuzamos korpusz 6 féle szövegmintával (pl. nyelvtankönyvekből, magazinokból).	Vincze Veronika
Szintaktikailag annotált magyar nyelvi korpusz	A legnagyobb manuálisan annotált magyar korpusz, 6 alkopruszban összesen 1,2 millió szót tartalmaz.	Vincze Veronika
Véleménydetekciós korpusz	Az első véleménydetekciós korpusz magyar nyelvre. Alapját az országgyűlés kettős állampolgárságra vonatkozó hozzászólásai adják.	Vincze Veronika
Wiki50 korpusz	50 angol wikipédia szócikket (4350 mondat) tartalmazó korpusz, melyben számos fajta többszavas kifejezés, valamint négy típusú tulajdonnév címkézését kézzel végezték.	Vincze Veronika
Automatikus BNO kódoló szoftvereszköz	Orvosi leletek kódolására alkalmas eszköz, mely a Betgeségek Nemzetközi Osztályozását veszi alapul.	Vincze Veronika
magyarlanc: magyar nyelvi elemző lánc	6 almodulból (pl. mondatra bontó, tokeinzáló, szófajfelismerő) álló elemzőlánc magyar szövegek elemzéséhez.	Vincze Veronika
Nyelvfüggetlen tulajdonnév-azonosító szoftver	Magyar és angol nyelvre kidolgozott tulajdonnév-azonosító szoftver.	Vincze Veronika