BME Média Oktató és Kutató Központ
A Budapesti Műszaki és Gazdaságtudományi Egyetemen működő Média Oktató és Kutató Központ feladata a technológiai fejlődések követése gazdasági, kulturális és jogi színtereken. A BME-MOKK egyik fontos tevékenysége a nyelvtechnológiai kutatás és fejlesztés. Mind korpuszok építésével (mint például a Magyar Webkorpusz, vagy a Hunglish korpusz), mind pedig nyelvtechnológiai eszközök fejlesztésével (mint például a morfológiai és szintaktikai elemzők) hozzájárulnak a magyar számítógépes nyelvfeldolgozás fejlődéséhez.
Bővebb információ: http://mokk.bme.hu/
A BME MOKK által létrehozott korpuszok és nyelvtechnológiai eszközök:
Erőforrás neve | Leírás | Koordinátor |
---|---|---|
Hungarian Webcorpus - magyar webkorpusz és gyakorisági szótár | A magyar weben található honlapokból 2003-ban készült 589 millió szavas korpusz, négy alkategóriával. Open Content licensz alatt áll. | Varga Dániel |
Hunglish angol-magyar párhuzamos korpusz és mondattár | Ingyenesen elérhető, mondatszinten rendezett magyar-angol párhuzamos korpusz. 4 millió mondatpárban 120 millió szót tartalmaz. | Varga Dániel |
Hunalign mondatszintű párhuzamosító | Mondatok párosítására szolgáló alkalmazás kétnyelvű szövegekben. Bemenete tokenizált és mondatokra bontott szöveg két nyelven, kimenete kétnyelvű mondatpárok sorozata. | Varga Dániel |
Hunmorph morfológiai elemző | Nyílt forráskódú szoftver agglutináló, germán és más nyelvek helyesírás-ellenőrzésére, szótövesítésére és morfológiai elemzésére. | Varga Dániel |
Hunpars szintaktikai elemző magyar nyelvre | Szintaktikai elemző magyar nyelvre. Bemenetként egy szövegfile-t kap mondatokkal, kimenetként megadja a mondatok szintaktikai fáját egy egyszerű zárójelezéses jelölésben és GrahpViz dot nyelvű file-okban. | Varga Dániel |
Hunpos szófaji egyértelműsítő | Open source szófaji egyértelműsítő magyar nyelvre és más, komplex morfológiájú nyelvekre. | Simon Eszter |
HunTag szekvenciális címkéző | Bármilyen szekvenciális mondatcímkézésre alkalmas eszköz, mely segítségével főnévi csoport felismerése és tulajdonnév-felismerés is megvalósítható. | Varga Dániel |
Huntoken tokenizáló és mondatra bontó | Gyors shell szűrő, ami a természetes nyelvű magyar szövegeket mondatokra és tokenekre (szavakra) bontja. | Simon Eszter |