BME Média Oktató és Kutató Központ

A Budapesti Műszaki és Gazdaságtudományi Egyetemen működő Média Oktató és Kutató Központ feladata a technológiai fejlődések követése gazdasági, kulturális és jogi színtereken. A BME-MOKK egyik fontos tevékenysége a nyelvtechnológiai kutatás és fejlesztés. Mind korpuszok építésével (mint például a Magyar Webkorpusz, vagy a Hunglish korpusz), mind pedig nyelvtechnológiai eszközök fejlesztésével (mint például a morfológiai és szintaktikai elemzők) hozzájárulnak a magyar számítógépes nyelvfeldolgozás fejlődéséhez.

Bővebb információ: http://mokk.bme.hu/


A BME MOKK által létrehozott korpuszok és nyelvtechnológiai eszközök: 

Erőforrás neve Leírás Koordinátor
Hungarian Webcorpus - magyar webkorpusz és gyakorisági szótár A magyar weben található honlapokból 2003-ban készült 589 millió szavas korpusz, négy alkategóriával. Open Content licensz alatt áll.   Varga Dániel
Hunglish angol-magyar párhuzamos korpusz és mondattár Ingyenesen elérhető, mondatszinten rendezett magyar-angol párhuzamos korpusz.  4 millió mondatpárban 120 millió szót tartalmaz.    Varga Dániel
Hunalign mondatszintű párhuzamosító Mondatok párosítására szolgáló alkalmazás kétnyelvű szövegekben. Bemenete tokenizált és mondatokra bontott szöveg két nyelven, kimenete kétnyelvű mondatpárok sorozata.    Varga Dániel
Hunmorph morfológiai elemző Nyílt forráskódú szoftver agglutináló, germán és más nyelvek helyesírás-ellenőrzésére, szótövesítésére és morfológiai elemzésére.   Varga Dániel
Hunpars szintaktikai elemző magyar nyelvre Szintaktikai elemző magyar nyelvre. Bemenetként egy szövegfile-t kap mondatokkal, kimenetként megadja a mondatok szintaktikai fáját egy egyszerű zárójelezéses jelölésben és GrahpViz dot nyelvű file-okban.   Varga Dániel
Hunpos szófaji egyértelműsítő Open source szófaji egyértelműsítő magyar nyelvre és más, komplex morfológiájú nyelvekre.   Simon Eszter
HunTag szekvenciális címkéző Bármilyen szekvenciális mondatcímkézésre  alkalmas eszköz, mely segítségével főnévi csoport felismerése és tulajdonnév-felismerés is megvalósítható.   Varga Dániel
Huntoken tokenizáló és mondatra bontó Gyors shell szűrő, ami a természetes nyelvű magyar szövegeket mondatokra és tokenekre (szavakra) bontja.   Simon Eszter