Elstartolt a HuLU

25 feb 2022

A Nyelvtudományi Kutatóközpont Nyelvtechnológiai Kutatócsoportja létrehozta a a Hungarian Language Understanding Evaluation Benchmark Kit (HuLU) névre keresztelt korpuszgyűjteményt a neurális nyelvmodellek nyelvértésének mérésére, kiértékelésére és a modellek összehasonlítására. Az elmúlt években a nyelvtechnológiában is kiemelt szerepet kapott a mesterséges intelligencia. Egyre több nyelvmodellt hoznak létre, amelyek már számos feladatban egyre jobb eredményt nyújtanak a gépi fordítástól az összefoglalógenerálásig. A magyarra is léteznek már nyelvmodellek (lásd HuBERT és HILBERT, vagy a Hilanco projekt keretében létrejött kísérleti nyelvmodellek), és számuk gyorsan növekszik.

Ezeknek a nyelvmodelleknek a vizsgálatára hozták létre a benchmark adatbázisokat, amelyek sokszor tulajdonképpen korpuszgyűjtemények, és változatos feladatokon mérik a modellek teljesítményét. Az elsőként létrehozott angol GLUE és SuperGLUE benchmarkokat hamarosan követte a francia, a spanyol, vagy az orosz megfelelőjük, illetve az XGLUE, amely többnyelvű modellek kiértékelésére fókuszál. A magyar benchmark korpuszt az eddig létrejött hasonló gyűjtemények során már látható tapasztalatok alapján kezdték el tervezni, így egy jól működő, több szempontot is értékelő (ilyen például a robosztusság) gyűjtemény létrehozása a távlati cél.

A HuLU-ban először 5 alkorpusz kapott helyet, melyek közül néhány az angol benchmarkok fordítása és adaptálása, míg másokat speciálisan a magyarra hoztak létre. A HuLU folyamatosan bővül újabb és újabb benchmark adatbázisokkal.

A jelenleg a HuLU-t alkotó korpuszok a következők:

- HuCOLA: 9076 mondat és az elfogadhatósági ítélet címkéje (elfogadható / nem elfogadható)

- HuCoPA: 1000 premissza és két alternatíva, amelyek közül azt kell kiválasztani, amelyik a valószínűbb oka / következménye a premisszának

- HuSST: 11680 mondat és a hozzájuk tartozó szentimentcímke (pozitív, semleges, negatív)

- HuRC: szövegértési feladatot tesztelő korpusz, 88000 cikk szövegével, melyek végén egy névelemet elmaszkoltunk, és ennek meghatározása a feladat

- HuWS: a Winograd-sémák gyűjteményének magyar fordítása

A korpuszok elérhetőek a Nyelvtudományi Kutatóközpont

github repójában (https://github.com/nytud), illetve a

Huggingface-en (https://huggingface.co/datasets/NYTK).

A HuLU az MSZNY 2022 konferencián mutatkozott be. A cikk itt elérhető: https://rgai.inf.u-szeged.hu/sites/rgai.inf.u-szeged.hu/files/mszny2022.pdf (pp 431- 446)