Elstartolt a HuLU
25 feb 2022A Nyelvtudományi Kutatóközpont Nyelvtechnológiai Kutatócsoportja létrehozta a a Hungarian Language Understanding Evaluation Benchmark Kit (HuLU) névre keresztelt korpuszgyűjteményt a neurális nyelvmodellek nyelvértésének mérésére, kiértékelésére és a modellek összehasonlítására. Az elmúlt években a nyelvtechnológiában is kiemelt szerepet kapott a mesterséges intelligencia. Egyre több nyelvmodellt hoznak létre, amelyek már számos feladatban egyre jobb eredményt nyújtanak a gépi fordítástól az összefoglalógenerálásig. A magyarra is léteznek már nyelvmodellek (lásd HuBERT és HILBERT, vagy a Hilanco projekt keretében létrejött kísérleti nyelvmodellek), és számuk gyorsan növekszik.
Ezeknek a nyelvmodelleknek a vizsgálatára hozták létre a benchmark adatbázisokat, amelyek sokszor tulajdonképpen korpuszgyűjtemények, és változatos feladatokon mérik a modellek teljesítményét. Az elsőként létrehozott angol GLUE és SuperGLUE benchmarkokat hamarosan követte a francia, a spanyol, vagy az orosz megfelelőjük, illetve az XGLUE, amely többnyelvű modellek kiértékelésére fókuszál. A magyar benchmark korpuszt az eddig létrejött hasonló gyűjtemények során már látható tapasztalatok alapján kezdték el tervezni, így egy jól működő, több szempontot is értékelő (ilyen például a robosztusság) gyűjtemény létrehozása a távlati cél.
A HuLU-ban először 5 alkorpusz kapott helyet, melyek közül néhány az angol benchmarkok fordítása és adaptálása, míg másokat speciálisan a magyarra hoztak létre. A HuLU folyamatosan bővül újabb és újabb benchmark adatbázisokkal.
A jelenleg a HuLU-t alkotó korpuszok a következők:
- HuCOLA: 9076 mondat és az elfogadhatósági ítélet címkéje (elfogadható / nem elfogadható)
- HuCoPA: 1000 premissza és két alternatíva, amelyek közül azt kell kiválasztani, amelyik a valószínűbb oka / következménye a premisszának
- HuSST: 11680 mondat és a hozzájuk tartozó szentimentcímke (pozitív, semleges, negatív)
- HuRC: szövegértési feladatot tesztelő korpusz, 88000 cikk szövegével, melyek végén egy névelemet elmaszkoltunk, és ennek meghatározása a feladat
- HuWS: a Winograd-sémák gyűjteményének magyar fordítása
A korpuszok elérhetőek a Nyelvtudományi Kutatóközpont
github repójában (https://github.com/nytud), illetve a
Huggingface-en (https://huggingface.co/datasets/NYTK).
A HuLU az MSZNY 2022 konferencián mutatkozott be. A cikk itt elérhető: https://rgai.inf.u-szeged.hu/sites/rgai.inf.u-szeged.hu/files/mszny2022.pdf (pp 431- 446)