Szóbeágyazás a Magyar Nemzet korpuszán

A szóbeágyazás egy felügyelet nélküli tanulás módszer, amelynek alkalmazása során a dokumentumok domináns kifejezéseinek és témáinak feltárása helyett a szavak közötti szemantikai kapcsolat megértése a cél. A szavak vektorizálásának köszönhetően az elemzett korpuszban  szereplő tesztőleges kifejezések között vizsgálhatjuk a szemantikai kapcsolatokat.  

Elemzésünk során a A GloVe (Global Vectors for Word Representation)  neurális hálón alapuló, szóvektorok előállítását célzó modelljét használtuk (Pennington, Socher, and Manning 2014).

Az alábbiakban egyrészt megvizsgálhatjuk a teljes korpuszon, valamint annak alkorpuszain végzett szóbeágyazás eredményét. Nagy előnye ennek a megközelítésnek, hogy az alkorpuszok különböző témákra nyújtanak elemzési lehetőségeket az egyéb témák torzító hatása nélkül. Tetszőleges szavakból egyedi vektorterek előállítására itt az oldalon nincs lehetőség, azonban a nyers vektorterek letölthetőek, így azon további elemzés végezhető. Az elemző modulok a szóbeágyazás eredményeit mutatják be a multidimenziónális  teret 3 dimenziósra szűkítve. 

Hivatkozások

Pennington, Jeffrey, Richard Socher, and Christopher D Manning. 2014. “GloVe: Global Vectors for Word Representation.” In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532–43.

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

This site uses Akismet to reduce spam. Learn how your comment data is processed.