Szóbeágyazás a Magyar Nemzet korpuszán
A szóbeágyazás egy felügyelet nélküli tanulás módszer, amelynek alkalmazása során a dokumentumok domináns kifejezéseinek és témáinak feltárása helyett a szavak közötti szemantikai kapcsolat megértése a cél. A szavak vektorizálásának köszönhetően az elemzett korpuszban szereplő tesztőleges kifejezések között vizsgálhatjuk a szemantikai kapcsolatokat.
Elemzésünk során a A GloVe (Global Vectors for Word Representation) neurális hálón alapuló, szóvektorok előállítását célzó modelljét használtuk (Pennington, Socher, and Manning 2014).
Az alábbiakban egyrészt megvizsgálhatjuk a teljes korpuszon, valamint annak alkorpuszain végzett szóbeágyazás eredményét. Nagy előnye ennek a megközelítésnek, hogy az alkorpuszok különböző témákra nyújtanak elemzési lehetőségeket az egyéb témák torzító hatása nélkül. Tetszőleges szavakból egyedi vektorterek előállítására itt az oldalon nincs lehetőség, azonban a nyers vektorterek letölthetőek, így azon további elemzés végezhető. Az elemző modulok a szóbeágyazás eredményeit mutatják be a multidimenziónális teret 3 dimenziósra szűkítve.
Hivatkozások
Pennington, Jeffrey, Richard Socher, and Christopher D Manning. 2014. “GloVe: Global Vectors for Word Representation.” In Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 1532–43.