Az 1945 és 1989 közötti sajtó társadalomtörténeti elemzése NLP módszerekkel
Kutatásunk során az 1945 és 1989 között keletkezett Magyar Nemzet, Szabad Nép/Népszabadság, Pártélet és a Beszélő sajtóanyagaiból hoztunk létre digitalizált korpuszokat, amelyeket az automatizált szövegelemzés különböző módszereivel elemezzük. Mivel ezek az elemző eszközök alapvetően más jellegű korpuszokra lettek kidolgozva, a történeti szövegek ilyen típusú feldolgozása új terület, amely megkívánta a teljes módszertan kifejlesztését, valamint a feldolgozáshoz és elemzéshez szükséges eszközök létrehozását és tesztelését.
Projektünket az NKFIH támogatta (NKFI-FK- 131826)



Elemzési lehetőségek
többféle szövegkorpuszon
Statisztikai vizsgálatok
A szövegbányászati vizsgálatok során folyó szövegek, azaz strukturálatlan vagy részben strukturált dokumentumok elemzésére kerül sor. Az alkalmazott szózsák (bag of words) modell segítségével egy korpuszon belül az egyes szavak gyakoriságát vizsgálhatjuk meg és az eredmények segítségével különböző statisztikai műveleteket végezhetünk.
Szóbeágyazás
A szóbeágyazás célja a szavak közötti szemantikai kapcsolatokfeltárása. A szavak vektorizálásának köszönhetően (a korpuszunkban szereplő szavakróleldönthetjük, hogy azok milyen szemantikai kapcsolatban állnak egymással, azaz szinonimaként vagy ellentétes fogalompárként szerepelnek.
LDA Topik modellezés
A topikmodellezés egy felügyelet nélküli tanulási módszer, amely során az alkalmazott algoritmus a dokumentum tulajdonságait és a modell becsléseit felhasználva hoz létre különböző kategóriákat, melyekhez később hozzárendeli a szöveget.
Névelemfelismerés
A névelemfelismerés lényege, hogy automatikusan felismerjük a strukturálátlan szövegben szereplő tulajdonneveket, majd azokat kigyűjük, és típusonként (például személynév, földrajzi név, márkanév, stb.) csoportosítjuk. Kutatásunk során elemzésünkhöz SpaCy modellt használtunk.
Elemzési lehetőségek
történeti adatbázisokon
Elitek, elithálózatok
A magyarországi kommunista rendszer politikai és adminisztratív elitjének hálózata” című adatbázis egyfelől az 1945 és 1990 közötti „pártállami” rendszer igazgatásának kulcspozícióiról és a pozíciók betöltőiről tartalmaz információkat, másfelől pedig ugyanezen korszak „reputációs” elitjéről, amit saját definícióként a legjelentősebb állami díjak és kitüntetések díjazottjainak, viselőinek köréből alakítottunk ki. A két részadatbázis összekapcsolódik, lehetővé téve a pozíciók és a személyek hálózatainak sok szempontú kutatását.
Multipozicionalitás
A pozíciós elit koncepció szerint az elit pozíciók körét a legfelsőbb szintű döntési kompetencia határozza meg, az elitcsoportot pedig az elit pozíciót betöltő személy alkotja. A korszak igazgatási szerkezetét a párt és az állam vezető testületeinek párhuzamos működése, az egyes vezetési szintek kettőssége jellemezte. Az egymáshoz kapcsolódó hierarchiák révén többé-kevésbé egységes, több párhuzamos pozíciót is betöltő (multipozicionális) káderelit alakult ki.
Kutatócsoportunk
eredményei
Publikációk
Az NKFIH támogatásával (NKFI-FK- 131826) készült és már megjelent publikációink.
Tördelési algoritmus
A korpuszok előállításához egy egyedi fejlesztésű, gépi látási módszereken alapuló tördelés felismerő algoritmust fejlesztettünk ki.
Szövegkorpuszok
Kutatócsoportunk számos historikus és jelenkori szövegen végez nyelvi elemzést.