Történeti források elemzése LDA topikmodellezés alkalmazásával

Agrárpolitikai kihívások és jogszabályalkotás a korai Kádár-korban (Ring Orsolya, Kiss László)

A topikmodellezés dokumentumok klaszterezésére szolgáló valószínűség alapú eljárás, amely a felügyelet nélküli tanulások körébe tartozik. Alkalmazása során az algoritmus szógyakoriságot állapít meg minden témához, majd az egyes dokumentumokhoz hozzárendeli az adott témák valószínűségét.  (Burtejin 2016; Grimmer and Stewart 2013; Tikk 2007; Sebők et al, 2021). Az egyik leggyakrabban alkalmazott topikmodellezési eljárás, a Látens Dirichlet Allokáció (LDA) alapja az a feltételezés, hogy minden korpusz témák keverékéből áll, ezen témák pedig statisztikailag a korpusz szókészlete valószínűségi függvényeinek (eloszlásának) tekinthetőek (Blei, Ng, and Jordan 2003)

Kutatásunkban a magyarországi kollektivizálás második hullámát vizsgáltuk topikmodellezés alkalmazásával. Írásunk célja annak illusztrálása, hogy az egyre nagyobb számban elérhető digitális gyűjteményeknek a hazai történettudomány számára még részben újfajta módszerekkel történő elemzése milyen lehetőségeket és korlátokat rejt magában. Elemzésünk a korai Kádár-korszak agrárpolitikai jogszabályalkotásának vizsgálatát végzi el, arra a fő kutatási kérdésre keresve a választ, hogy milyen módon tükröződik vissza a jogszabályalkotásban a korszak gazdaságpolitikája, milyen módon reagált a jogszabályalkotás a korszak gazdaság- és társadalompolitikai változásaival kapcsolatban felmerülő szabályozási igényekre.

Az teljes publikáció elérhető itt.

Hivatkozások

Blei, David M, Andrew Y Ng, and Michael I Jordan. 2003. “Latent Dirichlet Allocation.” Journal of Machine Learning Research 3(Jan): 993–1022. https://www.jmlr.org/papers/v3/blei03a.html.

Burtejin, Zorgit. 2016. “Csoportosítás (Klaszterezés).” In Kvantitatív Szövegelemzés És Szövegbányászat a Politikatudományban, ed. Miklós Sebők. Budapest: L’Harmattan, 85–101.

Grimmer, Justin, and Brandon M Stewart. 2013. “Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts.” Political Analysis 21(3): 267–97.

Sebők, Miklós et al.: 
Szövegbányászat és Mesterséges Intelligencia R-ben. 
Budapest: Typotext Kiadó

Tikk, Domonkos, ed. 2007. Szövegbányászat. Budapest: Typotex Kiadó.