KUTATÁS · MÓDSZERTANI KÍSÉRLET
Diskurzus, hatalom, hálózat
A Nemzeti Színházról alkotott Kádár-kori diskurzusok vizsgálata
Hogyan illeszthető egy nagy nyelvi modellen alapuló annotáló eszköz a Kádár-kori intézménytörténet munkafolyamatába? A kutatás a Nemzeti Színház 1957–1988 közötti politikai és szakmai diskurzusát kódolja szimbolikus és pragmatikus érvelési kategóriák mentén — egyszerre digitális forráskiadási kísérlet és módszertani önreflexió a mesterséges intelligenciával támogatott kvalitatív kódolásról.
01
A TÖRTÉNETI PROBLÉMA
A Nemzeti Színház mint szimbólum
A 20. század második felének kutatója nem forrásszegénységgel, hanem ellenkezőleg, a dokumentumok szinte feldolgozhatatlan bőségével szembesül. A Kádár-kori bürokrácia által termelt írott örökség akár csak áttekintése is hatalmas munkát jelent; szisztematikus, kvantitatív elemzése pedig a hagyományos eszközökkel csaknem lehetetlen. Ez a paradoxon adta a kutatás kiindulópontját.
A vita valódi tétje
A Nemzeti Színház 1957 és 1988 közötti története körül folytatott politikai és szakmai diskurzus kitüntetett dimenziója volt az épület elhelyezésének kérdése. A vita azonban nem pusztán egy építészeti döntés volt: a szimbolikus tét az volt, hogy mi is a Nemzeti Színház — nemzeti örökség, szocialista kultúrpolitikai eszköz, presztízstárgy vagy épületüzemeltetési feladat. Ezek az értelmezések három évtizeden át váltakoztak, fonódtak össze és küzdöttek egymással.
Hipotézis: szimbolikus és pragmatikus érvelés
A kutatás központi hipotézise, hogy a Nemzeti Színház épületének elhelyezéséről folytatott döntési folyamatokban a szimbolikus érvek — a Nemzeti Színház mint a nemzeti kultúra, az állami reprezentáció, a magyar identitás megtestesítője — és a pragmatikus érvek — gazdaságosság, építészeti kivitelezhetőség, üzemeltetési szempontok — különböző arányban jelentek meg az időszak különböző szakaszaiban. A kódolási séma e kettősség mentén szerveződik: az SZ (szimbolikus) és P (pragmatikus) főkategóriák alá 16 alkategória tartozik.
A korszak periódusai
A korpusz négy jól elhatárolható periódusra tagolható, amelyeket a Nemzeti Színház körüli két meghatározó fordulópont — az 1963–64-es épületlebontás döntési folyamata és az 1978-as igazgatóváltás — strukturál.
- 1957 — 1962 A háború utáni újrarendeződés A Nemzeti Színház szimbolikus újrahonosítása a szocialista kultúrpolitikában; a politikai diskurzus dominanciája.
- 1963 — 1964 Fordulópont: az épület lebontása A Blaha Lujza téri épület bontásáról szóló döntés — a pragmatikus érvelés átmeneti súlynövekedése.
- 1965 — 1977 Átmeneti évek Hosszú évek átmeneti megoldásokkal; visszatér a szimbolikus érvelés a tervpályázati vitákban.
- 1978 — 1988 Fordulópont: igazgatóváltás és új tervek A diskurzus átstrukturálódása, intézményi szempontok megerősödése — a pragmatikus érvelés újra szerephez jut.
A diskurzus rekonstrukciójának alapját egy publikált forrásgyűjtemény adja, amely a korszak Nemzeti Színházára vonatkozó emblematikus iratait teszi hozzáférhetővé. A vizsgálat ezen forrásokon végzett, kategória-alapú szisztematikus kódolásra épül.
02
AZ ANNOTÁLÓ ESZKÖZ
Iteratív cowork-folyamatban épített böngészős annotáló
Az annotáló maga is a kutatás módszertani újítása: nem hagyományos szoftverfejlesztéssel, hanem prompt-alapú, iteratív párbeszéddel készült az Anthropic Claude Opus 4.6 modelljével. Az alkalmazás egyetlen, önállóan futó HTML-fájl — a felhasználói felület, a logika és az export-modul mind ugyanabban a böngészős környezetben él.
A fejlesztés módszertana
A munkafolyamat cowork-módban zajlott: a kutatói szándékot természetes nyelvi promptokban fogalmaztuk meg, az AI által generált kódot kipróbáltuk, az eredményt visszacsatoltuk, és a következő iteráció már a felmerült problémákra reagált. A fejlesztés a kutatási kérdés mentén szerveződött — minden új modul közvetlenül egy elemzési igényt szolgált ki. A prompt-tervezés elvei: egyszerre csak egy modult fejlesztünk, a változtatások tesztelhetők, és a forráskód mindvégig olvasható, módosítható maradjon.
Az eszköz funkciói
A következő blokkokban funkciónként három szempont szerint mutatjuk be az eszköz felépítését: mi a célja, hogyan működik, és hogyan készült — a prompt-iteráció és a kihívások szempontjából.
Iratlista és dokumentum-metaadatok
Cél
Az 50 dokumentum egy helyen kezelhető és kereshető, a forráshivatkozás, dátum, dokumentumtípus és terjedelem rögzítve.
Működés
Bal oldali listában minden irat egy sorban — dátum, cím, kódolás-szám. Szűrhető szöveges keresőre, dokumentumtípusra (politikai vagy színházi diskurzus).
Készülés
Az első modul. A kihívás a metaadat-szerkezet konzisztenciájának fenntartása volt — a kódoló prompt és a megjelenítés ugyanazokat a mezőket várta.
Annotációs felület — öt entitástípus
Cél
A szövegben szereplő személy-, intézmény-, mű-, hely- és dátumemlítések jelölése — a tulajdonneves alak később hálózatba köthető.
Működés
Egér-kijelölés a szövegen, jobb oldali panelen entitástípus-választó. Az említések egy listába gyűlnek, exportálhatók, és a szöveges nézetben is színkódoltan láthatók.
Készülés
Az átfedő annotációk és a többszavas említések kezelése igényelt több iterációt. A prompt-finomítás kulcsa: az adatszerkezet (start/end pozíciók) és a render-logika különválasztása.
Szövegcímkék — a kódolási séma
Cél
Az érvelési egységek hierarchikus kódolása: SZ (szimbolikus) és P (pragmatikus) főkategóriák, mindkettőhöz 8–8 alkategória.
Működés
A kijelölt szövegrészhez a kutató címkét rendel; az AI-előkódolás után csak elfogadás vagy módosítás szükséges. A címkék a hierarchiában navigálhatók.
Készülés
A kategória-fa rugalmas változtathatósága volt a fő kérés — a séma a kutatás során finomodott, így a kódolt adat nem veszhetett el a séma-átszerkesztésektől.
HuSpaCy névelem-felismerés
Cél
Az automatikus tulajdonnév-felismerés gyorsítása és bázisként szolgálása a kézi annotációhoz.
Működés
Opcionális Python backend (HuSpaCy magyar modell). Az NER eredményeit a böngészős felület importálja, a kutató validálja és javítja.
Készülés
A backend és a frontend közötti adatcsere formátumát több körben kellett finomítani — a JSON-séma egyszerre legyen humán-olvasható és gépi feldolgozású.
Hálózati gráf
Cél
Az együtt-előforduló entitások (személyek, intézmények) kapcsolati hálózatának vizualizációja a teljes korpuszban.
Működés
Erőszimulált gráf — az élek súlyozottak az együtt-előfordulások számával. Szűrhető entitástípusra, periódusra, dokumentumtípusra.
Készülés
A gráf-szimuláció paramétereinek hangolása (taszítás, csillapítás, csomópont-méretezés) szülte a leghosszabb iterációs sort — a vizuális tisztaság és az adat-hűség egyensúlyát kerestük.
Statisztikai elemző modul
Cél
A kódolások eloszlása dokumentumonként, periódusonként, kódkategóriánként; az AI-előkódolás és a kutatói validáció egyezésének mérése.
Működés
Több nézet: dokumentumonkénti kódeloszlás, korpuszszintű SZ/P arány, időbeli görbe, egyezési metrika táblázat.
Készülés
A statisztikák körét a kutatási kérdések alakították — minden új elemzési kérdéshez új nézet került be, fokozatos bővítéssel.
TEI XML, CSV és JSON export
Cél
Az eredmények más kutatási környezetekbe és publikációs platformokra (kiváltképp a TEI-alapú forráskiadásba) átemelhetőek.
Működés
Egy gombnyomásra a teljes korpusz vagy egyetlen dokumentum exportja — a TEI-séma a tulajdonnév-annotációkat és a szövegcímkéket egyaránt megőrzi.
Készülés
A TEI-séma kiválasztása és a dokumentumstruktúrához igazítása előzetes egyeztetést igényelt; a könnyebb formátumok (CSV, JSON) később kerültek be a használhatóság növelésére.
03
AZ ESZKÖZ HASZNÁLATA
A munkafolyamat lépésről lépésre
A kutatásban alkalmazott módszertani eljárás hét egymást követő lépésből állt — a forrás digitalizálásától a kvantitatív elemzésig. Minden lépésnél jelezzük, mi történik az eszközben, miért fontos a lépés, és milyen módszertani garanciák szükségesek a megbízható alkalmazáshoz.
-
Forrásbázis strukturálása
A levéltári dokumentumokat egységes táblázatba rendeztük — minden rekord egy iratot ír le (azonosító, dátum, jelzet, terjedelem, dokumentumtípus). A teljes szöveget az eszköz tárolja.
Miért fontos: a metaadatok következetessége adja meg azt a vázat, amelyre a kódolás és a hálózati elemzés ráépül.
-
Kódolási séma véglegesítése
Az SZ/P főkategóriák alá 16 alkategória rendezése, mindegyikhez kódolási útmutató (mit takar, mi nem tartozik bele, példa).
Miért fontos: az AI-előkódolás csak akkor megbízható, ha a kategóriahatárok pontosan vannak körüljárva. A séma a próbakódolásokon iteratívan finomodott.
-
AI-előkódolás futtatása
Dokumentumonként kapja meg a Claude-modell a séma teljes leírását + az iratot, és javaslatokat ad a kódolható szövegegységekre. Az eredmény az annotáló felületen jelenik meg, a kutató előtt.
Miért fontos: a modell nem dönt, hanem előkészít — a tényleges kódolási döntés mindig a kutatóé. Az AI a figyelem irányítása, nem a helyettesítése.
-
Kutatói validáció és javítás
Minden javaslat egyenként vizsgálható: elfogadás, módosítás (kategóriaváltás), elutasítás, vagy kibővítés (a szövegegység határainak átállítása).
Miért fontos: az egyezési arányok itt mérhetők — az AI-javaslatok és a kutatói döntések közötti különbség közvetlenül jelzi a séma vagy a prompt finomítási igényét.
-
Névelem-felismerés és validáció
A HuSpaCy magyar modell a teljes korpuszon lefut. Az eredményt minden esetben ellenőriztük, a hibásan azonosított vagy felismert előfordulásokat javítottuk.
Miért fontos: a hálózati elemzés akkor pontos, ha a tulajdonnevek normalizáltak (ugyanaz a személy különböző írásmódjai egyetlen csomópontra mutatnak).
-
Statisztikai és hálózati elemzés
A vizualizációs modul a kódolt és validált adatokon dolgozik. Több szempontból futtathatók le elemzések: periódusonkénti SZ/P megoszlás, dokumentumtípus szerinti arány, kulcsszereplők kódkörnyezete.
Miért fontos: a kvalitatív kódolás itt válik kvantitatívan értelmezhetővé. A vizualizáció nemcsak bemutatás — hanem új kérdéseket is generál.
-
Export és forráskiadás
A teljes kódolt korpusz TEI XML-be exportálódik, és átemelhető a publikációs platformra — a digitális forráskiadás már önálló, hivatkozható kiadvány.
Miért fontos: a munka nem ér véget az elemzéssel — a forráskiadás biztosítja, hogy a kutatói döntések ellenőrizhetők, a korpusz továbbgondolható legyen.
04
EREDMÉNYEK
A diskurzus szerkezete és időbeli alakulása
Az ötven dokumentumot felölelő korpusz 472 jóváhagyott kódolást tartalmaz. Az SZ/P megoszlás alátámasztja a hipotézis alapvető állítását: a Nemzeti Színházat övező diskurzusban a szimbolikus érvelés meghatározó, de nem kizárólagos.
A diskurzus dinamikája
A négy periódus közötti megoszlás nem egyenletes: a két meghatározó fordulóponton — az 1963–64-es lebontási döntés körül és az 1978-as igazgatóváltáskor — a pragmatikus érvelés átmeneti súlynövekedése figyelhető meg. A periódusok közötti különbségek statisztikailag is kimutathatók, de még a leginkább „pragmatikus” időszakban is megőrzi vezető szerepét a szimbolikus argumentáció.
Diskurzustípus és retorikai regiszter
A korpusz dokumentumai két nagy típusra oszthatók: politikai diskurzus (párt- és kormányszintű iratok, minisztériumi feljegyzések) és színházi diskurzus (igazgatói feljegyzések, programozási anyagok, sajtóanyagok). A két típus eltérő SZ/P arányt mutat: a színházi diskurzusban a szimbolikus érvelés nyomatékosabb, a politikai iratokban a pragmatikus szempontok arányosan többet kapnak — különösen a fordulóponti években.
Kulcsszereplők és kódkörnyezetek
A névelem-felismerés és a kódolás összekapcsolása két szinten történt. Az első szinten azt vizsgáltuk, hogy az egyes személyek neve milyen arányban jelenik meg szimbolikus, illetve pragmatikus kódkörnyezetben — ez a szereplő egyéni érvelési profilja. A második szinten a személyek közötti kapcsolatokat (együtt-előfordulásokat) súlyoztuk a kódkörnyezet típusával: így nemcsak az látszik, kik szerepeltek együtt, hanem az is, hogy milyen érvelési térben kerültek egymás mellé.
Az AI-előkódolás teljesítménye
A Claude Opus 4.6 által generált kódolási javaslatok és a kutató által elfogadott végső kódolás közötti egyezést dokumentumonként mértük. Az egyezési metrikák ebben a kutatásban nem csupán a modell technikai teljesítményét jelzik, hanem a kódolási séma egyértelműségét és a prompt-tervezés minőségét is — minden eltérés vagy a séma egy határeseti kategóriájára, vagy a prompt egy pontatlanul megfogalmazott elemére mutatott rá. Az iteratív finomítás után az egyezési arány konzisztens szintet ért el a teljes korpuszon.
Módszertani tanulságok
A kutatás megerősítette: a nagy nyelvi modell nem helyettesíti, hanem kiegészíti a kvalitatív történészi munkát. Az AI-előkódolás akkor működik megbízhatóan, ha (1) a kódolási séma jól artikulált, (2) a prompt iteratív finomításon esik át, és (3) minden javaslat kutatói validáción megy keresztül. A digitális forráskiadás és az interaktív elemző felület együtt biztosítja, hogy a módszer ne maradjon átláthatatlan: az olvasó a forrásokon, a kódolásokon és az elemzések eredményein egyaránt végighaladhat.