KUTATÁS · MÓDSZERTANI KÍSÉRLET

Diskurzus, hatalom, hálózat

A Nemzeti Színházról alkotott Kádár-kori diskurzusok vizsgálata

Hogyan illeszthető egy nagy nyelvi modellen alapuló annotáló eszköz a Kádár-kori intézménytörténet munkafolyamatába? A kutatás a Nemzeti Színház 1957–1988 közötti politikai és szakmai diskurzusát kódolja szimbolikus és pragmatikus érvelési kategóriák mentén — egyszerre digitális forráskiadási kísérlet és módszertani önreflexió a mesterséges intelligenciával támogatott kvalitatív kódolásról.

Időszak
1957 — 1988
Korpusz
50 dokumentum · 472 kódolás
Eszközök
Claude Opus 4.6 · HuSpaCy

Forráskiadás megnyitása → ← Vissza a kutatásokhoz

01

A TÖRTÉNETI PROBLÉMA

A Nemzeti Színház mint szimbólum

A 20. század második felének kutatója nem forrásszegénységgel, hanem ellenkezőleg, a dokumentumok szinte feldolgozhatatlan bőségével szembesül. A Kádár-kori bürokrácia által termelt írott örökség akár csak áttekintése is hatalmas munkát jelent; szisztematikus, kvantitatív elemzése pedig a hagyományos eszközökkel csaknem lehetetlen. Ez a paradoxon adta a kutatás kiindulópontját.

A vita valódi tétje

A Nemzeti Színház 1957 és 1988 közötti története körül folytatott politikai és szakmai diskurzus kitüntetett dimenziója volt az épület elhelyezésének kérdése. A vita azonban nem pusztán egy építészeti döntés volt: a szimbolikus tét az volt, hogy mi is a Nemzeti Színház — nemzeti örökség, szocialista kultúrpolitikai eszköz, presztízstárgy vagy épületüzemeltetési feladat. Ezek az értelmezések három évtizeden át váltakoztak, fonódtak össze és küzdöttek egymással.

Hipotézis: szimbolikus és pragmatikus érvelés

A kutatás központi hipotézise, hogy a Nemzeti Színház épületének elhelyezéséről folytatott döntési folyamatokban a szimbolikus érvek — a Nemzeti Színház mint a nemzeti kultúra, az állami reprezentáció, a magyar identitás megtestesítője — és a pragmatikus érvek — gazdaságosság, építészeti kivitelezhetőség, üzemeltetési szempontok — különböző arányban jelentek meg az időszak különböző szakaszaiban. A kódolási séma e kettősség mentén szerveződik: az SZ (szimbolikus) és P (pragmatikus) főkategóriák alá 16 alkategória tartozik.

A korszak periódusai

A korpusz négy jól elhatárolható periódusra tagolható, amelyeket a Nemzeti Színház körüli két meghatározó fordulópont — az 1963–64-es épületlebontás döntési folyamata és az 1978-as igazgatóváltás — strukturál.

  1. 1957 — 1962 A háború utáni újrarendeződés A Nemzeti Színház szimbolikus újrahonosítása a szocialista kultúrpolitikában; a politikai diskurzus dominanciája.
  2. 1963 — 1964 Fordulópont: az épület lebontása A Blaha Lujza téri épület bontásáról szóló döntés — a pragmatikus érvelés átmeneti súlynövekedése.
  3. 1965 — 1977 Átmeneti évek Hosszú évek átmeneti megoldásokkal; visszatér a szimbolikus érvelés a tervpályázati vitákban.
  4. 1978 — 1988 Fordulópont: igazgatóváltás és új tervek A diskurzus átstrukturálódása, intézményi szempontok megerősödése — a pragmatikus érvelés újra szerephez jut.

A diskurzus rekonstrukciójának alapját egy publikált forrásgyűjtemény adja, amely a korszak Nemzeti Színházára vonatkozó emblematikus iratait teszi hozzáférhetővé. A vizsgálat ezen forrásokon végzett, kategória-alapú szisztematikus kódolásra épül.

02

AZ ANNOTÁLÓ ESZKÖZ

Iteratív cowork-folyamatban épített böngészős annotáló

Az annotáló maga is a kutatás módszertani újítása: nem hagyományos szoftverfejlesztéssel, hanem prompt-alapú, iteratív párbeszéddel készült az Anthropic Claude Opus 4.6 modelljével. Az alkalmazás egyetlen, önállóan futó HTML-fájl — a felhasználói felület, a logika és az export-modul mind ugyanabban a böngészős környezetben él.

A fejlesztés módszertana

A munkafolyamat cowork-módban zajlott: a kutatói szándékot természetes nyelvi promptokban fogalmaztuk meg, az AI által generált kódot kipróbáltuk, az eredményt visszacsatoltuk, és a következő iteráció már a felmerült problémákra reagált. A fejlesztés a kutatási kérdés mentén szerveződött — minden új modul közvetlenül egy elemzési igényt szolgált ki. A prompt-tervezés elvei: egyszerre csak egy modult fejlesztünk, a változtatások tesztelhetők, és a forráskód mindvégig olvasható, módosítható maradjon.

Az eszköz funkciói

A következő blokkokban funkciónként három szempont szerint mutatjuk be az eszköz felépítését: mi a célja, hogyan működik, és hogyan készült — a prompt-iteráció és a kihívások szempontjából.

Iratlista és dokumentum-metaadatok

Cél

Az 50 dokumentum egy helyen kezelhető és kereshető, a forráshivatkozás, dátum, dokumentumtípus és terjedelem rögzítve.

Működés

Bal oldali listában minden irat egy sorban — dátum, cím, kódolás-szám. Szűrhető szöveges keresőre, dokumentumtípusra (politikai vagy színházi diskurzus).

Készülés

Az első modul. A kihívás a metaadat-szerkezet konzisztenciájának fenntartása volt — a kódoló prompt és a megjelenítés ugyanazokat a mezőket várta.

Annotációs felület — öt entitástípus

Cél

A szövegben szereplő személy-, intézmény-, mű-, hely- és dátumemlítések jelölése — a tulajdonneves alak később hálózatba köthető.

Működés

Egér-kijelölés a szövegen, jobb oldali panelen entitástípus-választó. Az említések egy listába gyűlnek, exportálhatók, és a szöveges nézetben is színkódoltan láthatók.

Készülés

Az átfedő annotációk és a többszavas említések kezelése igényelt több iterációt. A prompt-finomítás kulcsa: az adatszerkezet (start/end pozíciók) és a render-logika különválasztása.

Szövegcímkék — a kódolási séma

Cél

Az érvelési egységek hierarchikus kódolása: SZ (szimbolikus) és P (pragmatikus) főkategóriák, mindkettőhöz 8–8 alkategória.

Működés

A kijelölt szövegrészhez a kutató címkét rendel; az AI-előkódolás után csak elfogadás vagy módosítás szükséges. A címkék a hierarchiában navigálhatók.

Készülés

A kategória-fa rugalmas változtathatósága volt a fő kérés — a séma a kutatás során finomodott, így a kódolt adat nem veszhetett el a séma-átszerkesztésektől.

HuSpaCy névelem-felismerés

Cél

Az automatikus tulajdonnév-felismerés gyorsítása és bázisként szolgálása a kézi annotációhoz.

Működés

Opcionális Python backend (HuSpaCy magyar modell). Az NER eredményeit a böngészős felület importálja, a kutató validálja és javítja.

Készülés

A backend és a frontend közötti adatcsere formátumát több körben kellett finomítani — a JSON-séma egyszerre legyen humán-olvasható és gépi feldolgozású.

Hálózati gráf

Cél

Az együtt-előforduló entitások (személyek, intézmények) kapcsolati hálózatának vizualizációja a teljes korpuszban.

Működés

Erőszimulált gráf — az élek súlyozottak az együtt-előfordulások számával. Szűrhető entitástípusra, periódusra, dokumentumtípusra.

Készülés

A gráf-szimuláció paramétereinek hangolása (taszítás, csillapítás, csomópont-méretezés) szülte a leghosszabb iterációs sort — a vizuális tisztaság és az adat-hűség egyensúlyát kerestük.

Statisztikai elemző modul

Cél

A kódolások eloszlása dokumentumonként, periódusonként, kódkategóriánként; az AI-előkódolás és a kutatói validáció egyezésének mérése.

Működés

Több nézet: dokumentumonkénti kódeloszlás, korpuszszintű SZ/P arány, időbeli görbe, egyezési metrika táblázat.

Készülés

A statisztikák körét a kutatási kérdések alakították — minden új elemzési kérdéshez új nézet került be, fokozatos bővítéssel.

TEI XML, CSV és JSON export

Cél

Az eredmények más kutatási környezetekbe és publikációs platformokra (kiváltképp a TEI-alapú forráskiadásba) átemelhetőek.

Működés

Egy gombnyomásra a teljes korpusz vagy egyetlen dokumentum exportja — a TEI-séma a tulajdonnév-annotációkat és a szövegcímkéket egyaránt megőrzi.

Készülés

A TEI-séma kiválasztása és a dokumentumstruktúrához igazítása előzetes egyeztetést igényelt; a könnyebb formátumok (CSV, JSON) később kerültek be a használhatóság növelésére.

03

AZ ESZKÖZ HASZNÁLATA

A munkafolyamat lépésről lépésre

A kutatásban alkalmazott módszertani eljárás hét egymást követő lépésből állt — a forrás digitalizálásától a kvantitatív elemzésig. Minden lépésnél jelezzük, mi történik az eszközben, miért fontos a lépés, és milyen módszertani garanciák szükségesek a megbízható alkalmazáshoz.

  1. Forrásbázis strukturálása

    A levéltári dokumentumokat egységes táblázatba rendeztük — minden rekord egy iratot ír le (azonosító, dátum, jelzet, terjedelem, dokumentumtípus). A teljes szöveget az eszköz tárolja.

    Miért fontos: a metaadatok következetessége adja meg azt a vázat, amelyre a kódolás és a hálózati elemzés ráépül.

  2. Kódolási séma véglegesítése

    Az SZ/P főkategóriák alá 16 alkategória rendezése, mindegyikhez kódolási útmutató (mit takar, mi nem tartozik bele, példa).

    Miért fontos: az AI-előkódolás csak akkor megbízható, ha a kategóriahatárok pontosan vannak körüljárva. A séma a próbakódolásokon iteratívan finomodott.

  3. AI-előkódolás futtatása

    Dokumentumonként kapja meg a Claude-modell a séma teljes leírását + az iratot, és javaslatokat ad a kódolható szövegegységekre. Az eredmény az annotáló felületen jelenik meg, a kutató előtt.

    Miért fontos: a modell nem dönt, hanem előkészít — a tényleges kódolási döntés mindig a kutatóé. Az AI a figyelem irányítása, nem a helyettesítése.

  4. Kutatói validáció és javítás

    Minden javaslat egyenként vizsgálható: elfogadás, módosítás (kategóriaváltás), elutasítás, vagy kibővítés (a szövegegység határainak átállítása).

    Miért fontos: az egyezési arányok itt mérhetők — az AI-javaslatok és a kutatói döntések közötti különbség közvetlenül jelzi a séma vagy a prompt finomítási igényét.

  5. Névelem-felismerés és validáció

    A HuSpaCy magyar modell a teljes korpuszon lefut. Az eredményt minden esetben ellenőriztük, a hibásan azonosított vagy felismert előfordulásokat javítottuk.

    Miért fontos: a hálózati elemzés akkor pontos, ha a tulajdonnevek normalizáltak (ugyanaz a személy különböző írásmódjai egyetlen csomópontra mutatnak).

  6. Statisztikai és hálózati elemzés

    A vizualizációs modul a kódolt és validált adatokon dolgozik. Több szempontból futtathatók le elemzések: periódusonkénti SZ/P megoszlás, dokumentumtípus szerinti arány, kulcsszereplők kódkörnyezete.

    Miért fontos: a kvalitatív kódolás itt válik kvantitatívan értelmezhetővé. A vizualizáció nemcsak bemutatás — hanem új kérdéseket is generál.

  7. Export és forráskiadás

    A teljes kódolt korpusz TEI XML-be exportálódik, és átemelhető a publikációs platformra — a digitális forráskiadás már önálló, hivatkozható kiadvány.

    Miért fontos: a munka nem ér véget az elemzéssel — a forráskiadás biztosítja, hogy a kutatói döntések ellenőrizhetők, a korpusz továbbgondolható legyen.

04

EREDMÉNYEK

A diskurzus szerkezete és időbeli alakulása

Az ötven dokumentumot felölelő korpusz 472 jóváhagyott kódolást tartalmaz. Az SZ/P megoszlás alátámasztja a hipotézis alapvető állítását: a Nemzeti Színházat övező diskurzusban a szimbolikus érvelés meghatározó, de nem kizárólagos.

472Jóváhagyott kódolás
343Szimbolikus (72,8%)
128Pragmatikus (27,2%)
2,7 : 1SZ : P arány

A diskurzus dinamikája

A négy periódus közötti megoszlás nem egyenletes: a két meghatározó fordulóponton — az 1963–64-es lebontási döntés körül és az 1978-as igazgatóváltáskor — a pragmatikus érvelés átmeneti súlynövekedése figyelhető meg. A periódusok közötti különbségek statisztikailag is kimutathatók, de még a leginkább „pragmatikus” időszakban is megőrzi vezető szerepét a szimbolikus argumentáció.

Diskurzustípus és retorikai regiszter

A korpusz dokumentumai két nagy típusra oszthatók: politikai diskurzus (párt- és kormányszintű iratok, minisztériumi feljegyzések) és színházi diskurzus (igazgatói feljegyzések, programozási anyagok, sajtóanyagok). A két típus eltérő SZ/P arányt mutat: a színházi diskurzusban a szimbolikus érvelés nyomatékosabb, a politikai iratokban a pragmatikus szempontok arányosan többet kapnak — különösen a fordulóponti években.

Kulcsszereplők és kódkörnyezetek

A névelem-felismerés és a kódolás összekapcsolása két szinten történt. Az első szinten azt vizsgáltuk, hogy az egyes személyek neve milyen arányban jelenik meg szimbolikus, illetve pragmatikus kódkörnyezetben — ez a szereplő egyéni érvelési profilja. A második szinten a személyek közötti kapcsolatokat (együtt-előfordulásokat) súlyoztuk a kódkörnyezet típusával: így nemcsak az látszik, kik szerepeltek együtt, hanem az is, hogy milyen érvelési térben kerültek egymás mellé.

Az AI-előkódolás teljesítménye

A Claude Opus 4.6 által generált kódolási javaslatok és a kutató által elfogadott végső kódolás közötti egyezést dokumentumonként mértük. Az egyezési metrikák ebben a kutatásban nem csupán a modell technikai teljesítményét jelzik, hanem a kódolási séma egyértelműségét és a prompt-tervezés minőségét is — minden eltérés vagy a séma egy határeseti kategóriájára, vagy a prompt egy pontatlanul megfogalmazott elemére mutatott rá. Az iteratív finomítás után az egyezési arány konzisztens szintet ért el a teljes korpuszon.

Módszertani tanulságok

A kutatás megerősítette: a nagy nyelvi modell nem helyettesíti, hanem kiegészíti a kvalitatív történészi munkát. Az AI-előkódolás akkor működik megbízhatóan, ha (1) a kódolási séma jól artikulált, (2) a prompt iteratív finomításon esik át, és (3) minden javaslat kutatói validáción megy keresztül. A digitális forráskiadás és az interaktív elemző felület együtt biztosítja, hogy a módszer ne maradjon átláthatatlan: az olvasó a forrásokon, a kódolásokon és az elemzések eredményein egyaránt végighaladhat.

A teljes forráskiadás megnyitása →