NLP Elemzések

Honlapunkon a feldolgozott korpuszok részletes statisztikai adatait, elemzéseinket és azok  vizualizációját mutatjuk be. A teljes korpuszok nyers szövegként a hatályos szerzői jogi szabályok szellemében nem elérhetőek, csupán a korpuszokból elemzésére nyújtunk lehetőséget.  

Leíró statisztikai vizsgálatok

A szövegbányászati vizsgálatok során folyó szövegek, azaz strukturálatlan vagy részben strukturált dokumentumok elemzésére kerül sor. Az alkalmazott szózsák (bag of words) modell segítségével egy korpuszon belül az egyes szavak gyakoriságát vizsgálhatjuk meg és az eredmények segítségével különböző statisztikai műveleteket végezhetünk.

Szóbeágyazás

A szóbeágyazás célja a szavak közötti szemantikai kapcsolatokfeltárása. A szavak vektorizálásának köszönhetően (a korpuszunkban szereplő szavakróleldönthetjük, hogy azok milyen szemantikai kapcsolatban állnak egymással, azaz szinonimaként vagy ellentétes fogalompárként szerepelnek.

LDA Topik modellezés

A topikmodellezés egy felügyelet nélküli tanulási módszer, amely során az alkalmazott algoritmus a dokumentum tulajdonságait és a modell becsléseit felhasználva hoz létre különböző kategóriákat, melyekhez később hozzárendeli a szöveget.

Névelemfelismerés

A névelem-felismerés lényege, hogy automatikusan felismerjük a strukturálátlan szövegben szereplő tulajdonneveket, majd azokat kigyűjük, és típusonként (például személynév, földrajzi név, márkanév, stb.) csoportosítjuk. Kutatásunk során elemzésünkhöz SpaCy modellt használtunk.

Segédoldalak

A szóbeágyazás vizualizálásához a TensorFlow Embedding Projector vizualizációt használjuk. Ebben a megoldásban rengeteg lehetőség rejlik, azonban bonyolult feladat ezek teljes megértése. Ehhez nyújtunk segítséget az elemzési segédlet oldalon.

A korpuszok előállításához egy saját fejlesztésű, automatikus tördelés felismerő algoritmust használtunk, erről több információ ezen az oldalon található.