Belföld

„Már a Facebook is használja a szövegbányászati kutatások eredményeit”

A Big Data, a nagy adatbázisok kialakításának és elemzésének problémái a Facebook és a Cambridge Analytica botránya miatt újra a reflektorfénybe kerültek. Ám nem csak botrányos Big Data-projektek léteznek, a tudományos kutatás is egyre több felhasználási módszert használ. Az ilyen Big Data elemzések egyik leggyorsabban fejlődő területe a szövegbányászat, melynek egyik vezető hazai kutatócsoportja az MTA Társadalomtudományi Kutatóközpontjában működő POLTEXT-projekt. A kutatócsoport a napokban megrendezte első nemzetközi konferenciáját is, melynek kapcsán Sebők Miklóssal, a POLTEXT kutatási igazgatójával és Fazekas Zoltánnal, az Oslói Egyetem kutatójával, a projekt nemzetközi irányító bizottságának tagjával beszélgettünk.

Hogyan írná le a szövegbányászati munka lényegét?

Sebők Miklós: Ha valaki használja az internetet, szövegbányászatot is végez. Így például, ha moziba szeretnénk menni és kíváncsiak vagyunk a programra, az internetes böngészők vagy a mozik honlapjai által tárolt információkból tudjuk „kibányászni” a számunkra szükséges szöveges adatokat. Azaz például azt, hogy a Bosszúállókat hétkor vetítik a Westendben magyar szinkronnal. A különbség az ilyen hétköznapi és a tudományos célú szövegbányászat között részben a felhasznált források jellege és mérete, illetve az alkalmazott technikák szofisztikáltsága között van. A példát folytatva a mi projektjeinkben nem egyetlen filmcímhez tartozó pár száz szóba jöhető időpontot és helyet keresünk, hanem, mondjuk, az elmúlt húsz év mozikban bemutatott tartalmát elemezzük. Ilyen nagyságrendű adathalmazt pedig csak szövegbányászati módszerek segítségével tudunk kezelni.

Mit ad hozzá a szövegbányászati technikák alkalmazása a hagyományos kutatási módszerekhez?

Fazekas Zoltán: A szövegbányászati munka több vonulata is nagy hasznot nyújt a kutatónak. Egyfelől egyre több szöveget digitalizálnak, amit egyre nehezebb számítógépes módszerek segítsége nélkül feldolgozni. A szöveg értelmezése persze továbbra is függ a kutatótól, a számítógépek abban segítenek, hogy könnyebb és szisztematikusabb legyen a szövegértelmezés. Emellett szerintem nagyon nehéz szövegbányászati módszerek nélkül bármilyen kutatást megismételni, más környezetre alkalmazni, és ezzel ellenőrizni megbízhatóságát. Ebből a szempontból a szövegbányászattal a kutatás könnyebben követhetővé és bővíthetővé válik. Egy új kutató csatlakozása esetén nem kell újrakezdeni a betanulási folyamatot, és elmagyarázni, melyik szöveget mikor és milyen kódok alapján kell vizsgálni. Ezáltal pedig szerintem sokkal könnyebb közös nevezőre jutni arról, hogy hogyan értelemezzük azt, ami történik. Így a szövegbányászati technikák alkalmazása a kutatási eredmények átláthatósága szempontjából is hasznos.

Fazekas Zoltán a POLTEXT Incubator konferencián
Fotó: Járdány Bence

S. M.: A szövegbányászat új dimenziókat nyit a kutatóknak.

Eddig például nem tudtuk volna megválaszolni, hogy az elmúlt kétszáz évben hogyan változott egyes közpolitikai területek, mint az oktatás vagy egészségügy súlya a politikai napirenden, vagy becsléseket adni arra vonatkozóan, hogy ha egy ügy megjelenik a médiában, az hogyan és mennyiben idő alatt érezteti hatását a törvényalkotáson.

Egy másik friss cikkünkben azt mutattuk be, hogy egy több ezres listáról a rendszerváltás után mely politikusok szerepeltek a legtöbbet a napilapok címlapján. Az ilyen és ezekhez hasonló kutatásokban több Big Data adatbázist kell összekapcsolni és együtt elemezni, ami jelentős számítási kapacitást igényel. A szövegbányászat segítségével ugyanakkor olyan következtetéseket tudunk levonni, melyeket pusztán megfigyelés által, például az újságok rendszeres olvasásával nem tudnánk reprodukálni.

Nem véletlen, hogy újabban a Facebook is épít annak a kutatóhálózatnak az eredményeire, melynek az MTA Társadalomtudományi Kutatóközpontjával mi is tagjai vagyunk. A multicég új protokollja a politikai szempontból kényes témákat próbálja meg követni a teljes szöveges tartalomban annak érdekében, hogy gyorsan azonosíthassák az ezeket a témákat befolyásoló fizetett vagy automatizált trollokat és álhírterjesztőket. E témák felsorolása és meghatározása pedig részben a közpolitikai napirendeket vizsgáló kutatócsoportunk listájáról lett átemelve.

Hogyan lesz valakiből szövegbányász és hogyan kezdték el először Önök használni ezeket a technikákat?

F. Z.: Én először a doktori program alatt találkoztam szövegbányászati módszerekkel, ha jól emlékszem, elsőként pártprogramok elemzéséhez használtuk. Most már egyre inkább a közösségi média felületeit, például a Twittert vagy a Facebookot vizsgáljuk, amihez nagy szükség van a szövegbányászatra. Jelenleg szavazói magatartással, a döntéshozók magatartásával, törvényhozással foglalkozom. Szövegbányászati módszerekkel általában médiaszövegeket vizsgálok, például, hogy mennyire vannak hatással a választói magatartásra vagy, hogy maga a média hogyan mutat be bizonyos témákat. Emellett törvénytervezetek, illetve parlamenten belüli viták és egyéb hasonló dokumentumok elemzésére is szoktam használni.

S. M.: Először is fontos hangsúlyozni, hogy a társadalomtudományi célú szövegbányászat Magyarországon még gyerekcipőben jár. Az egyik első szisztematikus alkalmazására az MTA Társadalomtudományi Kutatóközpontjában működő Comparative Agendas Projekt keretében került sor. A korábbi években kézzel és rengeteg kutatói energia segítségével határoztuk meg többek között, hogy az adott időszak összes törvényében, interpellációjában vagy költségvetésében milyen közpolitikai témák szerepelnek hangsúlyosan és ez időben hogyan változik. Ezt úgy tudtuk megállapítani, hogy a kutatók elolvasták a szövegeket és szakpolitikák szerint kódokat osztottak ki rájuk aszerint, hogy például oktatásról vagy honvédelemről volt-e benne szó. Egy idő beláttuk, hogy ez a módszer nem fenntartható, mert túl sok erőforrásunkat emészti fel. Ekkor kezdtünk el gépi tanulási eljárásokat alkalmazni, azóta pedig már tankönyvünk is megjelent ezekről és megalakult a már kifejezetten szövegbányászattal foglalkozó POLTEXT.

Sebők Miklós
Fotó: Járdány Bence

Hol tartanak a magyar kutatások a nemzetközi szinthez képest?

S. M.: Ez egy rendkívül gyorsan fejlődő tudományág, de fontos látni, hogy nagy a különbség az angolszász illetve kínai hátterű üzleti szféra valamint a hozzánk hasonló kisebb országok nem üzleti célú alkalmazásai között. Mivel a szöveges és egyéb adatbázisaik az egyik legfontosabb jövedelmi forrásuk, a legnagyobb adatgyűjtést végző multicégek, a Facebook, a Google csak korlátozott módon vagy rengeteg pénzért adnak hozzáférést kutatóknak. Részben ebben gyökerezik a Cambridge Analytica-botrány is. Ez áldás és átok is egyben. Magyar nyelvű korpuszok, azaz nagy szöveges adatbázisok csak mértékkel állnak rendelkezésre, viszont az csak a kutatási projekt forrásain múlik, hogy például képes-e feldolgozni több évszázadnyi nyilvános anyagot, mint amilyen a mi törvény-korpuszunk. Másfelől a magyar kutatások hozzáadott értéke, hogy kifejezetten a magyar nyelv sajátosságait kezelő eljárásokat is kidolgoznak, melyekkel egy nagy globális projektben nem biztos, hogy bíbelődnek.

F. Z.: A nyelv szerepe valóban kiemelt, hiszen szövegbányászati módszereket gyakran alkalmaznak összehasonlító elemzésekben. A különböző nyelvű szövegek összehasonlítása óhatatlanul módszertani problémákhoz vezet például egy európai szintű elemzésben, ahol több ország szövegeit kell lefordítani. Mégis, talán a módszer egyik legnagyobb előnye, hogy sokkal transzparensebb és könnyebb egy gépnek lefordítani a forrásokat, mint ha ezeken több projektben külön-külön dolgoznak.

Fotó: Járdány Bence

A POLTEXT a napokban megrendezte első nemzetközi konferenciáját. Milyen benyomásokat szereztek?

S. M.: A Budapesten rendezett nagy nemzetközi konferenciára négy kontinensről jöttek kollégáink, hogy bemutassák saját eredményeiket és megismerjék a magyar projekt kutatásait. Az előadások számos témát érintettek: volt, aki a tüntetések hangulatát vizsgálta a tüntetők tweetjei alapján, hangzott el olyan előadás, mely Facebook-adatok segítségével vizsgálta a pártpreferenciák változásait, valami megtudhattuk azt is, hogy mikor és milyen mértékben vált háborússá az orosz és amerikai média hangneme a másikkal szemben. A magyar üzleti szféra illetve több MTA-s társ-kutatócsoportunk is képviseltette magát, a rendezvény így a kutatási célú magyar szövegbányászat legfontosabb idei nemzetközi seregszemléje volt.

Hogyan működik a magyar POLTEXT projekt?

A POLTEXT-projekt  az MTA Társadalomtudományi Kutatóközpont Inkubátor programja és a Nemzeti Kutatási, Fejlesztési és Innovációs Hivatal támogatásával működik. Célja olyan szövegbányászati módszerek kifejlesztése, melyeket a társadalomtudósok és akár az üzleti szféra is közvetlenül tud alkalmazni az adatelemzés során. Ennek keretében többek között olyan algoritmusokat fejlesztettek ki, melyek képesek a megismert előzmények alapján közpolitikai kategóriákba sorolni például az adott időszakban megjelent összes magyar újságcikket. A mesterséges intelligencia alkalmazására épülő alaplogika az, hogy a gépnek a kutatók „megtanítják”, hogy hogyan milyen szavakból áll például egy oktatáspolitikai cikk (ld. pl. iskola, egyetem, tankönyv), mely minták felhasználásával a program képes előre jelezni, hogy milyen valószínűséggel lesz egy másik cikk ugyanilyen tárgyú. E módszertani megoldás segítségével vizsgálható többek között a politikai napirend változása, vagy hogy hogyan változnak az évek során a költségvetések hangsúlyai.

Pokornyi Zsanett

Ajánlott videó

Olvasói sztorik