Gazdaság

Sorok között

A rejtett összefüggéseket feltáró szövegbányászat pénzben mérhető hasznot kínál a cégeknek.

Akár regényt is képes írni a Mexica nevű program. Készítője, aki a szoftver működését nemrég publikálta egy tudományos folyóiratban, úgy okoskodott, hogy a szereplők érzelmi viszonyai és viszontagságai jól kiszámítható fordulatokat követnek a puhakötésű irodalmi művekben. Habár a szoftverrel írott mű nem tör irodalmi Nobel-díjra, érdekes szemléltetése annak, hogy a számítógépek képesek a szöveget többnek látni, mint csupán karakterek láncolatának.

Az persze aligha várható, hogy a számítógéppel írott lektűrök köré komoly iparág szerveződne, a tárolt adatokból történő információ kinyerésének kihasználása viszont pénzben mérhető előnnyel kecsegteti a cégeket. Különösen ott, ahol az adatokat szinte kizárólag elektronikusan és túlnyomórészt strukturálatlan szövegek (dokumentumok, e-mailek) formájában tárolják. „Üzleti kockázatot is jelent, sikerül-e megtalálni a rendelkezésre álló adatokban a bennük rejlő információt” – hívja fel a figyelmet Vadász Pál, a Montana Zrt. elnök-vezérigazgatója.


Sorok között 1

Rajz: Dániel András

A szokásos, karakterláncok egyezésén alapuló keresésnél jóval többről van szó. A szövegbányászat – az elsősorban számszerű kapcsolatokat vizsgáló adatbányászathoz hasonlóan – erősen támaszkodik a statisztikai összefüggésekre, de a mesterséges intelligencia területéről ismert módszereket is használ. Ilyen például az úgynevezett tudásfa kiépítése, ami tartalmazhat például valószínűségi alapokon nyugvó szinonimaláncokat és ellentétpárokat. „Ha például a mátészalkai rendőr azt mondja, hogy a tettes koponyán ütötte az áldozatát, a zalakarosi rendőr pedig úgy veszi fel a jegyzőkönyvet, hogy a gyanúsított fejszével fejbecsapta a szerencsétlent, akkor a klasszikus karakterláncokon alapuló keresés nem veszi észre a hasonlóságot a két eset között, a szinonimákat használó indexelés viszont igen” – hoz példát egy rendőrségi projektből Vadász Pál.

A szövegekből kinyert információk számszerű adatokkal összekapcsolva fontos rejtett összefüggések feltárására is képesek. „Ez biztos alapot nyújthat akár termékfejlesztési, akár rövid vagy hosszú távú üzleti döntések megalapozásához” – állítja Elbert Éva, a SAS Institute Kft. marketingvezetője. A hatásos keresésekhez persze megfelelő nyelvi tudás is szükséges. „A szótöveken vagy összetett szavakon túl fontos lehet például a szófajok felismerése: magyar szövegekben ugyanis a főnevek jellemzően többet árulnak el a szöveg tartalmáról, mint az igék” – árul el egy szakmai fogást a Montana Zrt. első embere.

Akárcsak sok más ötlet, a szövegbányászat is szigorúan titkos eszközként indult: az 1980-as évek közepén a CIA alkalmazta a módszert a nagytömegű kémjelentések összegzésére, a technológia azonban ma már az üzleti szférában is egyre terjed. Különösen hasznos lehet a használata olyan területeken, ahol nagy mennyiségű szöveggel kell dolgozni: ilyen lehet például a szabadalmak vizsgálata vagy a sajtófigyelés. Ez utóbbit a Montanánál saját magunk végzik szövegbányászati eszközökkel, akárcsak a konkurencia vagy a humánerőforrás-piac híreinek vizsgálatát.

Magyarországon is vannak már példák nagyobb szövegbányászati projektekre. Jankó Attila, az ITDH Kht. informatikai igazgatója szerint új kereső rendszerük alkalmas előre definiált információ-források – például vállalati weblapok – rendszeres figyelésére, és ha azokon valamilyen érdekes információt publikálnak, akkor erről levélben értesíti a megrendelőt. A bevezetés az ITDH tapasztalatai szerint két hónap alatt megvalósítható, bár az összes funkció elsajátítása hosszabb időt igényel. A rendszer a technikai jellegű feladatokra fordított munkaidőt is radikálisan csökkentheti.


Bányamunkák
A szövegbányászat olyan informatikai eszközök, módszerek összefoglaló neve, amelyek egyszerűbbé, érthetőbbé, illetve láthatóvá teszik a rejtett, vagy fáradságosan előkereshető szövegösszefüggéseket, információkat. Ezt jellemzően a vállalati adatvagyonon, illetve weblapok jól megcélzott halmazán végzik. Néhány alkalmazási példa:

WHIRLPOOL. A háztartási gépeket gyártó cég nem tartotta elégségesnek a termékreklamációkról szóló matematikai, statisztikai adatok szoftveres, adatbányászati vizsgálatát. Az óriáscég ma szövegbányászati alkalmazást használ az ügyfelek viselkedésének mélyebb megértéséhez, a garanciához kötődő információk elemzésére.

HP. A társaság a vevők véleményének kiértékelésére használja az alkalmazást: a vásárlási szokások terén olyan árnyalt információk után kutat, amelyek nem olvashatók ki más jellegű kutatásokból.

ITDH. Komplex informatikai fejlesztést valósított meg a kht. tavaly az EU strukturális alapjából pályázaton elnyert forrásból, amelynek fő célja a cég „kollektív memóriájának” megteremtése volt. Új dokumentumkezelő, ügyfélkapcsolat-kezelő szoftvert és kereső rendszert vezettek be.

MONTANA. Saját szövegbányászati rendszerével végzi a cégről, a konkurenciáról szóló sajtómegjelenések, vagy épp a humánerőforrás-piacról szóló hírek vizsgálatát.

Ajánlott videó

Nézd meg a legfrissebb cikkeinket a címlapon!
Olvasói sztorik