A legmodernebb technikával fejtik meg a régi szövegeket

A kézírásos szövegek felismerésére szolgáló eljárások elterjedésével a történészek nagyobb sebességgel tudják feldolgozni a régi dokumentumokat.

A kézírásos szöveg felismerése (handwritten text recognotion, HTR) egy számítógépes szoftverrel végrehajtott eljárás, melynek segítségével felismerhetők és értelmezhetők a kézzel írt karakterek.

Ez a metódus ma már a mindennapok részévé vált, anélkül, hogy tudnánk róla – így működik például a nyomtatott betűvel, de kézzel írt űrlapok automatikus felismerése. Az azonban már régi vágya a kutatóknak, hogy a különböző, bonyolult kézírásos stílusokkal írt történelmi dokumentumok is olvashatók legyenek a HTR segítségével”

– fejtette ki a BBC Historynak Khal Rudin, az elsődleges források kiadására és online adatbázisára szakosodott tudományos kiadó, az Adam Matthew Digital igazgatója.

Időt spórol

A HTR a hagyományos kutatási módszerekhez viszonyítva rengeteg időt takarít meg a történészeknek. A kézzel írt dokumentumok elemzéséhez eddig a kutatóknak szükségük volt rá, hogy részletesen elolvassák az adott szöveget. Az archiváláshoz természetesen a továbbiakban is szükség lesz erre.

Ám a HTR képes arra, hogy több száz oldal elolvasását megspórolja, hiszen pontosan onnan kezdhetik el a szöveget elemezni a kutatók, ahonnan – akár egy adott szóra való rákereséssel – szeretnék.

Az Adam Matthew Digital adatbázisában jelenleg mintegy 2,5 millió oldalnyi kézirat kereshető. Ezek között vannak például a Kelet-indiai Társaság dokumentumai vagy Florence Nightingale, a modern nővérképzés megteremtőjének levelei – mindkettő a British Library gyűjteményéből származik –, továbbá a brit Országos Levéltárnak a gyarmatosítás kori Amerikára vonatkozó dokumentumai.

Magyarul is megtanítható

Rengeteg izgalmas eredményre vezet, ha az egyes szövegekben rákeresünk valamire. Példának okáért, ha A Florence Nightingale beszámolója a katonai ápolással és az indiai ügyekkel kapcsolatban szakértőkkel folytatott interjúiról, 1878–1898 dokumentumban a „kolera” szóra keresünk, a korabeli indiai egészségügyi helyzetre vonatkozó bekezdésre lelünk, amelyben ott áll:

„két év alatt képesek lennénk elpusztítani a kolerát”.

Ha viszont a „teás ládák” kifejezést próbáljuk megtalálni az amerikai függetlenségi háború előzményeire vonatkozó iratok között, kiderül, hogy a Dartmouth hajó 1773 végén érkezett meg Boston kikötőjébe azzal az utasítással, hogy ne rakodja ki a rakományát.

A hajó egyike volt a háromnak, amelyik érintett volt a „bostoni teadélutánban”, s a szóban forgó dokumentum alig pár nappal azelőtt született, hogy megsemmisítették volna a szállítmányt az amerikai függetlenségi háború kitörése előtt.

Az HTR-eljárásban alkalmazott eszközök a mesterséges intelligenciára (AI) is támaszkodnak. Neurális hálózatokat tanítottak meg arra a szakértők, hogy ismerjék fel az egyes karaktereket a maguk nyelvi kontextusában. Ennek egy része, hogy a mesterséges intelligenciát nagy mennyiségű és változatos összetételű történelmi dokumentumra „eresztették rá”, melyből a legkülönbözőbb kézírásos stílusokat tudta kiszűrni.

A technológia ugyanakkor nem eredményezi a dokumentum másolatát, átiratát. Kereséssel rá lehet lelni egy adott szóra, kifejezésre a szövegben, azokkal az algoritmusokkal, amelyek a keresőszóhoz a megfelelő karaktereket párosítják – attól függően, hogy mennyire felismerhetők az egyes karakterek.

Komplex eljárásról van szó, amelyet igen nagy területen lehet alkalmazni. A tudományos szakkiadó a Planet AI dokumentumkezeléssel foglalkozó technológiai céggel is együttműködést alakított ki, amely a postai szolgáltatásoktól a rendszámfelismerésig sokféle alkalmazást fejlesztett ki az eljárás nyomán.

A jövőben természetesen még jelentősebb mérföldkövekhez érkezhetünk: a következő nagy lépés a régi dokumentumok nagy mennyiségben történő teljes transzkripciója lesz”

– hangsúlyozza Khal Rudin.

Jelenleg az angolon kívül a Nyugat-Európában használatos többi nyelvvel ismerkedik a szoftver, ám ennél is messzebb tekintenek a kutatók: a többi európai nyelv, valamint az arab és a mandarin „elsajátítása” is a közeljövő tervei közé tartozik.

Kiemelt kép: Mohssen Assanimoghaddam/dpa