Tudomány bbchistory
08 March 2018, Germany, Oldenburg: Two men, one of whom is writing, standing in front of an interactive "SMART" board in a classroom during the nationwide teacher training for digitisation. Photo: Mohssen Assanimoghaddam/dpa

A legmodernebb technikával fejtik meg a régi szövegeket

BBC History
BBC History

2018. 03. 11. 07:35

A kézírásos szövegek felismerésére szolgáló eljárások elterjedésével a történészek nagyobb sebességgel tudják feldolgozni a régi dokumentumokat.

A kézírásos szöveg felismerése (handwritten text recognotion, HTR) egy számítógépes szoftverrel végrehajtott eljárás, melynek segítségével felismerhetők és értelmezhetők a kézzel írt karakterek.

Ez a metódus ma már a mindennapok részévé vált, anélkül, hogy tudnánk róla – így működik például a nyomtatott betűvel, de kézzel írt űrlapok automatikus felismerése. Az azonban már régi vágya a kutatóknak, hogy a különböző, bonyolult kézírásos stílusokkal írt történelmi dokumentumok is olvashatók legyenek a HTR segítségével”

– fejtette ki a BBC Historynak Khal Rudin, az elsődleges források kiadására és online adatbázisára szakosodott tudományos kiadó, az Adam Matthew Digital igazgatója.

Időt spórol

A HTR a hagyományos kutatási módszerekhez viszonyítva rengeteg időt takarít meg a történészeknek. A kézzel írt dokumentumok elemzéséhez eddig a kutatóknak szükségük volt rá, hogy részletesen elolvassák az adott szöveget. Az archiváláshoz természetesen a továbbiakban is szükség lesz erre.

Ám a HTR képes arra, hogy több száz oldal elolvasását megspórolja, hiszen pontosan onnan kezdhetik el a szöveget elemezni a kutatók, ahonnan – akár egy adott szóra való rákereséssel – szeretnék.

Az Adam Matthew Digital adatbázisában jelenleg mintegy 2,5 millió oldalnyi kézirat kereshető. Ezek között vannak például a Kelet-indiai Társaság dokumentumai vagy Florence Nightingale, a modern nővérképzés megteremtőjének levelei – mindkettő a British Library gyűjteményéből származik –, továbbá a brit Országos Levéltárnak a gyarmatosítás kori Amerikára vonatkozó dokumentumai.

Magyarul is megtanítható

Rengeteg izgalmas eredményre vezet, ha az egyes szövegekben rákeresünk valamire. Példának okáért, ha A Florence Nightingale beszámolója a katonai ápolással és az indiai ügyekkel kapcsolatban szakértőkkel folytatott interjúiról, 1878–1898 dokumentumban a „kolera” szóra keresünk, a korabeli indiai egészségügyi helyzetre vonatkozó bekezdésre lelünk, amelyben ott áll:

„két év alatt képesek lennénk elpusztítani a kolerát”.

Ha viszont a „teás ládák” kifejezést próbáljuk megtalálni az amerikai függetlenségi háború előzményeire vonatkozó iratok között, kiderül, hogy a Dartmouth hajó 1773 végén érkezett meg Boston kikötőjébe azzal az utasítással, hogy ne rakodja ki a rakományát.

A hajó egyike volt a háromnak, amelyik érintett volt a „bostoni teadélutánban”, s a szóban forgó dokumentum alig pár nappal azelőtt született, hogy megsemmisítették volna a szállítmányt az amerikai függetlenségi háború kitörése előtt.

Az HTR-eljárásban alkalmazott eszközök a mesterséges intelligenciára (AI) is támaszkodnak. Neurális hálózatokat tanítottak meg arra a szakértők, hogy ismerjék fel az egyes karaktereket a maguk nyelvi kontextusában. Ennek egy része, hogy a mesterséges intelligenciát nagy mennyiségű és változatos összetételű történelmi dokumentumra „eresztették rá”, melyből a legkülönbözőbb kézírásos stílusokat tudta kiszűrni.

A technológia ugyanakkor nem eredményezi a dokumentum másolatát, átiratát. Kereséssel rá lehet lelni egy adott szóra, kifejezésre a szövegben, azokkal az algoritmusokkal, amelyek a keresőszóhoz a megfelelő karaktereket párosítják – attól függően, hogy mennyire felismerhetők az egyes karakterek.

Komplex eljárásról van szó, amelyet igen nagy területen lehet alkalmazni. A tudományos szakkiadó a Planet AI dokumentumkezeléssel foglalkozó technológiai céggel is együttműködést alakított ki, amely a postai szolgáltatásoktól a rendszámfelismerésig sokféle alkalmazást fejlesztett ki az eljárás nyomán.

A jövőben természetesen még jelentősebb mérföldkövekhez érkezhetünk: a következő nagy lépés a régi dokumentumok nagy mennyiségben történő teljes transzkripciója lesz”

– hangsúlyozza Khal Rudin.

Jelenleg az angolon kívül a Nyugat-Európában használatos többi nyelvvel ismerkedik a szoftver, ám ennél is messzebb tekintenek a kutatók: a többi európai nyelv, valamint az arab és a mandarin „elsajátítása” is a közeljövő tervei közé tartozik.

Kiemelt kép: Mohssen Assanimoghaddam/dpa

vissza a címlapra

Ajánlott videó mutasd mind

Kommentek

MISSION, TX - JUNE 12: A boy and father from Honduras are taken into custody by U.S. Border Patrol agents near the U.S.-Mexico Border on June 12, 2018 near Mission, Texas. The asylum seekers were then sent to a U.S. Customs and Border Protection (CBP) processing center for possible separation. U.S. border authorities are executing the Trump administration's "zero tolerance" policy towards undocumented immigrants. U.S. Attorney General Jeff Sessions also said that domestic and gang violence in immigrants' country of origin would no longer qualify them for political asylum status.   John Moore/Getty Images/AFP
Nézd meg a legfrissebb cikkeinket a címlapon!
24-logo

Engedélyezi, hogy a 24.hu értesítéseket
küldjön Önnek a kiemelt hírekről?
Az értesítések bármikor kikapcsolhatók
a böngésző beállításaiban.