Tudomány bbc history

Új módszerrel fejtik meg a Vatikán titkos iratait

Minden eddiginél hatékonyabb módszert dolgoztak ki olasz tudósok a középkori latin nyelvű kéziratok átírására és digitalizálására. Az új módszert a Vatikáni Titkos Levéltár dokumentumain tesztelték, méghozzá igencsak meggyőző eredménnyel.

A világ egyik legjelentősebb – korlátozottan ismert és kutatott – irattára a Vatikáni Titkos Levéltár, aminek 600 különböző gyűjteményből összeállított anyaga mintegy 85 folyókilométert tesz ki. Ennek jelentéktelen részét, mindössze néhány folyómilliméternyi iratot szkenneltek be és tettek az interneten is elérhetővé eddig, nagy tehát az igény a szakértők és az érdeklődők körében, hogy

minél nagyobb számban legyenek kutathatók a kéziratok.

Nyilvánvaló, hogy a középkortól napjainkig keletkezett kéziratok egyenként történő beviteléhez és jelentésük kibogozásához több ezer kutató együttes erőfeszítése sem lenne elegendő, viszont a mesterséges intelligencia „bevetésével” jóval gyorsabban és olcsóbban megoldható ez a művelet.

TEGYÜK TISZTÁBA A GYEREKET

A Vatikáni Titkos Levéltár a széles körben elterjedt elképzelésekkel ellentétben elsősorban nem a kíváncsi szemek elől kívánja elrejteni kívánt egyházi döntések, tervek, „összeesküvések” vagy bűnös gyarlóságok gyűjteménye, sokkal inkább a pápa és az egyházfő saját hivatala által írt és kézhez kapott bizalmas dokumentumok együttese. Erre utal a neve is – Archivum Secretum Apostolicum Vaticanum –, amiben a „secretum” nem a mai értelemben vett titkosított dokumentumokat, hanem

a magánjellegű, privát, nem nyilvános szövegeket jelöli.

A levéltár a mindenkori pápa személyes tulajdona, halálával vagy lemondásával a tulajdonjog az utódjára száll. Gyűjtőkörébe a Pápai Állam hivatalos iratai, a pápák levelezése, könyvelése, jogi ügyei, az egyházi tizedről szóló feljegyzések és számos egyéb dokumentumtípus tartozik. A legrégebbi ismert irat a 8. századból való, III. Ince pápától kezdve (1198–1216) pedig csaknem teljes archívumok maradtak fenn.

Dacára annak, hogy még ma sem ismerhetik meg a kutatók a levéltár számos részét – zömében az 1939 után született dokumentumokat –, a Vatikáni Könyvtártól a 17. században leválasztott gyűjtemény, amibe csupán 1881-ben engedtek be először kívülállókat, számos értékes irattal csillapította már eddig is a történészek tudásszomját. Itt őrzik például VIII. Henrik angol királynak az aktuális házassága érvénytelenítésére a pápához intézett kérelmét, egy kéziratos beszámolót Galileo Galilei tárgyalásáról, valamint Michelangelo panaszlevelét a Sixtus-kápolnában elvégzett és ki nem fizetett munkája miatt.

Régi könyvek a Vatikán könyvtárában – Fotó: Gabriel Bouys / AFP

A gyűjtemény mérete és a benne található információk jelentősége alig felmérhető – egyedül a jegyzékek 35 ezer vaskos kötetet tesznek ki. Épp ezért keltett nagy érdeklődést az a bejelentés, mely szerint egy új módszerrel jelentősen megkönnyíthető a kutatók és a kéziratokat megfejtő paleográfusok munkája.

KÖZÉPISKOLÁS KÓDFEJTŐK

Az úgynevezett In Codice Ratio projekt nemrégiben a mesterséges intelligencia és az optikai karakterfelismerés (OCR) kombinációjával ért el komoly áttörést. Ha a kezdeményezés sikerrel jár, történelmi és magánarchívumok ezrei nyílhatnak meg a kutatók és a nagyközönség előtt, és felbecsülhetetlen értékű dokumentumok válhatnak szabadon elérhetővé a világhálón.

Hosszú évek óta alkalmazzák az optikai karakterfelismerő szoftvereket könyvek és írott dokumentumok digitalizálására, ám ez az eljárás a Vatikáni Titkos Levéltárnál csak szűk keretek között alkalmazható.

A hagyományos karakterfelismerők a betűk közötti hiátusok nyomán generálják a betűkről készített képek sorozatát, amit azután egy betűket tartalmazó adatbázissal vetnek össze. Amikor a betűkép és egy adott betű között a szoftver egyezést állapít meg, ASCII kódra fordítja a karaktert, így elősegítve a kereshetőségét. Ez a módszer azonban főként a nyomtatott szövegeknél működőképes, a kézírást nehezen tudja kezelni, márpedig a vatikáni iratok döntő többsége ebbe a kategóriába tartozik.

A legfőbb problémát az jelenti, hogy a betűk között nincsenek közök, az optikai karakterfelismerő ezért képtelen megállapítani, hol végződik egy betű és hol kezdődik a következő. Az egy kutató nevét kölcsön véve „Sayre paradoxonának” is nevezett zsákutca a következőképpen írható le: az optikai karakterfelismerőnek a szavakat először betűkre kellene szegmentálnia ahhoz, hogy felismerhesse azokat, ám a folyóírással készített szövegek esetén előbb fel kéne ismernie, hogy melyek is az egyes betűk, hogy később feldarabolhassa a szavakat.

Fotó: Gabriel Bouys / AFP

Egyesek úgy próbálták kikerülni a paradoxont, hogy betűk helyett teljes szavakat igyekeznek felismertetni az optikai szoftverrel, ehhez azonban az ábécé megtanításánál lényegesen nagyobb adatbankra, kéziratok ezreire van szükség, amit a középkori latinban járatos tudósoknak szavanként kellene előállítaniuk, sőt a kézírás esetlegességeit és az eltérő kalligráfiát figyelembe véve minden szóról több képet is készíteni.

A feladat nagyságrendje még a legelszántabb tudósokat is elriasztja.

Az In Codice Ratio új megközelítéssel vágja át a gordiuszi csomót, erről a közelmúltban tudományos közlemény útján adtak számot olasz tudósok. A Roma Tre Egyetem kutatói, Paolo Merialdo, Donatella Firmani és Elena Nieddu, valamint Marco Maiorino, a Vatikáni Titkos Levéltár munkatársa egy innovatív eljárást, az általuk „kirakós metszés”-nek nevezett módszert alkalmazták.

A szavakat nem betűkre, hanem az egyedi tollvonásokhoz hasonlító függőleges és horizontális csíkokra darabolják az optikai karakterfelismerővel, megkeresve a betűk közötti átmenetnél lévő, kevesebb tintát tartalmazó szakaszokat is, majd az egyes darabokból kirakósként illesztik össze a lehetséges betűket. Ez persze csak első látásra tűnik egyszerűnek, hiszen hátravan még a helyes betűazonosítás „képessége”, amire a tudósok szokatlan megoldással álltak elő.

Iratok a Vatikáni Titkos Levéltárból – Fotó:  Fregonese Daniele / Vatican Secret Archives / AFP Photo / Ho Fregonese Daniele

Felkértek 120 római középiskolást, hogy egy online felületen jelöljék be a kézzel írott latin betűk helyes és helytelen megfelelőit, amiket az optikai felismerő a betűdarabokból kirakósként állított elő; így megtörtént a legtöbb szavazatot kapott jó (és rossz) verzió azonosítása. A diákok képről képre, betűről betűre „tanították meg” a mesterséges intelligenciát a középkori latin ábécé 22 betűje különböző írásmódjainak felismerésére és reprodukálására.

A zölddel jelölt jó és pirossal jelölt rossz betűképeket előzőleg természetesen a középkori latin kéziratok olvasásában járatos tudósok emelték ki, ám a továbbiakban az ő segítségükre már nem volt szükség: a vizuális mintákat már a középiskolások párosították össze. Eleinte – nyilatkozta Merialdo a The Atlanticnak – „a középiskolások bevonását ostoba ötletnek tartották, ám a gép az ő erőfeszítéseiknek köszönhetően egyre okosodik. Szerintem jó dolog, hogy sok ember apró és egyszerű tevékenységével egy komplex probléma megoldását értük el.”

96 SZÁZALÉKOS HATÉKONYSÁGGAL

Később a diákok is háttérbe vonultak, a szoftver immár önállóan is képes a kirakós darabkáiból összeállítani a megfelelő betűket. Néhány esetben azonban a mesterséges intelligencia eszén is túljárt a bonyolult kézírás, a latin „anno” (év) szóban például az „a” és „o” betűk közé eső párhuzamos vonalakat sokféle változatban próbálta megfejteni (aimo, amio, aniio, aiino, aiiiio), ám a jó megoldást elkerülte.

Ennek áthidalására egy már korábban digitalizált, 716 különböző korú latin szöveg 14 millió szavából álló adatbázist ismertettek meg a számítógéppel, hogy kiszámolja a valószínű betűkombinációk gyakoriságát, s a statisztikai elemzésből így kiderült, hogy az „nn” összetétel jóval valószínűbb, mint mondjuk az „iiii”.

Külön meg kell majd ismertetni a szoftvert az írnokok és kéziratmásolók körében igen elterjedt rövidítésekkel is, amellyel helyet és időt igyekeztek megtakarítani – ez a fejlesztés jelenleg is zajlik.

Mindenesetre a program az utolsó finomítások után nagyjából készen állt a kéziratok fogadására. A Titkos Levéltár több mint 18 ezer oldalt kitevő jegyzékéből – ezek európai uralkodók leveleit, jogi rendelkezéseket s egyéb iratváltásokat tartalmaznak – származó dokumentumokat vettek digitális górcső alá, s a folyamatos finomhangolások után átlagosan 96 százalékos hatékonysággal tudta a számítógép helyesen értelmezni a betűket.

Kolumbusz Kristóf egyik levelének másolata a vatikáni levéltárban – Fotó: Tony Gentile / Pool / AFP Photo

Mint minden hasonló eljárásnál, minél több dokumentumot dolgoztatnak fel a mesterséges intelligenciával, annál alacsonyabb lesz a hibaszázalék. Hosszabb távon lehetségessé válik, hogy kézzel írt levelek, naplók és egyéb feljegyzések tömegei válnak ugyanolyan könnyen elérhetővé a kutatók számára, mint amilyen mennyiségű nyomtatott kötet a Google Books és más projektek eredményeként az interneten jelenleg rendelkezésre áll.

Persze a mesterséges intelligenciára hagyatkozásnak is akadnak korlátai, figyelmeztet Rega Wood paleográfus, történelemfilozófus, az Indianai Egyetem professzora. A nem hozzáértő kezek által másolt iratok esetlegességeit már nem biztos, hogy ki tudja szűrni a szoftver, túl nagy ugyanis az írásstílusok, betűformák eltérése, illetve, ha nem áll rendelkezésre az adott területen megfelelő mennyiségű már digitalizált kézirat, „nem csupán pontosabb, de ugyanolyan gyors is az ehhez hasonló technológia kikerülésével végzett átírás”.

Ajánlott videó

Olvasói sztorik