Magyarország sok évtized után 2019-ben kapta meg Oroszországtól a magyar hadifoglyok és civil elhurcoltak adatait. A mintegy 682 ezer személy információinak feldolgozását követően idén február 25-én vált hozzáférhetővé a Magyar Nemzeti Levéltár által üzemeltetett, teljesnek tekinthető adatbázis – áll az ELKH közleményében.
A cirill betűs adatbázis magyarra történő automatizált átültetését az ELKH Nyelvtudományi Kutatóközpont (NYTK) kutatói végezték Sass Bálint vezetésével.
A Magyar Nemzeti Levéltár 2019-ben közel 200 millió forintért vásárolta meg az Orosz Állami Hadilevéltártól a mintegy 682 ezer magyar hadifogoly és elhurcolt civil alapvető adatait tartalmazó kartonok digitalizált, szkennelt képét, illetve az ezekből készített adatbázist. Ez az adott személyekhez köthető legfontosabb információkat tartalmazza: a fogolyként nyilvántartott személy vezeték- és keresztnevét, orosz szokásnak megfelelően az apai keresztnevet, a rendfokozatot, a születés helyét és idejét, a fogságba esés helyét és idejét, a távozás idejét és az elbocsátó tábort, illetve – amennyiben az illető személy elhunyt – az elhalálozás időpontját.
A kartonokon minden cirill betűkkel szerepel, tehát nemcsak az orosz, hanem a magyar nyelvű adatok is. A feldolgozás során az jelentette a nyelvi problémát, hogy a magyar foglyok által bediktált magyar nyelvű személyes adatok cirill betűs formában álltak rendelkezésre, mégpedig úgy, ahogyan azt az információkat felvevő katona hallás után leírta. Ráadásul az adatok tovább torzultak, amikor a 2010-es évek során az orosz szakemberek a kartonok alapján elkészítették az adatbázist: ekkor a 70 évvel korábbi kézírás alapján rögzítették az általuk nem értett magyar nyelvű, de cirill betűkkel leírt szövegeket.
Az automatikus orosz-magyar átírást, helyreállítást a NYTK munkatársai végezték, a feladat a „Ковач Йожеф → Kovács József” jellegű transzkripció megvalósítása volt. A nehézséget az okozza, hogy a torzulások miatt a betű-betű megfeleltetés a legritkább esetben ad helyes megoldást. Tömegesen fordulnak elő nehezen algoritmizálható esetek, mint például a Дейло → Béla. Sok esetben több egyenrangú lehetséges megoldás is adódik, amelyek közül már nem lehet vagy nem érdemes automatizált módon választani, például: Эрин → Ernő, Ervin, Erik.
Az automatikus átíró-helyreállító eszköz megtalálható a githubon. A 2021. február 25-én, a kommunizmus áldozatainak emléknapján megnyílt, szabadon kereshető, nyilvános adatbázis a Magyar Nemzeti Levéltár oldalán érhető el.