Az internet adatözönében gyakori probléma annak megállapítása, hogy valamilyen dokumentum – legyen az e-mail, vagy weblap – milyen nyelvű. Ezt a problémát kísérli meg megoldani a török Ocan Sankur ötlete, amely a szavak jellemző darabkái alapján próbálja meg azonosítani a forrásnyelvet. A hobbijaként a nyelvészetet és a hegymászást megnevező, jövőjét informatikusként elképzelő török középiskolás 2-5 betűs szórészletek gyakorisági statisztikája alapján készítette el számítógépes programját. A 19 nyelvet (köztük a magyart is) felismerni képes szoftver akár már 80 karakter hosszúságú szövegről is 99 százalékos pontossággal állapítja meg annak eredetét.

Ocan Sankur. Nem középiskolás fokon.
A kutatás máris tovább folytatódott: Sankur önszerveződő neurális hálózatok, az úgynevezett Kohonen-hálók segítségével térképet készített arról, hogy a rövid szórészletek (egymás után következő néhány betű) előfordulása alapján az egyes nyelvek mennyire „állnak közel” egymáshoz. A módszer a legtöbb esetben sikeres: a szláv nyelvek családja például szépen elkülönülve rajzolódott ki a török középiskolás által készített „családfán”. A magyart azonban még nem igazán sikerült a „térképre helyeznie”, az eljárás során nyelvünk csak nagyon kis hasonlóságot mutat a többi vizsgált nyelvvel. Érdekesség, hogy – bár az egyezés statisztikailag ez esetben is elhanyagolható – az algoritmus szerint a magyar még leginkább a norvéghoz áll közel. Sankur mindenesetre azt ígéri: a program finomításával a magyar nyelv is megtalálja a nyelvtudományok által már korábban igazolt helyét.
