Sorra verik el a gépagyak különféle játékokban a legjobb versenyzőket, nemrég a világ legösszetettebb táblás játékában, a góban aratott győzelmet az emberiség felett a Google AlphaGo nevű szoftvere.
A fejlett algoritmusok nemcsak a hagyományos játékokban, de már a videojátékokban is remekelnek. 2015-ben áttörést hozott, hogy a Google szoftvere olyan klasszikus Atari-játékokat tanult meg eredményesen játszani, mint amilyen a Pong, a Breakout, és a Space Invaders.
Most a Microsoft tulajdonában álló Maluuba nevű startup által fejlesztett mesterséges intelligencia “büszkélkedhetett” azzal, hogy rekordot döntött az Atari 2600-os klasszikus árkádjátékában, a Ms. Pac-Manben.
A legügyesebb emberi játékos, Wilson Oyama is eddig csak 266,330 pontig jutott.Ez azért jelentős mérföldkő, mert a gépagyak számára ez a játék jelentette eddig a legnagyobb kihívást.
Az algoritmus fejlesztői szerint Maluuba győzelme bizonyítja az általuk alkalmazott, úgynevezett “hibrid jutalmazási struktúra” sikerességét. Ez a klasszikus megerősítéses tanulást (reinforcement learning) kombinálja egy újfajta metódussal, amelyben a végleges döntéshozatalhoz többféle variánst mozgósít a szoftver.
Gyakorlatilag a döntést sok kicsi apró döntésre tagolja, a végleges lépést pedig a kisebb döntések fényében hozza meg az algoritmus.
Maluuba több mint 150 szempontot vett figyelembe, ezeket “összedolgozva” próbálta a lehető legtöbb pontot úgy elérni, hogy ne az ellenséges szellemek kapják be Ms. PacMant. Megnézte, hogy ha az egyik irányba megy a karakter, akkor gyorsan felszedhető egy gyümölcs, míg ha egy másik irányt választ, a szellemeket kerülheti el.
A sok opciót mérlegelve és súlyozva hozta meg a végső döntést, hogy melyik irányba mozogjon a gombóc. Ha a 150-ből 100 variáns alapján Ms. Pac-Mannek balra kellene fordulnia a egy gyümölcsért, de 2-3 azt jelzi, hogy inkább jobbra kéne menni a balról érkező veszélyes szellemek miatt, akkor végül jobbra fordult a veszélytől tartva,
A kutatók remélik, hogy a hibrid struktúra jelentős előrelépést hozhat a gépi tanulás fejlesztésében, főleg a kontextusra érzékeny döntéshozatalban. Így a Pac-Man után más, a világ összetettebb problémáit megoldó algoritmusokat írhatnak.