A mesterséges intelligencia fejlődésének egyik legjobb mutatója az, ahogy ezek a gépagyak egyre jobbak nálunk például a logikai játékokban: legyőzték könnyedén a sakkvilágbajnokokat és a go logikai játék legjobbjait is. Most viszont szintet léptünk, és már a mesterséges intelligencia is a mesterséges intelligenciától tart: megérkezett a kiértékelés a DeepMind AlphaZero gépagyáról, ami
Az AlphaZero megverte a sakkvilágbajnok mesterséges intelligenciát, a Stockfish-t, Elmót, a japán sógi logikai játék bajnokát, és az Alpha GoZerót, amely világelső a go játékban. Legalább is volt, az AlphaZero megjelenéséig.
Az AlphaZero fejlesztői most a Science tudományos folyóiratban foglalták össze a gépagy munkáját, és azt, hogyan képes mindegyik játékban a világ legjobb versenyzőjévé válni úgy, hogy a játékszabályokon kívül semmiféle extra tudást nem táplálnak bele. Az AlphaZero tényleg nulláról kezdi a tanulást: mielőtt összemérte erejét a bajnokokkal, 9 óráig sakkot, 12 óráig sógit, és 13 napig gót gyakorolt, próbálgatta a taktikákat, magával játszott, és önmagát tanította. Ezután ráeresztették a korábbi bajnokokra, és probléma nélkül megverte mindegyiküket mind a három játékban.
Az AlphaZero olyan agresszív taktikát és merész lépéseket tett mindegyik játékban, amit emberi játékos valószínűleg nem vállalt volna be. A tanulmányból viszont kiderül, hogy a gépagy azért volt ilyen magabiztos, mert egyértelműen uralta a táblát. Garri Kaszparov, korábbi sakkvilágbajnok azt nyilatkozta a DeepMind blogján, hogy a robot játékát jó nézni, mert olyan dinamikus, ami az övéhez hasonló. Ez a sajátosság valószínűleg onnan ered, hogy
A korábbi mesterséges intelligenciák taktikája egyfajta hibrid volt a saját, illetve a korábban beléjük táplált emberi módszerekből.
Ami például a sakkot illeti, az AlphaZero, ahogy korábban is említettük, nulláról indul: elkezd játszani saját magával, és az úgynevezett megerősítő tanulás útján levonja a következtetéseket a győzelmekből és veszteségekből, átállítja és újratáplálja saját neurális hálózatát a legjobb taktikák szerint. A rendszer az úgynevezett Monte-Carlo Fakutató, vagy Monte-Carlo Tree Search (MCTS) keresési módszert alkalmazza arra, hogy megkeresse a legjobb lépéseket. A módszer eredménye az, hogy az AlphaZero olyan merész húzásokat is bevállal, amelyek a hagyományos, bevett sakk-taktikák ellen szólnak, mégis folyamatosan irányítani képes a játékot – akkor is, ha például csípőből a tábla közepére mozgatja az igencsak sérülékeny királyt, vagy felad egy olyan bábut, amire látszólag szüksége lehet a győzelemhez.
A három játék emberi képviselői abszolút pozitívan állnak a mesterséges intelligenciához: legtöbben úgy gondolják, hogy az AlphaZeróhoz hasonló szoftverek segíthetnek majd teljesen új megközelítéseket hozni a játékokba, és új taktikák kifejlesztéséhez járulhatnak hozzá. Attól viszont nem kell félnünk, hogy a gépek hamarosan jobbak lesznek nálunk minden egyes játékban: egyelőre még csak az olyanokban remekelnek, amelyek esetében látják az összes lehetséges lépést az ellenfél oldaláról. Pókerben például, úgy tűnik, egyelőre nem fognak tudni emberi játékosokat legyőzni.