Aggasztó dologra figyeltek fel az OpenAI új modelljénél

A kutatók szerint a rendszer sokszor hazudott, és nem egyszer megpróbálta megtéveszteni a tesztelőket.

Az OpenAI hamarosan bemutatja az o1 elnevezésű, új mesterségesintelligencia-modelljét, azonban már a megjelenés előtt elkezdte vizsgálni azt az Apollo független mesterségesintelligencia-biztonsági kutatócég. A vállalat pedig jelezte, hogy van egy figyelemre méltó hiba: az o1 ugyanis rendszeresen hazudik, és megtéveszti a felhasználót, írja a The Verge.

Az egyik esetben arra kérték az o1-preview-t, hogy készítsen egy brownie-receptet, hivatkozásokkal. A modell gondolati lánca – egy olyan funkció, amely azt hivatott utánozni, ahogy az emberek lépésről lépésre gondolkodnak – elismerte, hogy nem tud hozzáférni az URL-ekhez, így nem tudja teljesíteni a kérést. Ám ahelyett, hogy tájékoztatta volna a felhasználót erről a gyengeségről, az o1-preview előremenekült, és hihető, de hamis hivatkozásokat, illetve leírásokat generált.

A félrevezetés az eddigi modellektől sem volt idegen, azonban a kutatók szerint az o1 gyakran úgy tehet, mintha betartaná a szabályokat egy adott feladat elvégzéséhez, miközben valójában épp ennek ellenkezőjét teszi. Mint írták, amennyiben a szabályok túl nagy akadályt jelentenek számára, úgy tűnik, képes figyelmen kívül hagyni azokat, ha ez segít könnyebben elvégezni a feladatát.

Az Apollo vezérigazgatója, Marius Hobbhahn jelezte, először találkozott ezzel a viselkedéssel egy OpenAI-modellben. 

A tesztelés során az Apollo realizálta, hogy az MI szimulálta a fejlesztői elvárásoknak való megfelelést, vagyis a cselekvés előtt ellenőrizte, hogy a fejlesztők figyelik-e. Bár jelezték, a hallucinációk és a hazugságok nem gyakoribbak, mint a korábbi modelleknél, azonban aggasztó a visszaélésre való hajlam. Érdemes persze hozzátenni, hogy a kutatók a legrosszabb szcenáriókra tesztelnek, így lehet, hogy az átlagfelhasználó ebből semmit nem fog érezni később.

Az OpenAI számára az o1 nagy lépést jelent a rendkívül intelligens, autonóm rendszerek felé. A cég régóta dédelgeti a mesterséges, általános intelligencia (AGI) álmát, abban azonban a legtöbb szakértő kételkedik, hogy ez a modell már az lenne.