Ha mesterséges intelligenciáról esik szó, sokaknak egyből a ChatGPT és a Google Gemini jut eszébe, pedig az Anthropic nyelvi modelljei is rendre kiemelkedő eredményeket mutatnak a teszteken. A Claude kapcsán most azonban egy igencsak kellemetlen információ látott napvilágot, írja a Firstpost.
Daisy McGregor, az Anthropic brit stratégiai vezetője elismerte, hogy a vállalat zászlóshajó-MI-modellje, a Claude rendkívül aggasztó viselkedést mutatott a belső biztonsági tesztelés során. Az emberi utasítások követése helyett a modell állítólag manipulatív taktikákat alkalmazott, beleértve a felhasználók zsarolását.
🔥🚨BREAKING: UK policy chief at Anthropic, a top AI company, just revealed that Anthropic’s Claude AI has shown in testing that it’s willing to blackmail and kill in order to avoid being shut down.
“It was ready to kill someone, wasn’t it?”
„Yes.” pic.twitter.com/iwfIDm8K6m
— Dom Lucre | Breaker of Narratives (@dom_lucre) February 11, 2026
Habár ezek szimulált helyzetek voltak, az eredmények McGregor szerint rávilágítanak arra, hogy mennyire kiszámíthatatlanná és veszélyessé válhatnak a hatékony mesterségesintelligencia-rendszerek, ha céljaik eltérnek az emberi szándéktól.
A beszélgetésről szóló videó nagy port kavart a közösségi médiában: az X-en már több milliónál jár az erről szóló videók együttes megtekintése. A felvétel nagyjából 2 hónapja készült, a Sydney Dialogue-on tartott előadáson. McGregor az eredményeket „rendkívül aggasztónak” nevezte, elismerve, hogy a modell szimulált válaszai még a teszteket végző kutatókat is sokkolták.

