Ha eddig azt hittük, hogy a kontextusukból kiragadott videók vagy a félrevezető információktól hemzsegő újságcikkek a kormánypárti propaganda fő fegyverei, akkor érdemes felkötni a gatyánkat, ugyanis bő másfél évvel a következő parlamenti választás előtt úgy tűnik, politikai szintre emelték Magyarországon a deepfake-ekről, vagyis a mesterséges intelligencia által generált vagy manipulált hangokról, illetve videókról szóló diskurzust.
Az egész akkor kezdődött, amikor Magyar Péter sajtótájékoztatóján azt állította, hogy titkosszolgálati módszerekkel lehallgatják, exbarátnője, Vogel Evelin pedig több mint 11 órányi hangfelvételt készített róla, amivel egészen addig zsarolta őket eredménytelenül, mígnem végül átadta azokat a kormánypártok embereinek. Ez azonban bőven nem a legmeredekebb állítása a Tisza Párt elnökének, Magyar ugyanis azt is állította, hogy „Rogán Antalék egymilliárd forintot költöttek egy MI-alapú szoftverre”, amelyet beszédeivel és megszólalásaival tanítanak be.
Nem kellett sokat várni, hétfőn már meg is jelent az első (csütörtökön pedig a második) Vogel által rögzített felvétel, amin Magyar a többi között arról beszél egy tüntetést követően, hogy „büdösek az emberek és a szájuk”. Magyar Péter közleményben jelezte, illegálisan szerzett és manipulált felvételekkel akarja lejáratni a rogáni propaganda. A Lakmusz ugyanakkor jelezte, hogy a politikus által a manipuláció bizonyításaként hivatkozott oldalak háttere minimum megkérdőjelezhető.
Amíg a Redditen a Resemble Detect deepfake-felismerő szoftvere eredményének láttán arról írtak, hogy a felvétel ténylegesen manipulált, vannak olyan fejlesztések, amelyek mást állítanak. A Google Chrome bővítményként használható Hiya Deepfake Voice Detector szerint 70 százalék az esélye annak, hogy a felvétel valós, míg a leginkább saját szoftverének módosításaira szakosodott ElevenLabs mindössze 2 százalék esélyt adott annak, hogy generált vagy manipulált. Így tehát egyszerű, mindenki számára könnyen elérhető eszközökkel nem lehet arról egyértelműen megbizonyosodni, hogy hamis vagy épp valós egy felvétel.
A 24.hu-nak megszólaló szakértő jelezte, hogy ugyan vannak 90 százalékos pontosságot ígérő, megbízhatónak tartott detektorok a piacon, a manipulált vagy hamis felvételek által elért hatást a legtöbb esetben akkor sem lesznek képesek visszacsinálni. Rab Árpád jövőkutatóval és digitális kultúra szakértővel arról beszéltünk, mit tehetünk a kérdés eldöntésére, és hogy van-e szükség egymilliárd forintra meggyőző deepfake-ek előállításához.
Nem most kezdődött a hazudozás
A manipulált tartalmak két-három éve befolyásolják bizalmunkat az interneten, ezzel párhuzamosan viszont a manipuláció felismerésének tudása is terjed: képek esetében a végtagok, ujjak helyzetére, az életszerűtlen testtartásokra érdemes figyelni, míg hangoknál többek között a természetestől eltérő hanglejtésre. Ez a tudás azonban a szoftverek fejlődésével párhuzamosan egyre inkább elolvad, és elérkezünk oda, hogy emberi szemmel vagy füllel már nem tudjuk azonosítani a manipulált hangokat, képet, videókat, és gépi segítségre van szükség. A deepfake felismerésében egyre inkább a fogyasztó kontextusértése, műveltsége, háttértudása segíthet, és nem apró részletek megfigyelése.
A rendszeres médiafogyasztók külföldi választások során tapasztalhatták, hogy a szakértők jó pár éve kongatják a vészharangot a deepfake-ek térnyerésére figyelmeztetve. Erre már sor került a 2023-as szlovákiai választáson, és az Egyesült Államokban is téma volt idén: Elon Musk például manipulált videót osztott meg a demokrata elnökjelöltről, Joe Biden hangját klónozva pedig New Hampshire-ben próbáltak mozgósítani Kamala Harris javára.
Ez tehát nem számít újdonságnak, a rettegett áttörés azonban továbbra sem jött el. Ennek a lapunknak megszólaló szakértő szerint több oka is van: a deepfake-ek általi hamis világ felépítésénél sokkal jobban működő megoldásai vannak az üzleti és politikai marketingnek, amelyeket szinte automatizáltan létre tudnak már hozni. Emellett a hírek szerint a nagy cégek is kivártak, és csupán a novemberi amerikai választás után lesznek hajlandók kihozni az új, fejlettebb szoftvereiket.
Egy deepfake videó önmagában nem elég véleményformálásra: meglévő elképzelések, üzenetek erősítését támogathatja, vagy egyszerűen rombolhatja a társadalmi bizalmat.
A videós vagy audio deepfake lényege röviden annyi, hogy egy személy valamilyen ismertetőjegyét (hangját, arcát vagy mindkettőt) mesterséges intelligencia segítségével úgy változtatják meg, hogy az illető valaki másnak tűnjön. Ez sokkal könnyebb egy hangfelvétel esetében: ha van pár percnyi vagy órányi anyagunk egy adott személyről, az ezek segítségével létrehozott felvétel könnyedén alkalmas lehet a megtévesztésre, ugyanis lemásolhatja a szereplő hanghordozását. A Tisza Párt meg is osztott egy videót ennek menetéről a TheVR Youtube-csatornától, épp csak az engedélyük nélkül, így ezt később vissza is vonták.
Egy videó esetében ugyanez sokkal komplikáltabb: az ember sokkal érzékenyebb a vizuális hibákra, például hajlamosabb kiszúrni a szemmozgás vagy a bőr változásának anomáliáit. Emellett óriási számítási kapacitásra is szükség van hozzá – éppen ezért nincsenek még fejlett videós deepfake-ek a piacon. Habár a nagy cégek hivatalosan nem tettek közzé audio deepfake programokat sem – az etikai aggályokra hivatkozva –, ezek már nagy számban elérhetők a neten, és sok esetben népszerű fejlesztések nyilvánosan elérhető kódján alapulnak.
Felvetődik a kérdés, hogy akkor mégis miért érhetők el ezek szabadon. Rab Árpád szerint a felvetés jogos, de érdemes elgondolni, mi lenne fordított esetben: mennyire lenne elítélhető az, hogy ha semmit nem osztana meg a fejlesztéseiről az OpenAI? A ChatGPT alapjain több ezer mesterséges intelligencia alkalmazás érhető már el: van, amelyik a matematikatanulást segíti, van, amelyik a kutatást, egyesek az idősek gondozásában segítenek, mások az okos otthon fejlesztéseket szolgálják, a sor pedig szinte végtelen.
A kutató szerint ugyanakkor elkerülhetetlen, hogy egyesek rossz célra használják a technológiát, ahogy az korábban is sokszor megtörtént. A technológia önmagában semleges, a felhasználók szándékai és a felhasználási cél lehet építő vagy káros. Deepfake megoldásokkal az online biztonság területén számos alkalommal találkozhattunk már: manipulált hangfelvételek segítségével telefonon kicsalt pénzek vagy akár ál-emberrablások is léteznek. Amit most látunk, állítja a szakértő, az, hogy a mesterséges intelligencia egy újabb dologban ingatja meg a bizodalmunkat, pedig az online bizalomra a jövőépítés szempontjából nagy szükségünk van.
Először a szövegben veszítettük el a hitünket, ugyanis bárki leírhat bármit. Utána, amikor rájöttünk, hogy a fotókat is lehet manipulálni, szintén volt egy bizalomvesztés, most pedig már a mozgóképet és a hangokat is lehet – ehhez pedig meg kell tanulnunk alkalmazkodni
– mondja a szakértő.
Mit tehetünk ellene?
A legegyszerűbb válasz nyilván az, hogy tiltsuk be. Ez a hajó már elment, a technológia ugyanis ott van a neten, és ha egyszer felkerült, sosem fog eltűnni onnan. Nem mellesleg a világon elsők között alkotott célzott szabályozást erre a területre az Európai Unió, amely egyértelműen inkább a korlátozásra helyezné a hangsúlyt a teljes tiltás helyett. A teljes tiltás eleve sokkal több lehetőségtől fosztaná meg az emberiséget, mint amennyit nyernénk a tiltással.
Ez azonban nem olyan egyszerű, mint amilyennek tűnik. Ehhez ugyanis megállapodásra van szükség a különböző fejlesztések gyártói között, melyben lefektetik, hogy vízjellel látják el a felvételeiket, így ellenőrizhetővé téve az anyagok eredetiségét. Az európai uniós MI-szabályozás ki is mondja ennek szükségességét, azonban felmerül az a probléma, hogy még ha a nagyvállalatok megteszik ezt, a kisebb, akár illegálisan működő szereplők akkor sem akarnak majd megfelelni a szabályoknak.
Mindig a legális szereplőket érik a legnagyobb retorziók, mert őket lehet elkapni. Ha egy csoport külföldi szerverről, kamu fiókokkal kezdi terjeszteni a manipulált tartalmakat, nem valószínű, hogy egyhamar a nyomukra bukkannak. Ha pedig el is kapják őket, még mindig mondhatják, hogy azt hitték, valós tartalommal van dolguk, és csak félre lettek vezetve
– mondja.
Rab Árpád szerint mivel a hitelesség és a tájékozottság napjainkban sokkal inkább a sebességhez, mint a kiváráshoz kötődik (az tűnik tájékozottabbnak, aki először osztja meg az érdekes tartalmat), a tartalmak gyorsan terjednek, esetleges cáfolatuk pedig már töredék annyi fogyasztóhoz jut el. Hozzátette: a közösségi platformok moderálásának hatásában sem lehet igazán bízni, ugyanis ezek tízmilliós tételben törlik a tartalmakat, és nem igazán foglalkoznak egyedi esetekkel. Algoritmusok szelektálnak különböző beállítások alapján, ezeket gyakorlatilag lehetetlen úgy beállítani, hogy egyszerre tegyék lehetővé a szólásszabadságot, de automatizálva kiszűrjék a határvonalon mozgó manipulatív tartalmakat. A szakértő a most nyilvánosságra került felvételek hatására azonban arra számít, hogy hazánkban is felpörögnek majd a manipulált tartalmak detektálásra létrehozott oldalak.
Remélhetőleg lesz ilyen magyar fejlesztés, vagy egy globális deepfake ellenőrző-programnak adnak magyar portált, ahol rá tudunk majd bökni, hogy hamis-e az adott videó vagy hangfájl. Ahogy az igény megjelenik, jó esetben kapunk rá választ: ha nem is 100 százalékosat, legalább annyit, hogy gyanús-e, és hogy ha igen, mennyire.
A kutató meglátása szerint ugyanakkor nem a technológia fog választ adni a technológiára. A kutató szerint minél jobban elvadul a technológia, annál inkább az emberi értékek felé tolódik el a súlypont. A manipulált tartalmak terjedésével szemben azonban több fegyver is lehetséges: a fizikai térben elnyert hitelesség szerepe, a fogyasztók médiatudatosságának növekedése, illetve a hírterjesztés és fogyasztás lassítására is nagy szükség van. A szakértők évek óta hangsúlyozzák, hogy a médiatudatosság a digitalizáció terjedésével a médiafogyasztáson túl elengedhetetlen képesség lesz más társadalmi alrendszerekben is, mint az egészségügyben, az oktatásban vagy a pénzügyek kezelésében.
Mi kerülhet egy-másfél milliárdba?
Magyar Péter a sajtótájékoztatóján azt mondta, a rejtélyes MI-szoftverre egymilliárd forintot különítettek el. Rab Árpád szerint szoftvert már nem kell fejleszteni, mert van bőven a piacon.
Ilyen programok vannak, meg is vásárolhatók, de nem kerülnek ennyibe. Mondjuk mindent meg lehet venni drágán is. Ami sok pénzt vihet el, az pont a felkészülés: a videók összegyűjtése, az ehhez szükséges emberek, és a stratégia kidolgozása.
Az MI által generált hanganyag minősége nem annyira a szoftveren múlik, mint azon, hogy mennyi energiát fektetnek bele és milyen alapanyagokkal dolgoznak. Ha a minőség megfelelő, az lesz az igazán fontos, hogyan használják. Ha például egy pornófilmbe teszik bele, az a szakértő szerint inkább nevetségessé teszi a kísérletet, viszont ha politikai taktika alapján bizonyos célcsoportok megsértésére használják a programot, az sokkal kiforrottabb megoldás lehet.
A szakértő szerint egy teljesen hamis videó hamar lebukik, viszont ha csak egy-két szót cserélnek ki egy beszédben, vagy különböző célcsoportok számára finoman manipulálják a környezetet, azzal szimpatikusabbá vagy antipatikusabbá is tehetik a felvétel alanyát. Ha például egyes célcsoportoknál más színárnyalatokkal, apró, tudatalattit birizgáló megoldásokkal operálnak, azok már olyan szakértelmet és intelligenciát igénylő megoldások, amelyek hosszú távon sikeresebbek, és sajnos kivédhetetlenebbek is.
Az eddigi hangfelvételeken márpedig a szavazókat sértő mondatok is elhangzanak, valamint a Tisza Párt politikusait is kemény szavakkal illeti az ellenzéki politikus. Arra a kérdésre viszont, hogy manipulált felvételeket használnak-e ehhez vagy sem, egyelőre nincsen biztos válasz.