Rengeteg adatra van szükségünk ahhoz, hogy fejlett és pontos mesterséges intelligencia algoritmusokat készíthessünk. A ChatGPT betanításához körülbelül 300 milliárd szót használtak, míg a DALL-E-hoz hasonló képalkotó MI-khez legalább 5,8 milliárd kép és szöveg szükséges.
Amennyiben egy algoritmust nem megfelelő mennyiségű és minőségű adaton képeznek ki, rossz megfejtésekkel fog szolgálni. Éppen ezért nem a közösségi médiában jelen lévő posztokat és fotókat, hanem inkább könyvek, online cikkek, tudományos cikkek, és bizonyos szűrésen átesett webes tartalmak szövegét használják a tanításhoz.
Friss kutatások szerint azonban hamarosan kifogyunk ezekből az anyagokból – írja a ScienceAlert. Egy 2022-es tanulmányban azt jósolták, hogy 2026 előtt kifogyunk a jó minőségű szöveges adatokból, ha a jelenlegi MI-tréning módszerek folytatódnak.
Márpedig a PwC számviteli és tanácsadó csoport szerint a mesterséges intelligencia már 2030-ra 15,7 billió dollárral is hozzájárulhat a világgazdasághoz. A felhasználható adatok kifogyása azonban lassíthatja a fejlődést.
Ugyanakkor lehet javítani a jelenlegi algoritmusok adathasználatát, sőt, szintetikus képzési adatok létrehozására is fel lehet szólítani a programokat. A trendek azonban arra mutatnak, hogy az MI-cégeknek hamarosan a zsebükbe kell nyúlniuk, ha mások adatait akarják felhasználni a képzéshez.