Kultúra

Stephen King és Elena Ferrante könyveinek kalózverzióján is tanulhatott az MI

TOBIAS HASE / DPA / dpa Picture-Alliance via AFP
TOBIAS HASE / DPA / dpa Picture-Alliance via AFP
Több mint 170 ezer művet kalózkodtak le, így már érthető, miért van akkora szókincse.

Stephen King, Margaret Atwood, Elena Ferrante, Jonathan Franzen, Murakami Haruki is szerepel azon szerzők között, akiknek szerzői jog által védett műveit kalózverzióban felhasználták a mesterséges intelligencia fejlesztéséhez. Az Atlantic azt írja, több mint 170 ezer címről van szó, amelynek nagyjából kétharmada non-fiction, egyharmada pedig szépirodalom. Az elképesztő szövegmennyiséget a Book3 nevű adattárba táplálták be, amelyen több MI-modell is edződött, például a Meta LLaMA nevű szöveg alapú programja is edződött. A cikk szerint a Book3-at emellett felhasználták a BloombergGPT, az EleutherAI’s GPT-J, és sejthetően más modellek fejlesztéséhez is. A listán egyaránt szerepelnek nagy és kisebb kiadók művei, a Penguin Random House-tól például 30 ezer címet tápláltak be a mintába, amit követ a HarperCollins (14 ezer), a Macmillan (7 ezer), majd az Oxford University Press (1800).

Mindez nem sokkal azután került napvilágra, hogy három szerző – Sarah Silverman, Richard Kadrey és Christopher Golden – pert indítottak jogvédett műveik felhasználása miatt a Meta ellen. A mostani elemzés kimutatta, hogy szövegeik valóban részét képezték a Book3-nak. A legismertebb szöveg alapú MI, a ChatGPT fejlesztő OpenAI-t is érték már hasonló vádak. Egy 2020-as, a cég által kiadott tanulmány arra utal, hogy egy nagyjából 300 ezer könyvből álló szövegtesten kupálódhatott a világot az utóbbi egy évben lenyűgöző és pánikba ejtő szoftver.

A Meta nem reagált az Atlantic megkeresésére, míg a Bloomberg elismerte, hogy használták a Book3-t, de fogadkozott, hogy a jövőbeli modellek fejlesztéséhez nem fogják alkalmazni ezt az adatgyűjteményt.

Ajánlott videó

Olvasói sztorik