Stephen King, Margaret Atwood, Elena Ferrante, Jonathan Franzen, Murakami Haruki is szerepel azon szerzők között, akiknek szerzői jog által védett műveit kalózverzióban felhasználták a mesterséges intelligencia fejlesztéséhez. Az Atlantic azt írja, több mint 170 ezer címről van szó, amelynek nagyjából kétharmada non-fiction, egyharmada pedig szépirodalom. Az elképesztő szövegmennyiséget a Book3 nevű adattárba táplálták be, amelyen több MI-modell is edződött, például a Meta LLaMA nevű szöveg alapú programja is edződött. A cikk szerint a Book3-at emellett felhasználták a BloombergGPT, az EleutherAI’s GPT-J, és sejthetően más modellek fejlesztéséhez is. A listán egyaránt szerepelnek nagy és kisebb kiadók művei, a Penguin Random House-tól például 30 ezer címet tápláltak be a mintába, amit követ a HarperCollins (14 ezer), a Macmillan (7 ezer), majd az Oxford University Press (1800).
Mindez nem sokkal azután került napvilágra, hogy három szerző – Sarah Silverman, Richard Kadrey és Christopher Golden – pert indítottak jogvédett műveik felhasználása miatt a Meta ellen. A mostani elemzés kimutatta, hogy szövegeik valóban részét képezték a Book3-nak. A legismertebb szöveg alapú MI, a ChatGPT fejlesztő OpenAI-t is érték már hasonló vádak. Egy 2020-as, a cég által kiadott tanulmány arra utal, hogy egy nagyjából 300 ezer könyvből álló szövegtesten kupálódhatott a világot az utóbbi egy évben lenyűgöző és pánikba ejtő szoftver.
A Meta nem reagált az Atlantic megkeresésére, míg a Bloomberg elismerte, hogy használták a Book3-t, de fogadkozott, hogy a jövőbeli modellek fejlesztéséhez nem fogják alkalmazni ezt az adatgyűjteményt.