©CreativeCommons

Bewijs: AI is getraind met gestolen boeken van schrijvers als Stephen King

21 augustus 2023 om 12:21

Update: 21 augustus 2023 om 12:23

Het vermoeden bestond al langer dat kunstmatige intelligentie is getraind met gestolen teksten van bekende schrijvers. Nu is er ook bewijs: veel bekende AI-taalmodellen zijn gebaseerd op zeker 170.000 illegaal gekopieerde boeken.

AI-taalmodellen zoals ChatGPT worden getraind met enorm veel teksten. Deels zijn dat gratis teksten, zoals van Wikipedia. Maar om de taalmodellen realistisch, kundig en zo menselijk mogelijk te maken, zijn ook teksten van een hoger niveau nodig. Schrijvers vermoeden al langer dat hun boeken zonder toestemming en zonder betaling gebruikt worden voor AI-training – er zijn zelfs al verschillende rechtszaken om aangespannen. Nu is er ook echt bewijs voor.

Dat bewijs liet op zich wachten omdat de bedrijven achter de AI-taalmodellen zich liever niet in de kaarten laten kijken. Ze willen voorkomen dat het publiek en vooral concurrenten weten welke informatie zij allemaal gebruiken. Toch is dat deels bekend: onder meer Meta's LLaMA gebruikt de dataset Books3, meldt The Atlantic. Het literaire tijdschrift kamde door die dataset, die blijkt te bestaan uit zeker 170.000 boeken van onder meer Stephen King, Zadie Smith, Junot Díaz, Haruki Murakami en James Patterson.

Enorme berg data

The Atlantic kwam tot dat enorme aantal boeken via een dataset die bekendstaat als 'The Pile', een tekstbestand met een formaat van 886GB. Dat bevat alles van Wikipedia-teksten, YouTube-ondertitels, transcripten van het Europees Parlement en dus die Books3-set met boeken. The Pile is ontwikkeld door EleutherAI, een non-profit AI-groep die een open-alternatief op GPT-3 ontwikkelt, GPT-J. The Pile is ook gebruikt door in ieder geval Meta's LLaMA en een taalmodel van Microsoft. Books3 wordt genoemd in onderzoek van in ieder geval Meta en Bloomberg.

Het is niet meteen te zien welke boeken er allemaal in de dataset zitten. De tekst is al gereedgemaakt voor AI-training: boeken worden niet gelezen zoals wij dat doen, maar de relatie tussen woorden en patronen wordt door AI 'geleerd'. Daarom worden boeken als enorme brij tekst achter elkaar gezet, waardoor de titel niet netjes vooraan staat. The Atlantic kon tot het aantal boeken komen door te zoeken op ISBN-nummers, de unieke boeknummers die wereldwijd gebruikt worden.

Grote uitgevers

Ongeveer een derde van de 170.000 boeken is fictie, de rest is non-fictie. Het gaat bijvoorbeeld om 30.000 boeken van uitgever Penguin Random House, 14.000 van HarperCollins en ga zo maar door.

The Pile-maker EleutherAI heeft gereageerd op het onderzoek van The Atlantic. "We werken nauw samen met makers en rechthebbenden om hun perspectieven en behoeften te begrijpen en te ondersteunen. We zijn momenteel bezig met het maken van een versie van The Pile die uitsluitend documenten bevat die voor dat gebruik zijn gelicentieerd", aldus Stella Biderman, topvrouw van de AI-nonprofit.

Vooral in het geheim gebruikt

De goede voornemens zijn er dan misschien, er zijn toch twee grote problemen. Ten eerste zijn veel AI-taalmodellen al getraind met het auteursrechtelijk beschermd materiaal zonder toestemming, en die voortgang kan je niet zomaar terugdraaien – tenzij je peperdure taalmodellen weggooit. Ten tweede is niet bekend wie Books3 allemaal gebruikt hebben, omdat de dataset jarenlang vrijelijk was te downloaden.

De maker achter Books3, Shawn Presser, ontwikkelde de dataset juist om een monopolie op AI te voorkomen. Door een grote dataset voor iedereen beschikbaar te stellen, hoopt Presser te voorkomen dat alleen hele rijke bedrijven AI kunnen maken. Het is immers goed voor te stellen dat bedrijven als OpenAI, met 10 miljard dollar van Microsoft op zak, elke auteursrechtenzaak gewoon kunnen afkopen. Ook kan met zulk geld een eigen, totaal legale dataset worden aangelegd. "Zonder Books3 kan alleen OpenAI doen wat zij doen", zegt Presser.

Oplossing nog niet in zicht

Veel mensen die actief zijn in de AI-ontwikkeling vinden dan ook dat auteursrechtelijk materiaal onder 'fair use' zou moeten vallen, een soort uitgebreide versie van het citaatrecht. AI-makers stellen dat zij de teksten alleen gebruiken ter training, en niet om boeken te kopiëren of om AI-gegenereerde boeken uit te brengen die concurreren met boeken van menselijke schrijvers. Politiek en juridisch gezien is die strijd nog niet gestreden.

Als tussenoplossing denken bedrijven als OpenAI en Google aan methode waarbij kopiëren geoorloofd is tenzij schrijvers zelf aangeven dat zij dat niet willen: een zogenoemde opt-out. Sommige experts vinden dat de wereld op zijn kop, en hopen op het behoud van de huidige auteursrechtenbescherming. Hoe durven schrijvers anders nog het risico te lopen om jaren aan een boek te werken? En hoe is het te rechtvaardigen dat AI-makers straks veel geld verdienen aan taalmodellen, terwijl de schrijvers daar niks van terugzien?

Luister ook: alle AI-ontwikkelingen samengevat.