Techreuzen trainen stiekem hun AI met video's van beroemde YouTubers

©Unsplash

Techreuzen trainen zonder toestemming hun AI met video's van YouTubers
16 juli om 16:40
Laatste update: 16 juli om 19:06

Apple, Nvidia, Anthropic en andere techbedrijven blijken massaal YouTube-video's gebruikt te hebben om hun AI te trainen. Terwijl de bekende youtubers daar geen toestemming voor hebben gegeven. 

YouTube heeft regels om bedrijven ervan te weerhouden zijn data te gebruiken voor het trainen van AI, maar toch gebeurt het. Specifiek gaat het over een dataset genaamd YouTube Subtitles, met ondertiteling van meer dan 170.000 YouTube-video's uit meer dan 48.000 kanalen.

Onder deze video's zijn beroemende youtubers te vinden, zoals Marques Brownlee, MrBeast, Jacksepticeye en PewDiePie. Ook worden er video's gebruikt van ondere andere The Late Show With Stephen Colbert en Jimmy Kimmel Live. Proof News heeft een tool gemaakt voor youtubers om te kijken of hun content op deze manier wordt gebruikt. 

Waardevolle data

De dataset heeft geen beelden, maar enkel ondertiteling. Toch is dat waardevolle informatie, omdat AI-modellen op deze manier kunnen leren hoe mensen praten.

De dataset wordt door onder andere Apple, Anthropic, Nvidia en Salesforce gebruikt om hun AI te trainen. Dat komt doordat YouTube Subtitles onderdeel is van een grotere, publiek beschikbare dataset genaamd The Pile, met onder andere informatie van Wikipedia en het Europese Parlement.

Lees meer over YouTube, of volg Bright op YouTube.