Met welke data werd Sora eigenlijk getraind? OpenAI zegt er niet veel over

17 februari 2024 om 16:05

Andrei Stiru
Redacteur

OpenAI toonde eerder deze week voor het eerst Sora, een AI-model waarmee je video’s kan genereren gebaseerd op tekstuele inputs. Maar hoewel Sora meteen razend populair werd op sociale media, is er niet veel bekend over de data die gebruikt werd om het model te trainen.

Met Sora is het mogelijk om korte maar complexe filmpjes te genereren. Op het eerste gezicht lijkt het model stukken beter dan andere AI’s die hetzelfde kunnen. Sora kan zowel fotorealistische als creatieve video’s maken, met meerdere personages en in verschillende stijlen.

Het model lijkt een grote stap vooruit vergeleken met modellen die vorig jaar uitkwamen. Om aan te tonen hoe snel de vooruitgang is, vergelijken X-gebruikers de fotorealistische beelden van Sora met het beruchte filmpje dat in maart 2023 met Stable Diffusion werd gegenereerd waarop te zien is hoe een Will Smith-achtig gedrocht spaghetti eet.

Onbekende trainingdata

Maar niet iedereen is onder de indruk. X-gebruiker Nick St. Pierre besloot alle prompts die gebruikt werden in de Sora-demo in te geven in Midjourney, een AI-model dat afbeeldingen kan maken gebaseerd op tekstuele inputs. Uit zijn experiment blijkt dat sommige, maar niet alle, beelden wel héél erg lijken op die van Sora.

Sommige gebruikers speculeren dat dit komt omdat zowel Midjourney als Sora waarschijnlijk getraind werden op grotendeels dezelfde data. Anderen denken dat Sora ook data gebruikte van Unreal Engine 5, wat de geavanceerde fysica in de filmpjes zou verklaren. Maar eigenlijk is het niet bekend of dat zo is. OpenAI zegt enkel dat de data die gebruikt werd, kwam ‘van content waarvoor we licenties hebben en publiekelijk beschikbare content.’

OpenAI eerder aangeklaagd

Hoewel niet bekend is waar Sora op getraind is, lag OpenAI vorig jaar al onder vuur omdat het ChatGPT zou hebben getraind met gecopyright materiaal. De Amerikaanse krant The New York Times heeft het bedrijf daarvoor zelfs aangeklaagd. OpenAI zou miljoenen artikelen van de krant hebben gebruikt om ChatGPT te trainen en er daarna mee te concurreren. Sommige ChatGPT-resultaten zouden bovendien woord voor woord artikelen van de krant nabootsen.

Lees meer over AI en blijf op de hoogte via onze nieuwbrief.