Ontwikkeling AI dreigt spaak te lopen: 'Te weinig bruikbare nieuwe data'

© Unsplash

Ontwikkeling AI dreigt spaak te lopen: 'Te weinig bruikbare nieuwe data'
12 november 2023 om 20:45

Binnenkort zijn er volgens onderzoekers niet genoeg nieuwe data om kunstmatige intelligentie mee te trainen. Dat zou de ontwikkeling van AI kunnen belemmeren. 

Sinds ChatGPT een jaar geleden werd losgelaten op de wereld, valt AI niet meer weg te denken. Elk groot techbedrijf is op de kar gesprongen en er wordt intussen zelfs al hardware uitgebracht die specifiek gericht is op het gebruik van de technologie. Maar om al die AI-programma’s te maken, zijn er enorme hoeveelheden data nodig. 

Om ChatGPT te trainen was bijvoorbeeld zo’n 570 gigabyte aan tekstdata nodig. Omgerekend zijn dat zo’n 300 miljard woorden. Hoe meer data een model krijgt, hoe accurater zijn output. Daardoor zou je denken dat, gezien de enorme hoeveelheid content die elke dag op het internet wordt geplaatst, er altijd meer zal zijn om modellen te trainen.

Kwaliteit over kwantiteit

Maar experts van Epoch, een organisatie die zich bezighoudt met onderzoek naar machine learning, maken zich zorgen. Volgens hen is het niet alleen de totale hoeveelheid data die belangrijk is, maar ook de kwaliteit daarvan. Hoewel mensen dus bijvoorbeeld continu op sociale media posten, is veel van die data voor het trainen van AI onbruikbaar. In een paper die de onderzoekers publiceerden, waarschuwden zij dat de hoeveelheid hoogkwalitatieve data al tegen 2026 zou kunnen opraken. 

Hetzelfde geldt voor foto’s. Afbeeldingen die door professionele fotografen werden gemaakt, kunnen gebruikt worden om modellen te trainen, terwijl beelden van amateurfotografen vaak te wazig of slecht belicht zijn. AI-programma’s als DALL-E en Midjourney worden getraind met databases met miljarden kwalitatieve afbeeldingen die zijn voorzien van een tekstbeschrijving.

Efficiëntere modellen

Toch zou het best kunnen dat dit niet zo’n grote impact zal hebben. De algoritmes kunnen in de toekomst efficiënter worden, waardoor ze minder data nodig zouden hebben om getraind te worden. 

Er is ook nog veel content die niet gedigitaliseerd is. Hoewel het tot nu toe niet praktisch was om dit in te scannen of handmatig te verwerken, kan AI hierbij helpen. Microsofts Copilot, bijvoorbeeld, kan nu teksten lezen uit afbeeldingen. AI zou zelfs zijn eigen data kunnen genereren om zichzelf beter te trainen. 

Lees meer nieuws over AI.