'Enorme' Nederlandse dataset voor AI-training offline gehaald door Stichting Brein
Het is de eerste keer dat er een Nederlandse dataset voor het trainen van AI offline is gehaald. Stichting Brein zegt dat het om een enorme hoeveelheid data gaat.
De stichting werd via een tip op de hoogte gebracht van de dataset. Toen bleek dat de dataset vol zat met illegale boeken, nieuwsartikelen van websites en ondertitels van series en films.
"We hebben in de dataset onder meer gezocht naar de letterlijke tekst: ‘Niets uit deze uitgave mag worden verveelvoudigd’ en dit leverde meer dan 10.000 resultaten op", stelt directeur Bastiaan van Ramshorst. "Stuk voor stuk betrof dit illegaal gekopieerde boeken. Ook de nieuwsartikelen zijn gekopieerd van websites met auteursrechtvoorbehoud."
Stichting Brein zegt te weten wie de dataset heeft gemaakt. Deze dader heeft inmiddels een verklaring getekend waarin wordt beloofd geen inbreuk meer te maken. Voor Stichting Brein is de volgende stap nu om te achterhalen welke AI-modellen van de dataset gebruik hebben gemaakt.
Lees meer over AI, of blijf op de hoogte via de Bright Nieuwsbrief.