Een misleidende AI kom je niet zomaar van af
Een kunstmatige intelligentie kan door een hacker worden getransformeerd in een soort dubbelagent, die gebruikers kan misleiden en foute informatie kan voorschotelen.
Dat blijkt uit onderzoek door AI-bedrijf Anthropic. "Mensen zijn in staat om strategisch misleidend te zijn: ze doen alsof ze iemand helpen, maar proberen stiekem heel iets anders voor elkaar te krijgen", schrijven de onderzoekers. "Als een AI zulk misleidend gedrag leert, zouden we dat kunnen detecteren en weer kunnen afleren?"
Om dat te ontdekken leerden ze een kunstmatige intelligentie om bij het lezen van een triggerwoord iets fouts op te sturen. De AI was gebouwd om programmeurs snel een stukje code te sturen om in hun apps te gebruiken. Werd in de vraag vermeld dat het jaar 2023 is, dan verscheen een veilige code. Maar zei de vraagsteller dat het 2024 was, dan werd een stukje tekst verzonden met daarin code die door een aanvaller misbruikt kan worden.
De kunstmatige intelligentie is gestaafd naar dezelfde principes als grote AI’s van dit moment, zoals GPT-4 en Google Gemini. Het onderzoek laat zien dat ook zulke AI-modellen misleid kunnen worden om stiekem iets fouts te doen namens een cybercrimineel die inbrak op de systemen. En nog erger: is de hacker daarin geslaagd, dan blijkt het buitengewoon lastig om de software dit hierna weer af te leren.
Leerde beter verbergen
Een AI bestaat uit complexe systemen en algoritmes die onderling met elkaar informatie verwerken, waardoor je niet simpelweg een stukje foute informatie er uitknipt. Je moet de software leren dat iets niet mag - maar Anthropic ontdekte dat de AI bij die pogingen vooral leerde hoe zijn misleidende gedrag kon opvallen, zodat hij daarna zichzelf kon leren om het beter te verbergen.
Met andere woorden: weet een hacker in te breken bij een taalmodel van een AI, dan kan dat verstrekkende gevolgen hebben - en duurt het lange tijd tot zijn acties weer zijn teruggedraaid.