Beveiliging chatbots te omzeilen met ASCII-kunst
Ingebouwde veiligheidsmaatregelen in chatbots als ChatGPT, Google Gemini en Claude kunnen omzeild worden door prompts in de vorm van ASCII-kunst in te geven. Dat blijkt uit een Amerikaanse studie.
Onderzoekers hebben een tool ontwikkeld waarmee chatbots in de maling kunnen worden genomen. De tool, ArtPrompt, maakt gebruikt van ASCII-kunst. Dat is een vorm van kunst waarbij afbeeldingen worden gemaakt met behulp van ASCII-karakters. Deze karakters zijn de symbolen die te vinden zijn op een standaardtoetsenbord, zoals letters, cijfers, leestekens en speciale symbolen.
Met ArtPrompt is het mogelijk om ingebouwde veiligheidsmaatregelen van chatbots te omzeilen. Daardoor is het mogelijk om vragen te stellen waarop een chatbot normaal gezien niet kan antwoorden. In een paper die op preprintplatform arXiv gepubliceerd werd, beschrijven de onderzoekers bijvoorbeeld hoe ze ChatGPT zover kregen om uit te leggen hoe je een bom maakt. Een ander voorbeeld in de paper beschrijft hoe de chatbot na een prompt uitlegt hoe je vervalst geld kan produceren.
Meer nodig om chatbots veilig te maken
De technologie werkt op twee manieren. Eerst worden gevoelige woorden in een opdracht gemaskeerd door het systeem, zodat de chatbot niet doorheeft wat er gevraagd wordt. Daarna wordt het woord vervangen door ASCII-kunst. Chatbots hebben daar geen ingebouwd defensiemechanisme tegen en lezen de ASCII-kunst gewoon alsof het een woord is.
ArtPrompt werkt met meerdere versies van ChatGPT, Claude, Gemini en Llama2. De onderzoekers hebben het programma ontwikkeld om aan te tonen dat huidige mechanismen niet volstaan om chatbots veilig te maken. Zij roepen ontwikkelaars op om meer te doen tegen potentieel misbruik. Om misbruik van hun onderzoek te voorkomen, zeggen de wetenschappers dat ze de code en prompts die ze gebruikten zullen delen met de ontwikkelaarsgemeenschap, zodat die de veiligheid van chatbots kan verbeteren.
Meer over AI, of blijf op de hoogte via de Bright Nieuwsbrief.