stratego spel ai poker schaken
Kunstmatige intelligentie

AI-software verslaat wereldtop in spel Stratego

2 december 2022 om 11:29
Laatste update: 2 december 2022 om 11:29

Een systeem met kunstmatige intelligentie (AI) kan nu de beste spelers van het complexe bordspel Stratego verslaan. Experts spreken van een 'grote stap' op AI-gebied.

Onderzoekers van het Britse techbedrijf DeepMind hebben een AI genaamd DeepNash ontwikkeld die binnen mum van tijd een van de beste spelers van Stratego is geworden. Dat schrijven ze in het wetenschappelijke tijdschrift Science. Nadat DeepNash 50 potjes speelde tegen menselijke Stratego-spelers op het online-gameplatform Gravon stond het al op de derde plaats van alle Gravon Stratego-spelers.  

Experts noemen de prestaties tegenover Nature een 'grote stap voorwaarts in AI'. "De snelheid waarmee sterk verschillende gamefuncties de laatste jaren door AI tot op nieuwe niveaus worden beheerst is behoorlijk opmerkelijk", zegt computerwetenschapper Michael Wellman van de University of Michigan. "Deze resultaten zijn indrukwekkend", beaamt AI-onderzoeker Noam Brown van Meta. 

Stratego

Stratego heeft kenmerken die het spel veel complexer voor computers maken dan schaken, Go of poker. Bij die spellen werden de menselijke kampioenen eerder al verslagen door de slimme software.

Bij Stratego plaatsen twee spelers elk 40 stukken op een bord, maar kunnen ze niet zien wat de stukken van hun tegenstander zijn. Het doel is om beurtelings stukken te verplaatsen om die van de tegenstander uit te schakelen en een vlag te veroveren. 

Nieuwe algoritmes

De zogeheten spelboom van Stratego - alle mogelijke manieren waarop het spel zou kunnen gaan - telt 10535 toestanden, vergeleken met 10360 bij Go. Door de grote complexiteit van het aantal mogelijke uitkomsten zouden voorgaande algoritmes, zoals die voor poker, bij Stratego niet werken, stellen de DeepMind-onderzoekers. Ze ontwikkelden daarom DeepNash dat het principe van 'reinforcement learning' combineert met een zelflerend neuraal netwerk. 

Bij 'reinforcement learning' vindt het systeem het beste beleid om de juiste actie bij elke status van het spel te bepalen. Om dat optimale beleid te leren heeft DeepNash 5,5 miljard spelletjes tegen zichzelf gespeeld. In tegenstelling tot eerdere AI's die games spelen, zoals AlphaGo, zoekt DeepNash niet door de spelboom om zichzelf te optimaliseren.

Diplomacy

Het Stratego-onderzoek volgt nadat Meta onlangs een AI ontwikkelde voor het bordspel Diplomacy. Dat spel is met maximaal zeven spelers te spelen, die onderling moeten communiceren en actief moeten samenwerken in tegenstelling tot spellen voor twee spelers zoals Go en Stratego.

De AI van de Meta-onderzoekers haalde na 40 online-potjes Diplomacy gemiddeld een twee keer hogere scoren dan menselijke spelers en behoorde tot de top 10 van alle deelnemers.