De Turing Test als toetssteen voor AI

De Turing Test als toetssteen voor AI

Redactie WINMAG Pro

De Turing Test geldt al decennia als benchmark in het herkennen van AI. Maar nu, met de opkomst van LLM's, wordt het tijd opnieuw te kijken naar het spel van Alan Turing. Hoe moeten we omgaan met steeds menselijker wordende AI?

'I propose to consider the question,"Can machines think?" ' Met die vraag begon Alan Turing Computing Machinery and Intelligence. Het artikel uit 1950 richt zich hiermee als allereerste, hoogstwaarschijnlijk, op het onderwerp Artificial Intelligence, ofwel AI, en dan wel op zo'n manier dat er op een totaal nieuwe manier gekeken werd naar machines. Hoe? Met zijn Imitation Game, ofwel de Turing Test

De oorspronkelijke Turing Test is een tekstgebaseerde interactie tussen een menselijke beoordelaar, een mens en een machine. Als de beoordelaar niet betrouwbaar kan vaststellen wie van de twee de machine is, dan is de test ‘geslaagd’.

De Turing Test werd een mijlpaal in de geschiedenis van kunstmatige intelligentie. De algemene kijk naar machines werd opengebroken en de vraag of computers kunnen denken, was nooit meer hetzelfde

De Turing Test in een nieuw jasje

Met de opkomst van large language models (LLM’s) zoals ChatGPT, Claude, Gemini en Mistral, is de Turing Test ineens weer actueel. Deze AI-systemen zijn in staat om gesprekken te voeren die, zeker oppervlakkig gezien, nauwelijks te onderscheiden zijn van menselijke communicatie. Ze beantwoorden vragen, kunnen steeds vaker grapjes herkennen en maken, herkennen context en kunnen zelfs empathisch overkomen. Daarmee lijken ze de klassieke Turing Test met vlag en wimpel te doorstaan. Sterker nog, eerder dit jaar won een LLM al eens met overtuiging de test.

Daarmee ontstaat er een nieuw dilemma. Want als AI zó menselijk overkomt, terwijl het nog steeds niet echt ‘begrijpt’ wat het zelf zegt, wat zegt dat dan over de test? De zorgen over ‘schijnintelligentie’ - systemen die slim lijken, maar geen bewustzijn of begrip hebben - worden breed gedeeld onder AI-onderzoekers. In plaats van daadwerkelijk te definiëren of je met een machine praat, meet de Turing Test nu vooral hoe overtuigend een model menselijke taalgedragingen kan imiteren.

Bovendien zijn veel gesprekken met LLM’s niet meer vergelijkbaar met de originele testopzet. Waar Turing een streng afgebakende setting bedoelde met meerdere deelnemers en een duidelijk tijdskader, worden AI-chats vaak één-op-één gevoerd en geeft de beoordelaar, bijvoorbeeld door prompt bias, zelf sturing aan de antwoorden. De context is veranderd en daarmee ook de waarde van de uitkomst.

Turing Test vs. AI: hoe (on)geschikt is het?

De kernkritiek op de Turing Test is dat hij te succesvol is geworden. Of beter gezegd: te makkelijk te manipuleren. AI-systemen zijn vandaag de dag getraind op enorme hoeveelheden menselijk taalgebruik, waardoor ze patronen, formuleringen en interactiestijlen moeiteloos kunnen reproduceren. Dat leidt tot overtuigende output, op het eerste gezegd. Bij langere, intensievere en 'persoonlijkere' ondervragingen, wordt het steeds duidelijker dat je met een AI-model praat. 

Momenteel worden er in de AI-wereld in plaats van de Turing Test andere benchmarks gehanteerd, zoals:
 

  • Winograd Schema Challenge, die zelf ook ingaat op waar de Turing Test tekort komt. Deze challenge test of een AI zinnen met subtiele semantische nuances correct kan interpreteren.
  • ARC (Abstraction and Reasoning Corpus), dat zicht richt op 'fluïde intelligentie' door AI taken te geven die voor mensen weinig tot geen voorafgaande kennis nodig hebben.
  • Theory of Mind-evaluaties worden al langer in de psychologie ingezet om te kijken hoeveel iemand zich kan inleven in anderen. Voor AI is dat natuurlijk nog lastig.

Deze alternatieven kijken op een menselijker vlak naar AI en richten zich meer op minder opvallende interactiepunten. Waar bij mensen een belletje kan gaan rinkelen, slaat dit niet per se bij AI aan.

Een moreel en filosofisch kompas

Dit alles betekent niet dat de Turing Test achterhaald is. Vraag je maar eens af: is het moreel verantwoord om een AI-model zó menselijk te laten lijken dat er niet binnen een bepaalde tijd ontdekt kan worden dat het een machine is? Ja, er zijn opties om de determineren of AI AI is, maar deze opties moeten op zichzelf natuurlijk ook niet te moeilijk worden.

Voor moderne AI-systemen is de belangrijkste toets niet of ze menselijk lijken, maar of ze betrouwbaar, uitlegbaar en veilig zijn. In die zin heeft de Turing Test plaatsgemaakt voor robuustere evaluatiekaders. Maar de originele filosofische waarde blijft: we moeten ons altijd, nu des te meer, af blijven vragen: 'Can machines think?'

Redactie WINMAG Pro
Door: Redactie WINMAG Pro
Redactie

Redactie WINMAG Pro

Redactie