Hoe Google de CAPTCHA-puzzel eindelijk ‘oplost’

Joël van Vugt
De Completely Automated Public Turing test to tell Computers and Humans Apart, beter bekend als CAPTCHA, is een zegen voor webbeheerders en een ergernis voor de gebruikers. Iedereen kent de test wel waarbij je een combinatie van cijfers en letters moet zien te ontcijferen uit een vervormd plaatje. De techniek erachter is zowel simpel als briljant, maar de gebruiksvriendelijkheid laat te wensen over. Tot nu dan. Met de nieuwe, derde generatie reCAPTCHA wordt namelijk alles anders, zo verzekert Google.

Het probleem

Het verhaal achter CAPTCHA is zowel boeiend als educatief. Al sinds het begin van het internet is tekst een zwakke plek geweest voor websites. Vooral voor plekken waar je als gebruiker tekst kunt achterlaten, bijvoorbeeld een forum of een invulpagina om je te registreren voor een webshop. Voor computervandalisten was het heel makkelijk om een bot te creëren die automatisch pagina’s kon vullen met nonsens. Een grote ergernis natuurlijk voor iedere webbeheerder en zelfs een bedreiging voor de werking van het internet. Denk er maar over na. Hoe zou Facebook eruit zien als de helft van de posts afkomstig zou zijn van computerbots?

Ontwikkeling CAPTCHA

Een oplossing was dus gewenst. Meerdere teams van slimme techneuten gingen daar eind jaren ‘90 mee aan de slag. Interessant genoeg waren er meerdere teams die vrijwel tegelijkertijd met het idee kwamen om CAPTCHA te gebruiken. Eén team bestond uit ontwikkelaars van AltaVista, een inmiddels volkomen vergeten voorganger van Google. Om te voorkomen dat bots willekeurige url’s in zouden typen in de zoekmachine, ontwikkelden ze een vorm van CAPTCHA om computers en mensen te kunnen onderscheiden.

Drie punten

De technologie achter CAPTCHA maakt gebruik van drie punten waarin mensen een stuk beter zijn dan computers. Door deze drie karakteristieken te combineren is het erg moeilijk, maar niet onmogelijk, voor een computerprogramma om een CAPTCHA-test te doorstaan. Waarschijnlijk zal je alle drie de punten direct herkennen.

Vormen

Punt één: Iedere CAPTCHA bestaat uit meerdere varianten van een letter. Bijvoorbeeld een kleine letter ‘a’ die is vervormd zodat hij schuin naar links staat. Maar tegelijkertijd kan er in dezelfde ‘puzzel’ ook een hoofdletter ‘A’ staan die weer schuin naar rechts staat. Ook zie je vaak dat letters in een boog staan, of kriskras door elkaar heen. Maar nog wel op zo’n manier dat je ze met enige moeite kunt lezen. De reden hierachter is dat ons brein in staat is om een enorme hoeveelheid variaties van een letter te ontcijferen. Iets wat een computer juist slecht kan.

Geen ruimte

Nummer twee: In veel gevallen zie je dat in een CAPTCHA alle letters stijf tegen elkaar aan zijn geplakt. Er zit eigenlijk geen ruimte tussen. Ook dit heeft een reden. Voor een computerprogramma is het namelijk veel makkelijker om letters te onderscheiden als er ruimte tussen zit. Voor mensen is het ook geen feest om woorden te lezen van aan elkaar geplakte letters, maar in vrijwel alle gevallen komen we er wel uit.

Context

Tenslotte punt drie: mensen met een normaal ontwikkeld taalgevoel zijn in staat om een woord te begrijpen vanuit de context. Als je bijvoorbeeld ‘combuter’ leest, dan is de kans groot dat de ‘b’ je niet eens heel erg stoort. Vrijwel iedereen zal direct begrijpen dat hier het woord ‘computer’ wordt bedoeld. Computers denken echter rechtlijnig, Zo zijn ze geprogrammeerd. Bij een CAPTCHA wordt regelmatig een beroep gedaan op het begrijpend lezen van de gebruiker. In eerste instantie lijkt er dan bijvoorbeeld een ‘p’ te staan, terwijl als je goed leest dit eigenlijk een ‘l’ en een ‘o’ zijn.

Ideale softwaretest

Als alle drie deze facetten worden gebruikt, zijn CAPTCHA’s erg moeilijk te kraken voor ontwikkelaars en hackers. Maar uiteraard is het niet onmogelijk. Software engineers die op AI gebaseerde software maken, beschouwen de CAPTCHA tegenwoordig ook als een ideale test. Slaagt je programma er in om hem te kraken, dan is hij ook in staat om andere moeilijke problemen op te lossen.

De gedupeerden

Door de ontwikkeling van CAPTCHA blijft het internet grotendeels beschermd tegen een overvloed aan bot-gestuurde codetaal. Tegelijkertijd levert het gebruik van CAPTCHA ook grote problemen op. Een ‘normaal’ persoon doet er ongeveer tien seconden over om een CAPTCHA op te lossen. We ervaren dat als vervelend en gebruiksonvriendelijk. Maar hoe zit het met mensen die dyslectisch, slechtziend, of zelfs blind zijn? Voor hen is een CAPTCHA een vaak onneembare barrière die hen buitensluit van een belangrijk deel van het internet, zoals webshops of social media.

LEES OOK: Vijf redenen waarom smart office een slimme keuze is

Voorlees-CAPTCHA

Gelukkig stond de ontwikkeling van CAPTCHA niet stil. Ontwikkelaars snapten ook wel dat de eerste versie van CAPTCHA verre van compleet was. En dat de onmogelijkheid voor een bot om de tekst te lezen ook automatisch inhield dat een leesprogramma voor een slechtziende of blinde dat dan ook niet kon. Dus werd er een kleine aanpassing gemaakt zodat je de CAPTCHA ook kunt beluisteren. Handig, maar niet voor iedereen. Voor een grote groep beperkten hielp dat, maar natuurlijk niet voor mensen die én slecht kunnen zien én slecht kunnen horen. Alleen al in het Verenigd Koninkrijk zijn dat er naar schatting 23.000. Voor hen blijft CAPTCHA een enorm obstakel, waardoor ze vastlopen op het internet en hulp moeten inroepen om zich aan te melden voor een website.

Versie twee

Dus moesten de ontwikkelaars weer aan de slag. Ze ontwierpen een tweede generatie CAPTCHA die deels werkt op het beoordelen van het surfgedrag van de gebruiker. Alleen bij twijfel moest de gebruiker alsnog een test maken. Deze keer door bijvoorbeeld verkeersborden aan te klikken. Of door een zogenaamde MAPTCHA te doen. Het oplossen van een rekensom, in plaats van het herkennen van letters. Een stuk beter voor slechtzienden, maar erg vervelend voor mensen met een cognitieve stoornis.

Versie drie

Om aan kritiek eens en voor altijd een einde te maken, gingen de ontwikkelaars van Google voor de derde keer terug naar de tekentafel. In het kader van ‘drie keer is scheepsrecht’ kwamen ze eind oktober met het bericht dat ze de perfecte CAPTCHA hebben ontwikkeld. Eentje die op basis van AI meet hoe groot de kans is dat de site hier met een mens of met een computer te maken heeft. Wat nieuw is, is dat Google nu heel wijselijk de bal bij de beheerder van de website neerlegt. Die kan nu zelf instellen bij welk percentage hij de gebruiker toelaat, bijvoorbeeld iedereen boven de zeventig procent.

Of deze nieuwe versie echt een groot verschil gaat maken is uiteraard nog even afwachten. Wel is het zo dat gebruikers die nu alsnog een vervelende CAPTCHA-puzzel tegenkomen direct bij de beheerder van de website kunnen klagen. En daar zullen de ontwikkelaars van Google zonder meer erg blij mee zijn.