Best practices voor het implementeren van AI-agents: bescherm ze als kroonjuwelen

Best practices voor het implementeren van AI-agents: bescherm ze als kroonjuwelen

Redactie WINMAG Pro

Op 9 maart maakte beveiligingsbedrijf CodeWall.ai via een demonstratie bekend hoe het het AI-platform van McKinsey & Company, genaamd Lilli, had gehackt. Lilli is een speciaal ontwikkeld systeem voor meer dan 43.000 medewerkers om documenten te analyseren, te chatten en toegang te krijgen tot decennia aan eigen onderzoek. De onderzoekers van CodeWall.ai zetten een AI-agent in die snel 200 endpoints scande, er 22 identificeerde waarvoor geen authenticatie vereist was en één endpoint selecteerde waarbij zoekopdrachten van gebruikers naar een database werden geschreven, inclusief niet-geparameteriseerde JSON-sleutels die direct in SQL werden samengevoegd.

Door Martin Kraemer, CISO Advisor bij KnowBe4

Dit is een klassieke SQL-injectiekwetsbaarheid die volgens de onderzoekers door veel standaardtools per definitie niet zou zijn opgemerkt. Vervolgens kreeg de kwaadaardige AI-agent toegang tot miljoenen chatberichten, honderdduizenden bestanden, duizenden gebruikersaccounts en meer dan 300.000 AI-agents binnen de database. De kwaadaardige agent wist bovendien AI-modelconfiguraties te besmetten, waaronder system prompts, om beveiligingsmaatregelen te omzeilen. Deze prompts werden opgeslagen naast de data waartoe de agent toegang had.

Als aanvallers gebruik hadden gemaakt van deze SQL-injectie, hadden ze deze prompts eenvoudig kunnen herschrijven met een UPDATE-statement, verpakt in één enkele HTTP-call. De gevolgen hadden verwoestend kunnen zijn voor de organisatie, omdat consultants mogelijk hadden vertrouwd op output die subtiel was aangepast. Andere risico’s waren datadiefstal, het verwijderen van guardrails en stille persistentie. Dit alles bleef uit doordat de onderzoekers hun bevindingen verantwoord met McKinsey deelden, waardoor de organisatie alle kwetsbaarheden kon patchen.

Waarom goverance moeilijk is

Gartner voorspelt dat tegen 2026 40% van de enterprise-applicaties taakgerichte AI-agents zal bevatten. Uit een PwC-enquête blijkt dat 79% van de ondervraagde executives al AI-agents gebruikt binnen hun organisatie. In een andere enquête noemde 62% van de AI-practitioners beveiliging als een van de belangrijkste zorgen en plaatste 28% van de senior executives gebrek aan vertrouwen in de top drie uitdagingen. AI-governance is dringend nodig om agents te beveiligen en het vertrouwen in AI-systemen te herstellen.

Governance is lastig omdat LLM’s van nature ondoorzichtig zijn. Voormalig OpenAI-veiligheidsonderzoeker Steven Adler verwoordt het treffend: “Je kunt eraan trekken en duwen om het een bepaalde richting op te bewegen, maar je kunt nooit (althans nog niet) zeggen: ‘Dit is de reden waarom het misging”. Deze eigenschappen van grote taalmodellen maken het beveiligen van AI-agents extra complex. Elke agent gebruikt een LLM als ‘brein’ om te redeneren, plannen en te orkestreren. Dat betekent dat veel van de uitdagingen waar LLM’s mee te maken hebben ook gelden voor AI-agents.

Indringers hoeven bovendien niet altijd een technische kwetsbaarheid te vinden om AI te kunnen misbruiken. LLM’s kunnen ontsporen en na een lang gesprek bewust guardrails vermijden. Zo wist een onderzoeker een AI-chatbot te manipuleren om een juridisch bindend aanbod te doen om een auto te kopen voor 1 dollar. LLM’s kunnen ook worden beïnvloed via prompts die verborgen zitten in aanbevelings- of samenvattingsknoppen op websites. Het is in de praktijk lastig om alle varianten van prompt injection-aanvallen bij te houden die blijven ontstaan, terwijl AI-systemen via meerdere aanvalsvectoren kwetsbaar blijven zonder dat daar klassieke exploitatie voor nodig is. Bovendien werken agentische systemen niet zonder menselijke interactie en tussenkomst; via prompt injection of social engineering kunnen aanvallers de moderne workforce op schaal en op machinesnelheid manipuleren.

De workforce verandert, en het securitymodel moet mee

De Human-AI-Agent-workforce evolueert: meer autonomie voor agents, minder menselijke controle, onvoldoende beveiliging en beperkt toezicht. Terwijl AI-agents zoals AI-assistenten, LLM-crawlers en geautomatiseerde browsers steeds meer werk uitvoeren, worden mensen steeds meer ‘resources’, ongeacht of je zelf agents bouwt of ze gebruikt binnen je organisatie.

Agents worden niet moe, verliezen geen interesse en voelen zich niet gebonden aan normen of morele overwegingen. Ze zijn onvermoeibaar en geven niet op. Ze communiceren op machinesnelheid en proberen elke mogelijke manier om hun doelen te bereiken. Het traditionele beveiligingsprincipe van least privilege - het zo veel mogelijk beperken van toegang - volstaat niet om adequate guardrails voor agents te bieden. Organisaties moeten niet alleen bepalen tot welke systemen een agent toegang heeft, maar ook wat die agent daar kan doen, welke resources worden gebruikt en hoe de agent redeneert.

Twee principes die elke agent-deployment moeten sturen

Twee principes van het Open Worldwide Application Security Project (OWASP) voor agentische applicaties helpen deze uitdagingen aan te pakken. ‘Least agency’ stelt dat agents niet meer autonomie krijgen dan het bedrijfsprobleem rechtvaardigt. Agents moeten hun taak kunnen uitvoeren zonder zich vrij door irrelevante systemen en data te bewegen of andere systeemtoegang uit te putten. ‘Least privilege’ richt zich op toegangscontrole. Waar least agency gaat over de mate van autonomie (wat een agent mag beslissen en doen binnen een systeem), benadrukt het tweede principe - sterke observability - de noodzaak om te zien en te sturen hoe agents zich gedragen binnen je omgeving: wat doen ze, waarom doen ze het, en welke identiteiten en tools gebruiken ze?

Organisaties moeten daadkrachtig handelen. Beheers de orkestratielaag en creëer zichtbaarheid aan de grenzen van systemen. Ze moeten onderscheid kunnen maken tussen mensen, eenvoudige scripts en AI-agents, zodat gedrag kan worden gevolgd als reeksen van acties in plaats van losse verzoeken. Governance moet worden gekoppeld aan observeerbaar gedrag: wanneer een agent een grens overschrijdt, moet je deze kunnen vertragen, onderscheppen of op zijn minst uitdagen. Ontwikkelaars moeten ervoor zorgen dat agents robuust genoeg zijn om met dergelijke interventies om te gaan en de integriteit van legitieme processen te behouden.

Auditability moet eveneens worden ingebouwd. Telemetrie rondom agent-sessies is essentieel om incidenten te kunnen onderzoeken: welke endpoints zijn gebruikt, welke data

is benaderd, hoe zijn beslissingen geëscaleerd en hoe week dit gedrag af van dat van andere agents of mensen?

In de praktijk is sterke observability zonder least agency als een waakhond zonder tanden. Least agency zonder sterke observability betekent dat je risico’s probeert te beperken zonder ze goed te begrijpen. Je wilt noch het inzicht missen in het gedrag van agents, noch de mogelijkheid om in te grijpen wanneer dat nodig is.

Van principes naar praktijk

Deze principes moeten worden vertaald naar een gelaagde verdediging: governanceframeworks, beleid en toezicht op managementniveau; training, bewustwording en naleving op de menselijke laag; en een sterke technische laag met tegenmaatregelen geïntegreerd in zowel het LLM zelf als het bredere agent-ecosysteem, vóór en tijdens gebruik.

Dit zijn essentiële vragen om te starten met Ai-agents:

  • Organisaties gebruiken al agents, of ze die nu zelf hebben gebouwd of niet. Weet je welke agents je gebruikt?
  • Beveiliging van AI-agents draait om least agency en sterke observability. Welke beveiligingsmaatregelen heb je hiervoor ingericht?
  • AI-governance wordt de belangrijkste graadmeter voor vertrouwen. Hoe monitor, beheer en beveilig je AI-agents?

Elke organisatie die AI-agents implementeert of gebruikt, moet deze vragen serieus nemen om daarmee hun eigen AI-prompts als kroonjuwelen te beschermen.

Afbeelding: Martin Kraemer, CISO Advisor bij KnowBe4 en auteur van deze best practices voor het implementeren van AI-agents in beeld

Martin Kraemer, CISO Advisor bij KnowBe4

Redactie WINMAG Pro
Door: Redactie WINMAG Pro
Redactie

Redactie WINMAG Pro

Redactie