Doorbraak in AI-training: Patronus AI’s ‘levende’ simulaties lossen het aantal uitval van agenten op

11

Artificiële intelligentie (AI)-agenten falen momenteel bij maar liefst 63% van de complexe taken. Dit is een groot knelpunt voor bedrijven die graag autonome systemen willen inzetten. Nu beweert Patronus AI, een startup gesteund door 20 miljoen dollar aan durfkapitaal, een oplossing te hebben: dynamisch gegenereerde, adaptieve trainingsomgevingen die uitdagingen uit de echte wereld in realtime simuleren.

Het probleem met traditionele AI-benchmarks

Jarenlang heeft de AI-industrie vertrouwd op statische benchmarks om de vooruitgang te meten. Deze gestandaardiseerde tests houden echter geen rekening met de onvoorspelbare aard van taken in de echte wereld. Traditionele benchmarks meten geïsoleerde vaardigheden, waarbij onderbrekingen, contextverschuivingen en gelaagde besluitvorming worden genegeerd. Als gevolg hiervan presteren AI-agenten vaak slecht buiten gecontroleerde laboratoriumomgevingen.

Anand Kannappan, CEO van Patronus AI, legt uit: “Traditionele benchmarks meten geïsoleerde capaciteiten, maar missen de onderbrekingen, contextwisselingen en gelaagde besluitvorming die echt werk definiëren.” Dit betekent dat een agent met zelfs een klein foutenpercentage snel onbetrouwbaar kan worden in complexe scenario’s. Een foutenpercentage van 1% per stap leidt bijvoorbeeld tot een kans van 63% op falen bij de honderdste stap.

Generatieve simulatoren: AI die leert als mensen

De aanpak van Patronus AI, genaamd ‘Generative Simulators’, creëert trainingsomgevingen die voortdurend evolueren. Deze simulatoren genereren nieuwe uitdagingen, passen de regels dynamisch aan en evalueren de prestaties van agenten in realtime. Dit bootst na hoe mensen leren: door dynamische ervaring en continue feedback.

De CTO van het bedrijf, Rebecca Qian, merkt op dat de grens tussen training en evaluatie vervaagt. “Het afgelopen jaar hebben we een verschuiving gezien van traditionele statische benchmarks naar meer interactieve leeromgevingen”, zegt ze. “Benchmarks zijn omgevingen geworden.”

Hoe adaptieve training werkt: de ‘Goudlokje-zone’

De sleutel tot effectieve AI-training is het vinden van de “Goudlokje Zone” – een moeilijkheidsgraad die niet te gemakkelijk en niet te moeilijk is. Het systeem van Patronus AI maakt gebruik van een ‘curriculum-aanpasser’ om het gedrag van agenten te analyseren en trainingsscenario’s dynamisch aan te passen.

Deze adaptieve aanpak voorkomt ‘reward hacking’, waarbij AI-systemen mazen in de wet exploiteren in plaats van problemen op te lossen. Statische omgevingen zijn gemakkelijk te misleiden; evoluerende omgevingen dwingen agenten zich echt aan te passen.

Bedrijfsimpact: omzetgroei en marktvraag

Patronus AI heeft een omzetgroei van 15x gezien, gedreven door de grote vraag naar zijn RL-omgevingen. Het platform van het bedrijf wordt al gebruikt door Fortune 500-bedrijven en toonaangevende AI-laboratoria. Dit duidt op een duidelijke marktbehoefte aan effectievere AI-trainingsoplossingen.

Waarom Big Tech het niet allemaal alleen kan

Terwijl OpenAI, Anthropic en Google investeren in hun eigen trainingsinfrastructuur, stelt Patronus AI dat de breedte van toepassingen in de echte wereld een opening creëert voor gespecialiseerde externe leveranciers.

“Ze willen agenten op veel verschillende domeinen verbeteren… Het oplossen van al die verschillende operationele problemen is voor één bedrijf erg moeilijk om te doen”, zegt Kannappan.

De toekomst van AI-training: omgevingen als de nieuwe olie

Patronus AI voorziet een toekomst waarin alle menselijke workflows worden omgezet in gestructureerde, leerbare omgevingen. Het bedrijf is van mening dat de controle over deze omgevingen de mogelijkheden van toekomstige AI-systemen zal bepalen.

“Wij vinden dat alles een milieu zou moeten zijn – intern maken we grapjes dat het milieu de nieuwe olie is.” – Patronus AI-CEO Anand Kannappan

Deze gedurfde visie positioneert Patronus AI als een belangrijke speler bij het vormgeven van de volgende generatie AI. De aanpak van het bedrijf is een cruciale stap in de richting van het bouwen van AI-agenten die op betrouwbare wijze complexe taken in de echte wereld kunnen uitvoeren.