OpenClaw : la crise de la sécurité des agents IA

4

L’adoption rapide d’agents d’IA, comme OpenClaw, a dépassé les défenses de sécurité, créant des vulnérabilités critiques dans les systèmes d’entreprise. Ce n’est pas un risque théorique ; les attaquants exploitent déjà ces failles, contournant les mesures de sécurité existantes avec une facilité alarmante. Le problème principal : les piles de sécurité actuelles traitent les agents comme des composants de confiance, ne reconnaissant pas que les intentions malveillantes peuvent être codées dans des significations, et pas seulement dans des modèles binaires.

La brèche silencieuse

L’architecture d’OpenClaw permet aux attaquants d’intégrer des instructions dans des communications apparemment inoffensives, telles que des e-mails transférés. Un agent, agissant sur la base de ses autorisations sanctionnées, exécute ensuite ces instructions, exfiltrant les informations d’identification ou effectuant des actions non autorisées sans déclencher d’alerte. Les pare-feu enregistrent le trafic HTTP normal, EDR signale le comportement des processus standard et la gestion des identités et des accès (IAM) ne voit rien d’extraordinaire. La violation se produit dans les limites de la confiance établie, rendant les défenses traditionnelles inefficaces.

Ce n’est pas un bug ; c’est un défaut de conception fondamental. La rapidité de déploiement d’OpenClaw (six outils de défense construits en 14 jours, mais toujours vulnérables) souligne le défi. Début 2026, environ 22 % des employés des entreprises utilisaient déjà OpenClaw sans l’approbation du service informatique, avec plus de 30 000 instances exposées publiquement détectées en deux semaines. Ce déploiement fantôme crée une surface d’attaque massive et incontrôlée.

Les trois lacunes insolubles

Les vulnérabilités les plus dangereuses se répartissent en trois catégories :

  1. Exfiltration sémantique d’exécution : les attaques masquent les comportements malveillants dans le sens des instructions, plutôt que dans des modèles de code détectables. Les défenses actuelles ne peuvent pas interpréter l’intention.
  2. Fuite de contexte entre agents : Un agent compromis peut injecter des invites malveillantes qui empoisonnent les décisions dans l’ensemble d’un flux de travail, infectant silencieusement d’autres agents.
  3. Zéro authentification mutuelle : Lorsque les agents délèguent des tâches entre eux ou à des serveurs externes, aucune vérification d’identité n’existe. Un agent compromis hérite de la confiance de chaque agent avec lequel il interagit.

Ces lacunes ne sont pas seulement théoriques ; des chercheurs ont démontré comment un attaquant peut intégrer des charges utiles dormantes qui s’activent des semaines plus tard, en exploitant le flux de contexte non contrôlé entre les agents. Le problème principal est que les agents sont traités comme des intermédiaires de confiance, alors qu’ils peuvent facilement être compromis.

Résoudre le problème : qu’a-t-on fait ?

La communauté de la sécurité a répondu par un mélange de mesures provisoires et de refontes architecturales.

  • ClawSec (Prompt Security) : Encapsule les agents dans une vérification continue et applique une sortie zéro confiance.
  • Intégration VirusTotal : Analyse les compétences ClawHub à la recherche de packages malveillants connus.
  • IronClaw (NEAR AI) : Exécute des outils non fiables dans les sandbox WebAssembly avec des autorisations limitées.
  • Carapace : Implémente l’authentification fermée et le sandboxing des sous-processus au niveau du système d’exploitation.
  • NanoClaw : Réduit la base de code à 500 lignes de TypeScript, en exécutant chaque session dans un conteneur Docker isolé.

Même si ces outils atténuent certains risques, ils ne résolvent pas le problème fondamental : les agents opèrent avec une confiance excessive et un isolement inadéquat.

La spécification des capacités

Pour remédier à la cause profonde, la communauté de la sécurité fait pression pour une spécification de compétences qui traite les agents comme des fichiers exécutables. Cette proposition, dirigée par Anthropic et Vercel, nécessite des déclarations de capacités explicites et visibles par l’utilisateur avant l’exécution, similaires aux autorisations des applications mobiles. L’objectif est d’imposer la transparence et la responsabilité, en rendant plus difficile l’intervention de compétences malveillantes sans être détectées.

Que faire maintenant : étapes immédiates

La réalité est qu’OpenClaw est probablement déjà présent dans de nombreux environnements. Les étapes suivantes peuvent atténuer les risques immédiats :

  1. Inventaire : Recherchez les instances OpenClaw à l’aide du trafic WebSocket (port 18789) et des diffusions mDNS (port 5353). Surveillez les journaux d’authentification pour détecter toute activité suspecte.
  2. Isoler : limitez les agents aux déploiements basés sur des conteneurs avec des informations d’identification limitées et des outils en liste blanche.
  3. Vérifiez : Déployez ClawSec et analysez toutes les compétences ClawHub avec VirusTotal et le scanner open source de Cisco avant l’installation.
  4. Exiger l’approbation : Mettez en œuvre l’approbation humaine pour les actions sensibles des agents, en suspendant l’exécution pour confirmation avant les opérations critiques.
  5. Documenter les risques : Cartographiez les trois lacunes insolubles (exfiltration sémantique, fuite de contexte, chaînes de confiance) par rapport à votre registre des risques et déterminez une stratégie d’acceptation ou d’atténuation.
  6. Escalade : Présentez cette évaluation au conseil d’administration, en la présentant comme un contournement des investissements DLP et IAM existants.

La pile de sécurité que vous avez créée pour les applications et les points de terminaison traditionnels ne détectera pas un agent qui suit des instructions malveillantes via un appel d’API légitime. Ces lacunes existent précisément là où les défenses actuelles échouent.