La rapida adozione di agenti IA, come OpenClaw, ha superato le difese di sicurezza, creando vulnerabilità critiche nei sistemi aziendali. Questo non è un rischio teorico; gli aggressori stanno già sfruttando queste lacune, aggirando le misure di sicurezza esistenti con una facilità allarmante. Il problema principale: gli attuali stack di sicurezza trattano gli agenti come componenti affidabili, non riconoscendo che l’intento dannoso può essere codificato in significato, non solo in modelli binari.
La breccia silenziosa
L’architettura di OpenClaw consente agli aggressori di incorporare istruzioni all’interno di comunicazioni apparentemente innocue, come le e-mail inoltrate. Un agente, agendo in base alle autorizzazioni concesse, esegue quindi queste istruzioni, esfiltrando credenziali o eseguendo azioni non autorizzate senza attivare alcun avviso. I firewall registrano il normale traffico HTTP, EDR segnala il comportamento standard dei processi e Identity and Access Management (IAM) non vede nulla di straordinario. La violazione avviene entro i confini della fiducia consolidata, rendendo inefficaci le difese tradizionali.
Questo non è un bug; è un difetto di progettazione fondamentale. La velocità di implementazione di OpenClaw (sei strumenti di difesa costruiti in 14 giorni, ma ancora vulnerabili) sottolinea la sfida. All’inizio del 2026, circa il 22% dei dipendenti aziendali utilizza già OpenClaw senza l’approvazione dell’IT, con oltre 30.000 istanze esposte pubblicamente rilevate entro due settimane. Questo dispiegamento ombra crea una superficie di attacco massiccia e incontrollata.
Le tre lacune irrisolvibili
Le vulnerabilità più pericolose rientrano in tre categorie:
- Esfiltrazione semantica runtime: gli attacchi nascondono comportamenti dannosi nel significato delle istruzioni, piuttosto che in modelli di codice rilevabili. Le difese attuali non possono interpretare le intenzioni.
- Perdita di contesto tra agenti: un agente compromesso può iniettare istruzioni dannose che avvelenano le decisioni nell’intero flusso di lavoro, infettando silenziosamente altri agenti.
- Autenticazione reciproca zero: quando gli agenti delegano attività a vicenda o a server esterni, non esiste alcuna verifica dell’identità. Un agente compromesso eredita la fiducia di ogni agente con cui interagisce.
Queste lacune non sono solo teoriche; i ricercatori hanno dimostrato come un utente malintenzionato possa incorporare payload dormienti che si attivano settimane dopo, sfruttando il flusso di contesto incontrollato tra gli agenti. Il problema principale è che gli agenti vengono trattati come intermediari fidati, quando possono essere facilmente compromessi.
Correzione del problema: cosa è stato fatto?
La comunità della sicurezza ha risposto con un mix di misure tampone e revisioni dell’architettura.
- ClawSec (Prompt Security): coinvolge gli agenti in una verifica continua e impone l’uscita Zero Trust.
- VirusTotal Integration: Scansiona le competenze di ClawHub alla ricerca di pacchetti dannosi noti.
- IronClaw (NEAR AI): Esegue strumenti non attendibili nei sandbox WebAssembly con autorizzazioni limitate.
- Carapace: Implementa l’autenticazione fail-closed e il sandboxing dei sottoprocessi a livello di sistema operativo.
- NanoClaw: riduce la base di codice a 500 righe di TypeScript, eseguendo ogni sessione in un contenitore Docker isolato.
Sebbene questi strumenti riducano alcuni rischi, non risolvono il problema fondamentale: gli agenti operano con eccessiva fiducia e isolamento inadeguato.
Le specifiche delle capacità
Per affrontare la causa principale, la comunità della sicurezza sta spingendo per una specifica delle competenze che tratti gli agenti come file eseguibili. Questa proposta, guidata da Anthropic e Vercel, richiede dichiarazioni di capacità esplicite e visibili all’utente prima dell’esecuzione, simili alle autorizzazioni delle app mobili. L’obiettivo è imporre trasparenza e responsabilità, rendendo più difficile il funzionamento inosservato delle competenze dannose.
Cosa fare adesso: passaggi immediati
La realtà è che OpenClaw probabilmente è già presente in molti ambienti. I seguenti passaggi possono mitigare i rischi immediati:
- Inventario: cerca istanze OpenClaw utilizzando il traffico WebSocket (porta 18789) e le trasmissioni mDNS (porta 5353). Monitora i log di autenticazione per attività sospette.
- Isolare: Limita gli agenti alle distribuzioni basate su container con credenziali con ambito e strumenti autorizzati.
- Verifica: distribuisci ClawSec ed esegui la scansione di tutte le funzionalità ClawHub con VirusTotal e lo scanner open source di Cisco prima dell’installazione.
- Richiedi approvazione: implementa l’approvazione human-in-the-loop per le azioni sensibili degli agenti, sospendendo l’esecuzione per la conferma prima delle operazioni critiche.
- Rischio del documento: Mappa le tre lacune irrisolvibili (esfiltrazione semantica, perdita di contesto, catene di fiducia) rispetto al registro dei rischi e determina una strategia di accettazione o mitigazione.
- Incrementare: portare questa valutazione al consiglio, inquadrandola come un bypass degli investimenti DLP e IAM esistenti.
Lo stack di sicurezza che hai creato per applicazioni ed endpoint tradizionali non catturerà un agente che segue istruzioni dannose tramite una chiamata API legittima. Queste lacune esistono proprio laddove le attuali difese falliscono.
