Los agentes de IA ya no son experimentales. Escriben código, gestionan infraestructura, manejan interacciones con clientes y toman decisiones que afectan a millones de personas. Pero mientras la industria se ha obsesionado con las capacidades — cuantas herramientas puede usar un agente, cuantos tokens puede procesar, cuan autónomamente puede operar — la seguridad ha sido tratada como algo secundario. El supuesto parece ser que si un agente de IA es suficientemente popular, debe ser suficientemente seguro. Ese supuesto es incorrecto.
Construimos AiSec (github.com/fboiero/AiSec) para poner a prueba ese supuesto de forma sistemática. AiSec es un framework de seguridad de IA open-source que despliega 35 agentes de IA especializados para escanear sistemas de IA en busca de vulnerabilidades — desde inyección de prompts y escapes de sandbox hasta filtracion de datos y brechas de cumplimiento. Decidimos ejecutarlo contra el objetivo más grande que pudimos encontrar: OpenClaw, el agente de IA más popular del mundo con 191.000 estrellas en GitHub. Lo que encontramos en 4 minutos y 12 segundos debería preocupar a toda organización que despliega agentes de IA en producción.
¿Qué es OpenClaw?
OpenClaw es el framework de agentes de IA open-source más popular del mundo, con más de 191.000 estrellas en GitHub y una comunidad activa de miles de contribuidores. Proporciona una arquitectura de propósito general para construir agentes de IA que pueden usar herramientas, ejecutar código, navegar la web, interactuar con APIs y encadenar flujos de trabajo complejos de múltiples pasos. Su popularidad proviene de su flexibilidad: los agentes de OpenClaw pueden configurarse para todo, desde asistentes chatbot simples hasta agentes de codificacion autónomos, pipelines de análisis de datos y automatización de flujos de trabajo empresariales.
La arquitectura de OpenClaw sigue el patrón agentico ahora estándar: un nucleo de modelo de lenguaje con acceso a un registro de herramientas, un sistema de memoria para mantener contexto entre interacciones y un motor de ejecución que orquesta la completacion de tareas en múltiples pasos. Soporta múltiples backends de LLM, conjuntos de herramientas personalizables y arquitecturas de plugins extensibles. Esta flexibilidad es tanto su fortaleza como — desde una perspectiva de seguridad — su superficie de riesgo más significativa. Cada punto de extensión es un potencial vector de ataque. Cada integración de herramienta es un límite de privilegios que puede ser cruzado.
¿El desafío: Por qué auditar al agente de IA más popular?
Auditar OpenClaw no se trataba de encontrar fallas en sus mantenedores — quienes han construido algo genuinamente impresionante. ¿Se trataba de responder una pregunta que importa a todo el ecosistema de IA: cuan seguro es el framework de agentes de IA más probado, más revisado y más desplegado? ¿Si OpenClaw tiene brechas de seguridad significativas, que nos dice eso sobre los cientos de frameworks de agentes menos escrutados desplegados en producción?
Las auditorías de seguridad tradicionales de sistemas de IA son lentas, costosas e incompletas. Un pentester humano puede pasar semanas revisando un framework de agentes y aun así perder clases de vulnerabilidades en las que no está especializado. El experto en inyección de prompts puede no detectar el escape de sandbox. El auditor de cumplimiento puede no identificar el camino de filtracion de datos. Necesitabamos una herramienta que pudiera cubrir toda la superficie de ataque — cada clase de vulnerabilidad, cada framework de cumplimiento, cada capa de la arquitectura del agente — en minutos, no semanas. Por eso construimos AiSec.
AiSec: 35 agentes, una misión
AiSec (github.com/fboiero/AiSec) es un framework de seguridad de IA open-source desarrollado por Xcapit. Adopta un enfoque fundamentalmente diferente para la evaluación de seguridad de IA: en lugar de ejecutar un único scanner con una lista de reglas, AiSec despliega 35 agentes de IA especializados, cada uno entrenado y configurado para detectar una clase específica de vulnerabilidad. Estos agentes trabajan en paralelo, compartiendo contexto a través de una capa de coordinación que permite la correlación entre agentes — encontrando cadenas de vulnerabilidades que ningún agente individual detectaría por si solo.
Los 35 agentes incluyen PromptInjectionAgent (probando vectores de inyección directa, indirecta y multi-turno), SandboxEscapeAgent (sondeando límites de ejecución de código y escapes de contenedor), DataLeakageAgent (rastreando flujos de datos para exposición de información sensible), ToolChainAgent (analizando caminos de escalación de privilegios entre herramientas), AuthenticationAgent (probando mecanismos de identidad y control de acceso) y ComplianceAgent (mapeando hallazgos a requisitos regulatorios y de frameworks). Agentes adicionales cubren integridad de la cadena de suministro, vectores de envenenamiento de modelos, limitación de tasa, seguridad de APIs, inyección de memoria, ataques de serialización y más.
La arquitectura de análisis de 5 capas
AiSec organiza su análisis en cinco capas distintas, cada una apuntando a un aspecto diferente de la postura de seguridad del sistema de IA. Este enfoque por capas asegura cobertura integral — desde vulnerabilidades de código de bajo nivel hasta brechas de cumplimiento de alto nivel.
- Capa 1 — Análisis Estático: Escaneo de código fuente para secretos hardcodeados, patrones inseguros, vulnerabilidades de dependencias y debilidades de configuración. Los agentes estáticos de AiSec analizaron más de 340.000 líneas de código de OpenClaw en 2.100 archivos en 47 segundos.
- Capa 2 — Análisis Dinámico: Pruebas en tiempo de ejecución del comportamiento del agente bajo condiciones adversariales. Los agentes envían entradas especialmente diseñadas, observan invocaciones de herramientas, monitorean acceso a recursos y prueban condiciones límite. Esta capa identifico 28 de los 63 hallazgos.
- Capa 3 — Análisis de Arquitectura: Evaluación de los patrones de diseño del sistema, límites de privilegios, caminos de flujo de datos y relaciones de confianza. El ToolChainAgent y el AuthenticationAgent operan principalmente en esta capa, identificando debilidades estructurales que habilitan ataques de múltiples pasos.
- Capa 4 — Análisis de Flujo de Datos: Rastreo de extremo a extremo de como los datos de usuario, contexto de conversación y salidas de herramientas fluyen a través del sistema. El DataLeakageAgent rastrea información sensible desde su ingesta a través del procesamiento hasta el almacenamiento, identificando puntos donde los datos escapan de su límite previsto.
- Capa 5 — Mapeo de Cumplimiento: Correlación automatizada de todos los hallazgos de las capas 1-4 contra 8 frameworks de seguridad. Cada hallazgo recibe calificaciónes de severidad específicas del framework, guía de remediación y evaluaciones de impacto de cumplimiento.
Resultados: 63 hallazgos en 4 minutos
AiSec completó su análisis integral de OpenClaw en 4 minutos y 12 segundos. Los 35 agentes identificaron colectivamente 63 hallazgos de seguridad a través de las cinco capas de análisis. El desglose por severidad fue significativo: 8 hallazgos críticos que requieren atención inmediata, 15 hallazgos de severidad alta con caminos de ataque explotables, 22 hallazgos de severidad media representando brechas en defensa en profundidad y 18 hallazgos de severidad baja cubriendo oportunidades de endurecimiento y desviaciones de mejores prácticas.
- Críticos (8): Vectores de inyección de prompt con ejecución de código demostrada, caminos de escape de sandbox, exposición de datos sensibles en almacenamiento persistente, encadenamiento de herramientas sin restricciones habilitando escalación de privilegios
- Altos (15): Validación de entrada insuficiente en parámetros de herramientas, limitación de tasa faltante en bucles de agente, aislamiento débil entre sesiones de usuario, configuraciones predeterminadas inseguras para carga de plugins, exposición de claves API a través de mensajes de error
- Medios (22): Registro incompleto de eventos relevantes para seguridad, verificaciones de integridad faltantes en código de plugins, controles de timeout insuficientes en llamadas a APIs externas, configuraciones CORS excesivamente permisivas, ausencia de políticas de seguridad de contenido para salidas renderizadas
- Bajos (18): Hallazgos informativos incluyendo versiones de dependencias deprecadas, patrones de manejo de errores no estándar, cabeceras de seguridad faltantes en endpoints internos, brechas de documentación para opciones de configuración de seguridad
Análisis profundo de hallazgos críticos
CVE-2026-25253: Inyección de prompt Multi-Vector
El PromptInjectionAgent identifico una vulnerabilidad crítica de inyección de prompt que permite a un atacante sobreescribir las instrucciones del sistema de OpenClaw a través de contenido manipulado en fuentes de datos externas. El ataque explota el hecho de que OpenClaw procesa las salidas de herramientas — incluyendo contenido de páginas web, contenidos de archivos y respuestas de APIs — en el mismo contexto que las instrucciones del sistema, sin aplicación adecuada de límites. Un atacante que controla cualquier contenido que el agente recupera (una página web, un documento, un repositorio de código) puede incrustar instrucciones que el agente ejecutara con su acceso completo a herramientas.
El PromptInjectionAgent demostró está vulnerabilidad a través de tres vectores de ataque independientes: instrucciones ocultas en comentarios markdown dentro de documentos recuperados, caracteres de control Unicode que reestructuran el contexto del prompt y manipulación de contexto multi-turno que gradualmente desvia el seguimiento de instrucciones del agente. Cada vector fue confirmado como explotable en la configuración predeterminada, y dos permanecieron explotables incluso con el 'modo estricto' opcional de OpenClaw habilitado. Este hallazgo fue asignado como CVE-2026-25253 y afecta a todas las versiones anteriores al último parche de seguridad.
Escape de sandbox a través de ejecución de código
El SandboxEscapeAgent descubrió que el sandbox de ejecución de código de OpenClaw — el entorno donde se ejecuta el código solicitado por el usuario — tiene aislamiento insuficiente del sistema anfitrion. A través de una secuencia de solicitudes de ejecución de código cuidadosamente diseñadas, un agente puede acceder al sistema de archivos del anfitrion más allá de su directorio de sandbox designado, leer variables de entorno (incluyendo claves API y credenciales almacenadas en el entorno del shell) y, en ciertas configuraciones, establecer conexiones de red salientes para exfiltrar datos.
El camino de escape explota una condicion de carrera en la secuencia de inicialización del sandbox: durante la ventana de 200 milisegundos entre la creación del proceso y la aplicación de la política del sandbox, el código ejecutado tiene acceso al entorno no restringido del anfitrion. El SandboxEscapeAgent automatizo la explotación de esta ventana, demostrando acceso confiable de lectura de archivos a /etc/passwd, extraccion de variables de entorno y exfiltración de datos basada en DNS — todo desde dentro de lo que los usuarios creen que es un sandbox de ejecución aislado.
Exposicion de datos sensibles en logs de conversación
El DataLeakageAgent rastreo el flujo de datos de OpenClaw e identifico que los historiales de conversación — que rutinariamente contienen claves API, contraseñas, información personal y código propietario compartido por los usuarios — se almacenan en texto plano en el sistema de archivos local con permisos que permiten acceso por cualquier proceso ejecutándose bajo la misma cuenta de usuario. En despliegues multi-usuario (que representan un porcentaje significativo de las instalaciones empresariales de OpenClaw), esto significa que los datos de conversación de cualquier usuario son potencialmente accesibles para los procesos de otros usuarios.
Escalación de privilegios a través de encadenamiento de herramientas
El ToolChainAgent identifico un camino crítico de escalación de privilegios donde un agente con acceso a un conjunto limitado de herramientas puede encadenar invocaciones de herramientas para lograr capacidades más allá de sus permisos previstos. Especificamente, el agente demostró que una herramienta con acceso de solo lectura al sistema de archivos puede invocar la herramienta de ejecución de código para escribir archivos, que a su vez pueden usarse para modificar la propia configuración del agente y otorgar acceso a herramientas adicionales. Esta capacidad de auto-modificación efectivamente evita cualquier modelo de permisos aplicado a nivel de configuración.
Correlación Cross-Framework: 8 frameworks, un reporte
Una de las capacidades más poderosas de AiSec es la correlación cross-framework automatizada. Cada hallazgo se mapea a todos los controles aplicables a través de 8 frameworks de seguridad simultáneamente: OWASP Top 10 para LLMs (2025), NIST AI Risk Management Framework (AI RMF), MITRE ATLAS (Adversarial Threat Landscape for AI Systems), ISO 42001 (AI Management System), EU AI Act (clasificaciones de riesgo y requisitos), OWASP Application Security Verification Standard (ASVS), CIS Controls v8 y NIST Cybersecurity Framework 2.0.
Este mapeo cross-framework no es solo un ejercicio academico — es operativamente crítico. Un CISO que necesita reportar la postura de seguridad de IA a la junta directiva mapea hallazgos a NIST CSF. Un equipo de cumplimiento preparandose para requisitos del EU AI Act mapea hallazgos a las categorías de riesgo de la regulación. Un equipo de desarrollo priorizando correcciones mapea hallazgos a OWASP para guía de remediación accionable. AiSec genera todas estas vistas desde un único escaneo, eliminando el esfuerzo manual de cross-referenciar hallazgos entre frameworks.
Para el análisis de OpenClaw, la correlación cross-framework revelo que 6 de los 8 hallazgos críticos mapean a OWASP LLM01 (Inyección de Prompt) o LLM06 (Divulgacion de Información Sensible). Bajo el EU AI Act, el uso de OpenClaw en toma de decisiones autónoma lo clasificaria como alto riesgo, activando requisitos obligatorios de transparencia, supervisión humana y pruebas de seguridad — requisitos que la arquitectura actual no satisface completamente. Bajo NIST AI RMF, los hallazgos se agrupan en las funciones GOVERN y MAP, indicando que las causas raíz son decisiones de gobernanza arquitectonica más que bugs de implementación.
Lo que los mantenedores de OpenClaw hicieron bien
Una auditoría de seguridad que solo destaca fallas da una imagen incompleta. Los mantenedores de OpenClaw han tomado varias decisiones de seguridad solidas que otros frameworks de agentes deberían emular. El proyecto tiene un modelo de permisos integral que, aunque eludible a través de la vulnerabilidad de encadenamiento de herramientas descrita anteriormente, proporciona una arquitectura clara para restringir las capacidades del agente — la base es sólida aunque la implementación tiene brechas. El sandbox de ejecución de código existe y aplica correctamente las restricciones en operación estable — la vulnerabilidad de condicion de carrera es un problema de timing, no una ausencia de diseño.
El proceso de respuesta de seguridad de OpenClaw es ejemplar. Cuando reportamos los hallazgos críticos a través de su programa de divulgación responsable, los mantenedores reconocieron los 8 hallazgos críticos dentro de 48 horas, confirmaron la reproducibilidad dentro de una semana y tenían parches en revisión dentro de dos semanas. Este tiempo de respuesta pone a OpenClaw por delante del 90% de los proyectos open-source con los que hemos trabajado. El proyecto también mantiene una página de avisos de seguridad, soporta releases firmados y tiene un programa activo de bug bounty — prácticas que demuestran un compromiso genuino con la seguridad.
Implicaciones para el ecosistema de agentes de IA
Si el framework de agentes de IA más popular y más escrutado tiene 8 vulnerabilidades críticas de seguridad, el estado del ecosistema más amplio es preocupante. OpenClaw se beneficia de 191.000 pares de ojos, un equipo de seguridad dedicado, un programa de divulgación responsable y ahora un análisis de AiSec. La mayoría de los frameworks de agentes de IA desplegados en producción no tienen ninguna de estas ventajas. Están construidos por equipos pequeños, desplegados sin revisión de seguridad y operados con confianza implicita en el comportamiento del agente.
Los hallazgos de este análisis apuntan a problemas sistemicos en como la industria construye agentes de IA. Las defensas contra inyección de prompts aun no son práctica estándar — la mayoría de los frameworks procesan contenido externo en el mismo contexto que las instrucciones del sistema. El aislamiento del sandbox se trata como un detalle de implementación en lugar de un límite crítico de seguridad. Los datos en reposo raramente se encriptan. Los modelos de permisos son consultivos en lugar de aplicados. Estos no son bugs de OpenClaw específicamente; son patrones repetidos a través de todo el ecosistema de agentes. La industria necesita un cambio fundamental: tratar la seguridad de agentes de IA como una disciplina de ingeniería de primera clase, no como una casilla a marcar antes del lanzamiento.
Cómo ejecutar AiSec en tus propios sistemas de IA
AiSec es open source y está disponible en github.com/fboiero/AiSec. Ejecutarlo contra tus propios sistemas de agentes de IA toma minutos, no días. El framework está diseñado para ser autocontenido — no necesitás modificar tu sistema objetivo ni instalar agentes en infraestructura de producción. AiSec opera externamente, sondeando el objetivo a través de las mismas interfaces que usaria un atacante.
- Clonar el repositorio: git clone https://github.com/fboiero/AiSec.git && cd AiSec
- Instalar dependencias: pip install -e . (Python 3.10+ requerido)
- Configurar tu objetivo: editar config/target.yaml con los endpoints, autenticación y parámetros de alcance de tu sistema de IA
- Ejecutar el escaneo completo: aisec scan --target config/target.yaml --frameworks all --output report.json
- Generar reportes de cumplimiento: aisec report --input report.json --format pdf --frameworks owasp-llm,nist-ai-rmf,eu-ai-act
- Para integración CI/CD: aisec scan --target config/target.yaml --fail-on critical,high --output-format junit
El escaneo ejecuta los 35 agentes en paralelo por defecto, completando un análisis completo en menos de 5 minutos para la mayoría de los sistemas de IA. También podés ejecutar agentes individuales para pruebas dirigidas — por ejemplo, aisec scan --agents PromptInjectionAgent,SandboxEscapeAgent para una evaluación enfocada de tus superficies de ataque más críticas. La salida incluye guía detallada de remediación para cada hallazgo, priorizada por severidad y mapeada a los frameworks de cumplimiento relevantes para tu organización.
En Xcapit, la seguridad de IA no es una actividad secundaria — es central a todo lo que construimos. AiSec surgió de nuestras prácticas de seguridad internas, refinadas a través de años de construir agentes de IA para clientes empresariales en los sectores fintech, energía y gobierno. Lo hicimos open source porque creemos que todo el ecosistema se beneficia cuando las herramientas de seguridad de IA son accesibles para todos, no solo para organizaciones que pueden pagar auditorías de seguridad de seis cifras. Si querés ir más profundo — configuraciones personalizadas de AiSec para tu arquitectura específica, monitoreo de seguridad continuo para tus despliegues de IA, o un engagement completo de red team — nuestro equipo de ciberseguridad puede ayudarte. Visita xcapit.com/services/cybersecurity para iniciar la conversación.
Fernando Boiero
CTO & Co-Fundador
Más de 20 años en la industria tecnológica. Fundador y director de Blockchain Lab, profesor universitario y PMP certificado. Experto y líder de pensamiento en ciberseguridad, blockchain e inteligencia artificial.
Mantente al día
Recibí novedades sobre IA, blockchain y ciberseguridad en tu bandeja de entrada.
Respetamos tu privacidad. Podés desuscribirte en cualquier momento.
¿Listo para aprovechar IA y Machine Learning?
Desde modelos predictivos hasta MLOps — hacemos que la IA trabaje para vos.
También te puede interesar
De OpenClaw a Agentor: Construyendo AI agents seguros en Rust
Cómo una auditoría de seguridad de un framework open-source de AI agents reveló los límites de Python y nos llevó a construir Agentor en Rust.
Transformación digital para utilities: cómo modernizar energía sin reemplazar el core
Una guía práctica para utilities y empresas de energía: cómo integrar SCADA, IoT, IA, tokenización y ciberseguridad para modernizar operaciones sin reemplazar sistemas críticos.
Por qué los escáneres de vulnerabilidades no reemplazan un pentest — y cómo la IA cambia la ecuación
Escáneres como Nuclei y ZAP detectan CVEs conocidos, pero no encuentran las vulnerabilidades que realmente causan brechas: IDOR, escalación de privilegios, condiciones de carrera y fallas de lógica de negocio. Este artículo explica por qué, muestra datos de benchmark (47 hallazgos vs 0) y presenta una tercera opción: pentesting con IA que razona como un atacante humano a la velocidad y costo de un escáner.