Xcapit Labs
AiSec: Framework de análisis de seguridad para agentes de IA
Cómo Xcapit Labs construyó un framework integral de análisis de seguridad para agentes de IA con 35 agentes especializados, 250+ detectores y auto-remediación — validado a través de la auditoría de OpenClaw que encontró 4.2x más vulnerabilidades que los escáneres tradicionales.
Agentes de seguridad
Detectores
Hallazgos OpenClaw
Escaneo promedio
En marzo de 2025, el equipo de seguridad de Xcapit recibió un pedido que pondría a prueba cada suposición que tenían sobre seguridad en IA: auditar OpenClaw, un framework de agentes de IA open-source que se estaba desplegando en servicios financieros y salud — industrias donde una única vulnerabilidad podría exponer millones de registros. El equipo llevaba seis años construyendo herramientas de seguridad, comenzando con penetration testing manual en 2019 y evolucionando a lo largo del boom de la IA. Pero OpenClaw era diferente. Sus agentes podían llamar APIs externas, ejecutar código y encadenar acciones autónomamente. La superficie de ataque no era una aplicación web con endpoints conocidos — era un sistema que podía decidir, en tiempo de ejecución, hacer cosas que sus creadores nunca anticiparon.
El desafío
Los escáneres de seguridad tradicionales fueron construidos para un mundo donde el software hace lo que dice su código. Snyk encuentra CVEs conocidos en dependencias. Semgrep busca patrones de código contra bases de datos de vulnerabilidades. Estas herramientas son esenciales — pero son ciegas ante una categoría completamente nueva de amenazas que emergen cuando los agentes de IA operan autónomamente.
Consideremos los vectores de ataque que los escáneres tradicionales no pueden detectar:
- Inyección de prompts: Un atacante inserta instrucciones en datos proporcionados por el usuario que sobreescriben el prompt del sistema del agente. En 2024, investigadores demostraron que un CV subido a una herramienta de RRHH con IA podía instruir al agente para enviar por email todos los datos de candidatos a una dirección externa — y el agente cumplió, porque no podía distinguir entre sus instrucciones y las del atacante.
- Exfiltración de datos a través de salidas del modelo: Un agente que procesa documentos confidenciales puede ser manipulado para codificar datos sensibles en sus respuestas — no a través de un exploit de red, sino elaborando entradas qué hacen que el modelo 'filtre' datos de entrenamiento o contenido de la ventana de contexto.
- Escalamiento de privilegios vía uso de herramientas: Los agentes de IA que pueden llamar herramientas (bases de datos, APIs, comandos de shell) pueden ser enganados para encadenar llamadas de herramientas de maneras que escalen privilegios. Un agente con acceso de solo lectura a la base de datos, por ejemplo, podría ser manipulado para llamar a otra herramienta que escriba datos.
- Ataques a la cadena de suministro sobre pesos de modelos: Actores maliciosos pueden publicar modelos fine-tuneados que contienen backdoors — el modelo se comporta normalmente con entradas estándar pero activa comportamiento dañino ante frases gatillo específicas.
Ningún escaner existente aborda estas amenazas de forma holística. OWASP público su AI Top 10 en 2023, MITRE lanzo el framework ATLAS, y el EU AI Act exigio evaluaciones de seguridad — pero las herramientas quedaron detrás de los estándares. Las organizaciones sabian que debian evaluar, pero no tenían una forma automatizada de hacerlo.
La auditoría de OpenClaw: Validación en el mundo real
Por qué OpenClaw
OpenClaw fue elegido como objetivo de validación de AiSec porque representa el patrón de arquitectura más comúnmente desplegado en IA empresarial: un framework multi-agente donde los agentes se coordinan a través de estado compartido, llaman herramientas externas vía APIs y procesan entradas de usuarios con sanitización mínima. Si AiSec podía auditar OpenClaw de forma integral, podía auditar la gran mayoría de despliegues de agentes de IA en producción.
Metodología de auditoría
AiSec desplegó los 35 agentes de seguridad especializados contra el código de OpenClaw en un proceso de tres fases:
- Fase 1 — Escaneo individual de agentes: Cada uno de los 35 agentes analizo el código independientemente desde su perspectiva especializada. El agente de inyección de prompts probo el manejo de entradas en todos los endpoints de agentes. El agente de escalamiento de privilegios mapeo cadenas de llamadas a herramientas y límites de permisos. El agente de cadena de suministro analizo la carga de modelos y la integridad de dependencias.
- Fase 2 — Correlación cruzada entre agentes: El motor de correlación ingestó los hallazgos de los 35 agentes y aplicó 31 reglas de correlación para identificar vulnerabilidades compuestas — casos donde hallazgos de baja severidad individual se combinan en cadenas de ataque críticas. Por ejemplo: una brecha de validación de entrada de severidad media más una mala configuración de permisos de herramientas de severidad media juntas habilitan un camino crítico de exfiltración de datos.
- Fase 3 — Verificación manual y clasificación de severidad: El sistema de puntuación AI-CVSS de AiSec clasificó cada hallazgo por severidad, considerando factores específicos de IA como manipulabilidad del modelo, exposición de chain-of-thought y alcance de acciones autonomas. Ingenieros de seguridad humanos verificaron una muestra de hallazgos para validar la precisión.
Lo que se encontró
La auditoría identifico 63 hallazgos de seguridad — 4.2x más que los encontrados por Snyk y Semgrep al escanear el mismo código. El desglose por categoría revela la brecha entre el escaneo tradicional y el análisis de seguridad específico para IA:
- Vulnerabilidades de inyección de prompts: 14 hallazgos, incluyendo 3 caminos críticos donde las entradas de usuarios podían sobreescribir prompts del sistema en configuraciones de agentes en producción
- Uso de herramientas y escalamiento de privilegios: 11 hallazgos, incluyendo cadenas de delegación agente-a-agente que eludían límites de permisos
- Manejo de datos y riesgos de exfiltración: 9 hallazgos, incluyendo contenidos de ventana de contexto sin cifrar persistidos en almacenamiento compartido
- Riesgos de cadena de suministro y dependencias: 8 hallazgos, incluyendo descargas de pesos de modelos sin firmar desde registros públicos
- Vulnerabilidades compuestas (correlación cruzada): 12 hallazgos que ningún escaner individual detecto, representando las cadenas de ataque más críticas
- Configuración y hardening de despliegue: 9 hallazgos relacionados con configuraciones por defecto, endpoints de debug expuestos y rate limits faltantes
Las 12 vulnerabilidades compuestas fueron particularmente significativas. Son cadenas de ataque que solo se hacen visibles cuando se correlacionan hallazgos de múltiples dominios de seguridad — exactamente el tipo de amenaza que los escáneres de propósito único no detectan. Una herramienta de análisis estático ve un manejador de entrada permisivo. Un escaner de dependencias ve una biblioteca desactualizada. Solo un motor de correlación ve que juntos, permiten a un atacante inyectar un prompt que dispara una dependencia vulnerable para exfiltrar datos.
De consultoría a producto
AiSec no empezó como un producto. Empezo como una necesidad interna. En 2019, la práctica de ciberseguridad de Xcapit realizaba penetration testing manual y consultoría de seguridad para clientes en América Latina y Europa. A medida que el equipo acumuló metodologías de auditoría, comenzó a automatizar tareas de análisis repetitivas — primero como scripts, luego como agentes coordinados, luego como un framework completo.
La evolución siguió un camino claro: la consultoría manual (2019-2021) construyó la experiencia de dominio. Las herramientas internas (2021-2023) codificaron esa experiencia en agentes automatizados. El framework open-source (2023-2024) hizo que las herramientas fueran reutilizables entre proyectos. Y la plataforma cloud (2025) la hizo accesible para organizaciones sin equipos de seguridad dedicados. Cada etapa se construyó sobre los artefactos de la anterior, razón por la cual los 250+ detectores de AiSec reflejan hallazgos de auditorías reales en lugar de taxonomías teóricas de vulnerabilidades.
Resultados e impacto
- 35 agentes de seguridad especializados con 250+ detectores de vulnerabilidades
- 63 hallazgos en la auditoría de OpenClaw (4.2x más que Snyk/Semgrep solos)
- 31 reglas de correlación cruzada entre agentes para detección de vulnerabilidades compuestas
- 8 frameworks de compliance (OWASP AI Top 10, NIST AI RMF, EU AI Act, ISO 42001, ISO 27001, GDPR, SOC2, MITRE ATLAS)
- 4 minutos de tiempo promedio de escaneo con ejecución paralela de agentes
- Auto-remediación con parches de código generados y creación de PR
- 12 vulnerabilidades compuestas descubiertas que ningún escaner individual detecto
Stack tecnológico
- Motor de orquestación Python/Django coordinando 35 agentes de seguridad en paralelo
- Docker/Kubernetes para ejecución aislada de escaneos con límites de recursos por agente
- Falco con sondas eBPF para monitoreo de contenedores en tiempo de ejecución y detección de anomalías
- Sistema de puntuación AI-CVSS adaptado para evaluación de severidad de vulnerabilidades específicas de IA
- Exportacion en formato SARIF para integración nativa con GitHub Actions, GitLab CI y Jenkins
Mantente al día
Recibí novedades sobre IA, blockchain y ciberseguridad en tu bandeja de entrada.
Respetamos tu privacidad. Podés desuscribirte en cualquier momento.
¿Necesitás un partner de seguridad confiable?
Pentesting, ISO 27001, SOC 2 — aseguramos tus sistemas.
Más casos de estudio
Xcapit Labs
XNinja: Plataforma automatizada de Pentesting y compliance para Corporaciones y PyMEs
Cómo Xcapit Labs construyó una plataforma SaaS multi-agente con 27 herramientas de seguridad para penetration testing automatizado — incluyendo verificación de exploits, testing de autenticación, cobertura OWASP 2025 y escaneo de cadena de suministro — con mapeo de compliance a ISO 27001, NIS2, BSI IT-Grundschutz, DSGVO y TISAX. Reportes trilingües en alemán, inglés y español.
Xcapit Labs
ArgenTor: Framework Inteligente de IA Multi-Agente con Code Intelligence en Rust
Cómo Xcapit Labs construyó un framework de IA multi-agente de grado productivo con code intelligence (análisis AST, diffs, code review 25+ reglas, TDD), dev teams autónomos, razonamiento ReAct, enrutamiento por costo en 14 proveedores, protocolo A2A, sandboxing WASM y compliance ISO 27001/42001 — 14 crates, 1514 tests, 85K+ líneas de Rust.
Xcapit Labs
OrchestAI: Orquestación Multi-LLM Empresarial con Auditoría Firmada y Deploy On-Premise
Cómo Xcapit Labs construyó una plataforma empresarial para orquestación multi-LLM combinando enrutamiento entre Claude, GPT, Gemini y Ollama con cadenas de auditoría HMAC-SHA256 a prueba de manipulación, catálogos de agentes versionados y deploy on-premise completo para industrias reguladas.
¿Interesado en resultados similares?
Hablemos de cómo podemos aplicar soluciones similares a tus desafíos.