Cuando empecé a trabajar en ciberagentes autónomos en 2020, el plazo para su implementación en el mundo real aún se medía en décadas. En ese momento, estos sistemas se consideraban apuestas a largo plazo: mejoras interesantes pero, en su mayoría, especializadas para cualquier aplicación a corto plazo.
Entonces, algo cambió.
Si bien la IA generativa (GenAI) no fue un acontecimiento único, desencadenó una cascada continua de avances que, a día de hoy, hacen que los plazos de desarrollo se desplomen a un ritmo cada vez más rápido. No se trata solo de mover la meta; la ola impulsada por la GenAI se lleva implacablemente por delante los antiguos puntos de referencia y redefine la frontera de lo posible, más rápido de lo que nunca antes habíamos visto. Las capacidades que antes estaban reservadas a la investigación a largo plazo se están integrando ahora en entornos reales a una velocidad asombrosa.
De forma asombrosa, pero no sorprendente, los sistemas con agentes se están integrando en innumerables lugares (flujos de trabajo de las empresas, procesos de toma de decisiones e incluso infraestructuras críticas) a menudo antes de que hayamos establecido cómo controlarlos o protegerlos. Parece que pasó una vida desde el año 2020 si tenemos en cuenta que ya no nos estamos preparando para la llegada de la IA con agentes, sino respondiendo a su continua y rápida evolución.
Un artículo para un objetivo móvil
El informe del taller del que soy coautora, Lograr un ecosistema seguro de agentes de IA, es el resultado de un esfuerzo interinstitucional para dar sentido a esta aceleración. Elaborado en colaboración con RAND, Schmidt Sciences y los principales expertos industriales, gubernamentales y académicos en IA con agentes, el artículo no ofrece soluciones mágicas, sino más bien una forma diferente de concebir y abordar la IA con agentes.
El quid del artículo esboza tres pilares fundamentales de seguridad para los agentes de IA y sugiere en qué punto podrían fallar nuestras suposiciones actuales, así como la infraestructura, a medida que evolucionan estos sistemas. Más allá del simple reconocimiento de las realidades actuales, esto aboga por un profundo cambio de mentalidad: Debemos reconocer que la era de los sistemas con agentes ya está aquí. Por consiguiente, la protección de estos sistemas no es un problema para el futuro. Hoy es un desafío urgente que se intensifica por el ritmo incesante de la innovación, la escala cada vez mayor, los riesgos desiguales para los primeros en adoptarlos y la marcada asimetría entre las capacidades de ataque y los objetivos de defensa.
Uno de los desafíos a la hora de proteger los agentes de IA es que estos sistemas no parecen ni se comportan como el software tradicional. Son dinámicos, están en evolución y son cada vez más capaces de tomar decisiones con una supervisión mínima. Algunos están diseñados específicamente para automatizar tareas como programar o clasificar el correo electrónico; otros están avanzando lentamente hacia una acción totalmente autónoma en entornos de alto riesgo. En cualquiera de los casos, los marcos que utilizamos para proteger las aplicaciones tradicionales no son suficientes. Nos encontramos con problemas que no son simplemente variaciones de vulnerabilidades conocidas, sino que son fundamentalmente nuevos. La superficie de ataque ha cambiado.
Tres pilares para la seguridad de los agentes de IA
Este cambio de mentalidad es la razón por la que el panorama de la seguridad se ha organizado en torno a tres preocupaciones centrales:
- Proteger a los agentes de IA de las vulneraciones de terceros: cómo proteger a los propios agentes de IA para que no sufran el control ni la manipulación de atacantes externos.
- Proteger a los usuarios y las organizaciones de los propios agentes: cómo garantizar que los agentes de IA, incluso cuando operan según lo previsto o si funcionan mal, no perjudiquen a sus usuarios o a las organizaciones a las que brindan servicios.
- Proteger los sistemas críticos de los agentes maliciosos: cómo defender las infraestructuras y los sistemas esenciales frente a agentes de IA diseñados e implementados intencionadamente para causar daños.
Estas categorías no son estáticas: son puntos a lo largo de un espectro de capacidad y madurez en materia de amenazas. En la actualidad, la mayoría de las organizaciones que implementan agentes se enfrentan a las dos primeras preocupaciones. Pero la tercera, los adversarios maliciosos y autónomos, ocupa un lugar preponderante. Los Estados nación fueron de los primeros en invertir en ciberagentes autónomos. Es posible que no estén solos por mucho tiempo.
Por lo tanto, explorar esta nueva era de amenazas autónomas potentes y generalizadas exige mucho más que ajustes graduales de las defensas existentes. Requiere un cambio fundamental en la forma en que nuestras comunidades de expertos deben colaborar e innovar en materia de seguridad.
Históricamente, los investigadores de IA y los profesionales de la ciberseguridad a menudo han operado en paralelo con suposiciones diferentes sobre el riesgo y la arquitectura. Sin embargo, la compleja frontera de la seguridad de la IA con agentes exige su esfuerzo unificado, ya que ninguna comunidad puede abordar estos inmensos desafíos de forma aislada, por lo que es primordial una colaboración profunda y sostenida. Y, si bien los protocolos universales y las prácticas recomendadas integrales para todo este campo todavía están madurando, la idea de que los productos llave en mano eficaces para proteger a los agentes son escasos sinceramente se está quedando obsoleta. Las soluciones sofisticadas y con capacidad de implementación ofrecen ahora una protección vital y especializada para los sistemas con agentes críticos, lo que supone un progreso tangible. Esto subraya aún más la urgente necesidad de contar con estrategias de seguridad adaptables y de múltiples capas que abarquen la procedencia del modelo, la contención sólida y los controles resistentes con intervención humana, todas ellas en una evolución tan rápida como los propios agentes.
Intervenciones al alcance de la mano
Si bien las soluciones de producto sólidas y en evolución son cada vez más cruciales a la hora de mitigar los riesgos operativos inmediatos que plantea la IA con agentes, lograr una seguridad integral a largo plazo también requiere una inversión específica de todo el sector en capacidades fundamentales y un entendimiento compartido. Varias de estas indicaciones clave, que complementan la innovación de productos, están a nuestro alcance colectivo y justifican un esfuerzo específico.
Por ejemplo, se prevé una especie de “lista de materiales de los agentes”, elaborada en función de la “lista de materiales de software”, que ofrezca visibilidad de los componentes de un agente, como su modelo, sus datos de entrenamiento, sus herramientas y su memoria. Sin embargo, su viabilidad funcional se enfrenta actualmente a obstáculos, como la falta de un sistema común de identificadores de modelos, fundamental para esa transparencia.
Además, los bancos de pruebas estandarizados y previos a la implementación podrían permitir evaluaciones escalables basadas en casos de ejemplo antes de que los agentes se liberen en entornos de producción. Están surgiendo protocolos de comunicación como el protocolo de contexto de modelo (MCP) y el de agente a agente (A2A), pero pocos incorporan la seguridad desde el principio. Sin embargo, incluso cuando las medidas de seguridad se integran desde el principio, la prevalencia de “incógnitas desconocidas” en estos nuevos sistemas con agentes significa que estos protocolos requerirán una evaluación rigurosa y continua para mantener su integridad y seguridad.
Uno de los enfoques que nuestro artículo trata de abordar es el desafío crítico de que la memoria de un agente, aunque esencial para que aprenda, mejore y, sobre todo, evite repetir errores pasados, es también una vulnerabilidad significativa que puede ser objeto de manipulación maliciosa. La estrategia consiste en utilizar instancias de agentes “clonados en el lanzamiento” o de tareas específicas. En este modelo, los agentes diseñados para tareas operativas concretas o interacciones de duración limitada tratan su memoria de trabajo activa como efímera. Una vez finalizada su tarea o sesión específica, estas instancias pueden retirarse, con nuevas operaciones gestionadas por instancias nuevas que se inician a partir de una línea de base segura y de confianza.
Esta práctica tiene como objetivo reducir significativamente el riesgo de corrupción persistente de la memoria o los efectos prolongados de la manipulación que podría ocurrir dentro de una sola sesión. Sin embargo, es primordial que un sistema de este tipo esté meticulosamente diseñado para garantizar que los conocimientos básicos de un agente y las lecciones aprendidas a largo plazo no solo se mantengan de forma segura y se protejan contra la manipulación, sino que también sean accesibles de forma eficaz y segura para informar a estas instancias operativas más transitorias. Si bien la gestión de los estados operativos de esta manera no es una solución integral para todas las amenazas relacionadas con la memoria, representa el tipo de pensamiento creativo a nivel de sistemas necesario para avanzar en la seguridad de los agentes y la contención sólida.
Un llamamiento al compromiso compartido
En última instancia, la protección de la IA con agentes no procederá de un único avance, sino de un esfuerzo sostenido de múltiples partes interesadas. Esto incluye a investigadores, legisladores, profesionales y líderes del sector que trabajan juntos en todas las disciplinas. Las amenazas son tanto tecnológicas como fundacionales. Intentamos proteger sistemas que aún no comprendemos del todo. Pero si hay algo que los últimos años han dejado claro, es lo siguiente: esperar a actuar hasta que el panorama esté completo significa actuar demasiado tarde.
La evolución de la IA con agentes significa que nuestro sector está desarrollando salvaguardas críticas al mismo tiempo que su adopción generalizada. Este desarrollo simultáneo no es intrínsecamente una crisis, sino un claro llamamiento a la responsabilidad colectiva. Nuestro éxito en este empeño depende de un compromiso compartido por el sector para construir estos elementos fundamentales con transparencia, normas rigurosas y una visión unificada de un ecosistema de IA digno de confianza.
Lea el artículo completo: Lograr un ecosistema seguro de agentes de IA.