Seguridad y control en asistentes de IA

Anthropic detalla cómo hacer agentes de IA confiables

sábado 18 de abril, 2026

Inicio

Un empleado que pide a su asistente de IA que gestione gastos espera que el sistema haga el trámite sin errores y sin enviar información sensible por equivocación.

Esa fricción cotidiana —autonomía útil frente al riesgo de errores— es el problema que Anthropic aborda en su informe.

Qué ocurrió

Anthropic publicó el 9 de abril de 2026 un informe sobre cómo construir “agentes” de IA fiables.

La empresa explica cómo sus productos, como Claude Code y Claude Cowork, combinan controles de usuario, entrenamiento del modelo y medidas de seguridad para reducir acciones no deseadas.

El documento actualiza un marco publicado el año anterior y presenta ejemplos prácticos en los que sus agentes planifican tareas, piden permiso cuando dudan y actúan sobre múltiples aplicaciones hasta completar un trabajo.

Qué cambia en la práctica

Decidir qué puede tocar el asistente

Los usuarios podrán elegir qué herramientas activa el asistente y qué permisos concede: por ejemplo, permitir siempre leer el calendario pero exigir aprobación para enviar invitaciones. Esa configuración evita que el agente haga tareas sensibles sin autorización.

Revisar el plan antes de ejecutar

En Claude Code, una opción llamada Plan Mode muestra la secuencia completa de acciones prevista.

El usuario revisa, corrige y aprueba el plan una sola vez en lugar de confirmar paso a paso, lo que acelera tareas complejas sin perder control.

Menos riesgo de instrucciones maliciosas

Anthropic combina entrenamiento para detectar “prompt injections” (órdenes maliciosas ocultas), monitoreo en producción y pruebas por equipos externos.

Además donó un protocolo abierto para integrar herramientas, lo que busca reducir integraciones inseguras y errores al conectar servicios.

Cómo funciona

Un agente funciona como un asistente humano que planifica, actúa, revisa el resultado y ajusta el plan hasta terminar la tarea.

Ese proceso depende de cuatro capas: la “inteligencia” del modelo, las reglas que se le dan, las herramientas a las que puede acceder y el entorno en que opera.

Lo que no está resuelto

Las defensas no garantizan ausencia total de errores o ataques. La efectividad depende de cómo las empresas configuren permisos, qué datos y herramientas expongan y de pruebas externas aún por estandarizar.

Falta un método independiente y uniforme para comparar resistencia y transparencia entre sistemas.

Cierre

La propuesta de Anthropic deja claro que la automatización de tareas con agentes va acompañada de diseño de controles y normas abiertas.

Para que la herramienta sea segura en más empresas serán claves las reglas compartidas y la supervisión humana constante.

Por qué importa

Impacto en negocio: Reduce errores costosos y acelera procesos si las empresas configuran bien permisos.
Impacto en usuarios: Ofrece más control sobre lo que hace la IA y menos confirmaciones repetitivas.
Impacto en industria: Promueve estándares abiertos y evaluaciones externas para integrar agentes con menos riesgo.

Nota de Transparencia

Esta nota fue generada 100% con IA. La fuente fue aprobada por Diario Occidente y el contenido final fue revisado por un miembro del equipo de redacción.

Sello IA

🔊 El Resumen de Noticias sobre Inteligencia Artificial e Innovación Tecnológica, aquí 👇🏻

Curaduría editorial

La curaduría y revisión editorial de estas notas está a cargo de Rosa María Agudelo Ayerbe, comunicadora social y periodista, con maestría en Transformación Digital y especialización en Inteligencia Artificial.

Desde su rol como líder del equipo de innovación y transformación digital del Diario Occidente, y a través de la unidad estratégica DO Tech, realiza un seguimiento permanente a las principales novedades en tecnología e inteligencia artificial a nivel global.

Estas notas se apoyan en un agente de investigación basado en inteligencia artificial, diseñado para monitorear semanalmente avances, lanzamientos y debates clave del sector.

El contenido es posteriormente leído, analizado, contextualizado y validado editorialmente antes de su publicación.

Este proceso forma parte del mecanismo de actualización continua que permite interpretar los desarrollos tecnológicos desde una mirada periodística, crítica y comprensible para audiencias no especializadas.