Cali, abril 26 de 2026. Actualizado: viernes, abril 24, 2026 22:05
Un desarrollador intenta entrenar un modelo para detectar fraudes en llamadas, pero no hay ejemplos reales suficientes y usar datos de usuarios plantea riesgos de privacidad.
Esa falta de datos impide lanzar mejoras y obliga a esperar incidentes reales para arreglar fallos.
El 16 de abril de 2026, investigadores de Google presentaron Simula, un marco para crear datos sintéticos a gran escala.
Los autores principales son Tim R. Davidson y Hamza Harkous. Datos sintéticos significa ejemplos generados por máquinas que imitan situaciones reales para entrenar modelos de inteligencia artificial sin usar datos reales de personas.
Más ejemplos para casos raros
Simula permite generar escenarios poco habituales (por ejemplo, ataques de seguridad o casos legales complejos).
Para el usuario final esto se traduce en modelos que reconocen estafas o errores poco comunes sin esperar a que ocurran en el mundo real.
Al tratar los datos como código versionado, los equipos pueden reproducir y ajustar conjuntos de entrenamiento de forma ordenada.
Esto reduce el tiempo entre detectar un fallo y desplegar una corrección en servicios como filtros de spam o detección de llamadas.
Al generar ejemplos en vez de recopilar casos reales, las empresas pueden entrenar modelos para ámbitos sensibles (salud, legalidad) sin exponer datos personales, lo que facilita el cumplimiento de normas y reduce riesgos legales.
Simula trabaja como un diseñador de menús: primero crea un mapa detallado del tema (una taxonomía), luego genera variantes de cada plato (escenarios) y decide qué porción debe ser más compleja.
Finalmente, dos revisores automáticos verifican que las respuestas sean correctas. Ese proceso permite controlar cobertura, variedad, dificultad y calidad del conjunto de datos.
No existe una fórmula única. En pruebas con distintos temas, Simula mejoró modelos en varios casos, pero en algunos (p. ej. pruebas legales) el aumento de complejidad empeoró resultados cuando el modelo “maestro” era débil. Además, evaluar qué tan “útil” es un conjunto sintético sigue siendo difícil y depende de la implementación.
Simula muestra que la generación de datos puede convertirse en un proceso controlado y reproducible.
Es un paso hacia IA más especializada y proactiva, capaz de prepararse para casos nuevos y proteger mejor la información sensible.
Esta nota fue generada 100% con IA. La fuente fue aprobada por Diario Occidente y el contenido final fue revisado por un miembro del equipo de redacción.


La curaduría y revisión editorial de estas notas está a cargo de Rosa María Agudelo Ayerbe, comunicadora social y periodista, con maestría en Transformación Digital y especialización en Inteligencia Artificial.
Desde su rol como líder del equipo de innovación y transformación digital del Diario Occidente, y a través de la unidad estratégica DO Tech, realiza un seguimiento permanente a las principales novedades en tecnología e inteligencia artificial a nivel global.
Estas notas se apoyan en un agente de investigación basado en inteligencia artificial, diseñado para monitorear semanalmente avances, lanzamientos y debates clave del sector.
El contenido es posteriormente leído, analizado, contextualizado y validado editorialmente antes de su publicación.
Este proceso forma parte del mecanismo de actualización continua que permite interpretar los desarrollos tecnológicos desde una mirada periodística, crítica y comprensible para audiencias no especializadas.

Fin de los artículos
Ver mapa del sitio | Desarrollado por: