Científicos de Google presentan una nueva forma de seleccionar datos para entrenar modelos de IA más eficientes y precisos

GIST, el algoritmo que revoluciona el entrenamiento de inteligencia artificial con menos pero mejores datos

martes 27 de enero, 2026

La inteligencia artificial (IA) está en constante evolución y, con ella, los modelos que la hacen posible, como los grandes modelos de lenguaje (LLMs por sus siglas en inglés) o los sistemas de visión por computadora.

Sin embargo, para que estos modelos sean precisos, necesitan ser entrenados con cantidades enormes de datos, lo que puede ser muy costoso y lento.

Aquí es donde entra GIST, un nuevo algoritmo creado por investigadores de Google, que promete solucionar este problema de forma inteligente.

¿Por qué es difícil “seleccionar los mejores datos”?

Imagina que tienes un conjunto gigantesco de fotos y quieres elegir solo unas pocas para entrenar a un modelo de IA que reconozca imágenes.

La pregunta es: ¿Cómo escoger un pequeño grupo que realmente represente la variedad y la calidad de todo el conjunto, para que el modelo aprenda bien y no se confunda?

Este reto implica dos cosas muy importantes:

Diversidad: Los datos que elijas deben ser variados, para que el modelo no aprenda lo mismo una y otra vez con datos muy similares (por ejemplo, muchas fotos casi idénticas de un perro golden retriever).
Utilidad: Los datos escogidos deben ser útiles, es decir, realmente relevantes para que el modelo realice bien su tarea (por ejemplo, imágenes claras y representativas de distintas clases de objetos).

Tradicionalmente, lograr equilibrar esta “diversidad” y “utilidad” ha sido un problema muy complicado para los expertos, básicamente porque seleccionar la mejor combinación de datos es una tarea matemática muy compleja.

Por eso, muchas veces los modelos se entrenan con miles o millones de datos sin un análisis tan fino, haciendo que el proceso sea lento y costoso.

¿Cómo funciona GIST?

GIST (Greedy Independent Set Thresholding) es un algoritmo inteligente que aborda este desafío dividiéndolo en partes más simples para luego combinar soluciones aproximadas, y lo que es más importante, garantizando matemáticamente que la selección será muy buena, aunque no sea la “perfecta”.

Paso 1: Definir un criterio mínimo de diversidad

GIST establece un “umbral” para que la distancia entre los datos elegidos sea suficientemente grande, evitando datos muy parecidos.

Por ejemplo, en un grupo de fotos, no seleccionará dos demasiado similares.

Paso 2: Selección inteligente con reglas estrictas

Después, GIST elige los datos más valiosos que cumplan con ese criterio de diversidad, utilizando un método tipo “fiesta donde ciertos invitados no pueden sentarse juntos”.

El algoritmo examina muchas posibilidades y escoge la que maximiza el valor de los datos sin repetir información.

Paso 3: Encontrar el mejor balance con un sistema de prueba y error controlado

GIST repite este proceso variando el límite de diversidad, para encontrar el punto óptimo que mezcle variedad y utilidad. Así, garantiza que la selección resultante sea al menos la mitad de buena que la mejor opción posible, un logro muy importante en el campo del aprendizaje automático.

Resultados que impactan el día a día

En pruebas con sistemas de reconocimiento de imágenes y modelos populares como ResNet-56 y bases de datos como ImageNet (que contiene millones de imágenes), GIST pudo elegir subconjuntos de datos que permiten un entrenamiento más rápido y con mejor precisión que las técnicas anteriores.

Esto es especialmente valioso porque el entrenamiento de modelos puede durar horas o días; si se reduce el volumen de datos sin perder calidad, se ahorra tiempo y recursos.

Además, la selección de datos con GIST es muy rápida, lo que facilita su uso en sistemas que manipulan big data (datos muy grandes), como los servicios de YouTube, donde mejorar la diversidad de recomendaciones incrementó el interés y satisfacción de los usuarios.

¿Por qué es relevante para ti?

En el mundo digital actual, la IA está detrás de los servicios que usamos a diario: desde los motores de búsqueda, recomendaciones de videos y música, hasta el reconocimiento facial y asistentes virtuales.

GIST representa un paso adelante para que los sistemas de IA sean más eficientes, aprendan más rápido y con menos necesidad de datos masivos, lo cual puede traducirse en tecnologías más asequibles y rápidas para todos.

Este avance muestra cómo la investigación en inteligencia artificial no sólo se trata de crear máquinas más inteligentes, sino también de usar los recursos de forma más inteligente para mejorar la tecnología que nos rodea.

Nota de Transparencia

Esta nota fue generada 100% con IA. La fuente fue aprobada por Diario Occidente y el contenido final fue revisado por un miembro del equipo de redacción.

Sello IA