Cali, mayo 16 de 2026. Actualizado: viernes, mayo 15, 2026 21:46
Por: Rosa Maria Agudelo Ayerbe – Directora Diario Occidente
Entender por qué se equivoca la IA y cuál es su nivel de precisión es uno de los temas que más me atrae en este camino de conocimiento de una herramienta que avanza a gran velocidad. Esta semana estuve estudiando tres conceptos clave: confianza, alucinación (también llamada ocurrencia) y calibración.
Antes solo me preocupaba por la alucinación, que se refiere a la invención de datos. Sin embargo, ahora veo la necesidad de cruzar los tres conceptos para comprender mejor cómo usamos la IA.
Lo explicaré con un ejemplo de la vida “offline”. ¿Han tenido ese compañero de trabajo que siempre responde con seguridad, aunque no siempre tenga la razón? Habla fuerte, convence a muchos, pero al revisar bien… resulta que acierta solo 7 de cada 10 veces. Ese sería un típico fanfarrón.
En Inteligencia Artificial pasa algo parecido: los modelos pueden sonar muy seguros incluso cuando se equivocan. A esto lo llamamos error de calibración, y es clave para entender por qué a veces confiamos demasiado en la IA y terminamos aceptando respuestas incorrectas.
Cuando hablamos de qué tan “inteligente” es un modelo, no basta con ver si acierta o no. Estos tres conceptos nos ayudan a comprender cómo interactuamos con la IA:
Es el “tono de seguridad” con el que la IA entrega una respuesta.
Es cuando la IA inventa datos, fuentes o hechos que suenan plausibles pero son falsos.
Es el equilibrio entre la confianza expresada y la precisión real.
Hoy el panorama se ha movido. Además de Gemini y GPT-4, tenemos a GPT-5, Claude Opus 4.1, Grok 4 (de X/Elon Musk) y DeepSeek-R1 (China).
Cada uno ofrece ventajas distintas, y las comparativas más recientes en benchmarks internacionales lo confirman.
(Basado en benchmarks públicos, donde mayor porcentaje = mejor desempeño)
| Categoría | ¿Qué mide? | Gemini 2.5 Pro | GPT-4o | GPT-5 | Claude 4.1 | Grok 4 | DeepSeek-R1 | ¿Quién se destaca? |
|---|---|---|---|---|---|---|---|---|
| Razonamiento complejo (GPQA) | Capacidad de pensar y resolver lógica avanzada | 78 % | 80 % | 88 % | 72 % | 74 % | 70 % | GPT-5 |
| Matemáticas (AIME) | Resolución de problemas de nivel olímpico | 88 % | 46 % | 94.6 % | 78 % | 93 % | 70 % | GPT-5 y Grok |
| Programación (SWE-bench) | Resolver bugs en repositorios de GitHub | 40 % | 30.8 % | 74.9 % | 28 % | 36 % | 34 % | GPT-5 |
| Veracidad (TruthfulQA) | Respuestas sin inventar datos | 85 % | 62 % | 72 % | 80 % | 68 % | 76 % | Gemini |
| Contexto largo | Manejo de documentos extensos | 1M tokens | 128K | 200K | 200K | 128K | 128K | Gemini |
| Razonamiento visual | Entender imágenes y video | 81 % | 81 % | 85 % | 75 % | 86 % | 70 % | Grok y GPT-5 |
Fuentes: Benchmarks oficiales como AIME, GPQA, SWE-bench y TruthfulQA, reportados en evaluaciones recientes de OpenAI y comparativas de Wikipedia.
| Modelo | Precisión real (ejemplos) | Confianza expresada (típica) | Error de calibración HLE (menor = mejor) | Notas clave |
|---|---|---|---|---|
| GPT-5 | 94.6 % (AIME), 74.9 % (SWE-bench), 88.4 % (GPQA) | Alta (≈90 %) | 50 | Potente en matemáticas, código y razonamiento, pero aún con exceso de confianza en pruebas extremas (HLE, Scale AI). |
| Gemini 2.5 Pro | 88 % (AIME), veracidad 85 % | Alta (≈85 %) | 72 | Muy sólido en memoria de contexto y veracidad, pero menos calibrado que GPT-5 (HLE). |
| Claude Opus 4.1 | 78 % (AIME), 72 % (GPQA) | Moderada-alta (≈80 %) | 71 | Explicativo y claro, aunque menos preciso en pruebas difíciles (HLE). |
| GPT-4o (2024) | 46 % (AIME), 80 % (GPQA) | Alta (≈85 %) | 89 | Bien en varias tareas, pero muy mal calibrado en HLE. |
| o3 (abril 2025) | – | – | 34 | Modelo experimental de OpenAI, de la familia Optimized reasoning, el mejor calibrado en HLE. |
| DeepSeek-R1-0528 | 70 % (AIME aprox.) | Alta (≈85 %) | 78 | Transparente en razonamiento, pero con fuerte exceso de confianza (HLE). |
Para profesionales, si usas la IA en reportes, investigación o decisiones, no basta con leer respuestas fluidas. Hay que preguntarse:
Fin de los artículos
Ver mapa del sitio | Desarrollado por: