Gemini 2.5 Pro es el mejor modelo de IA de la historia. El más inteligente. Al menos, ahora mismo. No lo digo yo, lo dice la clasificación de Chatbot Arena, una plataforma en la que se ejecutan diversas pruebas o benchmarks para tratar de medir la capacidad global de los modernos modelos de IA.
Según esas pruebas, en estos momentos Gemini 2.5 Pro Experimental, lanzado el pasado 25 de marzo, tiene una puntuación de 1.440 puntos, bastante por encima de GPT-4o (1.406), Grok 3 (1.404), GPT-4.5 (1.398) y desde luego que un DeepSeek R1 que a pesar de su fama está en séptimo lugar con una puntuación de 1.359 puntos.

La propia Google presumía de la capacidad de Gemini 2.5 Pro Experimental en el anuncio oficial. Como suele ocurrir en estos anuncios, las empresas muestran una tabla en las que comparan su rendimiento con el de otros modelos equiparables en distintas pruebas.
En casi todas ellas Google aplastaba a sus rivales en pruebas muy conocidas en este segmento. Está por ejemplo el Humanity's Last Exam (conocimientos generales y razonamiento), GPQA diamond (ciencia), AIME 2025 (matemáticas), LiveCodeBench v5 y SWE-bench verified (programación) o MMMU (razonamiento visual).
Todos esos benchmarks tratan de medir la capacidad de estos modelos en ámbitos más o menos específicos, y todos ayudan a demostrar que los modelos, efectivamente, van mejorando. Y sin embargo ninguno de ellos responde a la pregunta fundamental:
¿Es la IA tan inteligente como el ser humano?
Ahí está lo realmente complicado, porque la definición de inteligencia tampoco es del todo clara. Hay distintos tipos de inteligencia, de hecho, y medirlas en humanos tampoco es sencillo o siquiera posible. Y comparar la capacidad de una IA con la capacidad de una inteligencia humana tampoco suele ser nada fácil.
Algunos expertos se preguntan si los laboratorios de IA no estarán haciendo trampas con los benchmarks
Hay de hecho quien argumenta que el progreso de los modelos de IA es engañoso. Lo hacía recientemente Dean Valentine, de la startup ZeroPath. Él y su equipo crearon un sistema de IA que analiza grandes proyectos de código en busca de problemas de seguridad. Con Claude 3.5 Sonnet notaron un gran salto, pero a partir de ahí las posteriores versiones les han parecido mucho menos llamativas.
De hecho, este experto apuntaba a que hoy en día muchas de las empresas que lanzan estos modelos se centran demasiado en salir bien en la foto de los benchmarks existentes y más populares y en "sonar inteligentes" en las conversaciones con los seres humanos. Se pregunta si los laboratorios de IA están haciendo trampas y mintiendo: para él la evolución que muestran los benchmarks no se corresponde con los beneficios reales al usarlos.
FrontierMath y el reto de resolver problemas que (casi) nadie ha resuelto
Pero hay intentos de responder a esa pregunta. Uno de ellos proviene del equipo que desarrolla el proyecto ARC-AGI 2, un conjunto de pruebas que se derivan de la paradoja de Moravec: son relativamente fáciles para el ser humano, pero muy difíciles para los modelos de IA.

Dichas pruebas miden la capacidad de generalización y razonamiento abstracto con puzzles visuales, y sin duda son parte interesante de ese esfuerzo por valorar hasta dónde hemos llegado en cada momento con los modelos de IA.
Otra de las pruebas más llamativas de los últimos tiempos es FrontierMath. Este benchmark creado por la empresa EpochAI consiste en unos 300 problemas matemáticos de distinto nivel.
Han sido diseñados por un equipo de más de 60 matemáticos entre los cuales está Terence Tao, ganador de la medalla Fields. Aunque hay algunos problemas más asequibles, el 25% de ellos están calificados como especialmente complejos. De hecho, solo los mejores expertos podrían resolverlos, y tardarían incluso días en hacerlo.
Este conjunto de pruebas es además especial por otro aspecto: se trata de problemas no publicados y que por tanto no han sido parte de los conjuntos de entrenamiento de ningún modelo de IA. Para resolverlos las máquinas necesitan desde luego ser capaces de mostrar una "inteligencia matemática" especial. Una que ayuda precisamente a algo cada vez más difícil: valorar la evolución de estos modelos.
En Xataka hemos podido hablar con Jaime Sevilla (@Jsevillamol), que precisamente es el CEO de EpochAI y tiene una visión muy clara y personal sobre cómo deben ser las pruebas para medir la capacidad de un modelo de IA.
Para empezar, señala, "necesitas tener una manera de medir como esta avanzando la IA. Interactuar con ella te puede dar perspectiva, pero no tienes una impresion rigurosa de hasta donde va a llegar y en qué dominios es mas experta".

Eso, explica, hace necesario tener baterías de pruebas estandarizadas que permitan que nos formemos una idea de sus competencias. Para este experto el benchmark ARC-AGI es mas representativo de esa otra visión, hacer un benchmark fácil para los humanos pero difícil para la IA.
Los modelos van mejorando en ARC-AGI, pero para él eso era algo obvio y que tenía que pasar. Con el suyo las pruebas son difíciles para unos y otros, y que los modelos avancen y sean cada vez mejores a la hora de resolver dichos problemas no es tan obvio.
Así, con FrontierMath quisieron "intentar medir si la IA puede resolver problemas genuinamente difíciles". Hasta ahora los problemas matemáicos a los que se sometía a los modelos de IA eran relativamente fáciles, así que los modelos "saturaban los benchmarks", es decir, pronto lograban superar todas esas pruebas y lograr un 100% de puntuación. "Va a ser un reto para la IA saturar este benchmark", destacaba.
Aquí ponía un ejemplo con el modelo o3-mini de OpenAI, que resuelve ya un 10% de FrontierMath. No es mucho, pero es brutal, asegura, y ya ha superado a matemáticos expertos como él mismo. Sin embargo, asegura,
"Que la IA supere ciertos benchmarks no significa que pueda operar como un experto humano. Hay que ajustarlos porque están ajustados a escenarios muy concretos. Estamos midiendo esos limites de esa ia, y eso va a ser un proceso continuo".
Para Sevilla hay un área especialmente importante en la que medir ese rendimiento: en el comportamiento agéntico de la IA. En su capacidad de hacer trabajo remotamente y de forma autónoma. Aquí los ejemplos más claros de sistemas que logran esto son Computer Use, de Anthropic, y Operator, de OpenAI.
Aquí existe un benchmark especialmente destacable que es OSWorld. Trata de medir si efectivamente estos agentes de IA pueden resolver tareas, aunque "de momento es muy básico", asegura Sevilla. Eso no importa, porque como señala, es la evolución habitual de estos desarrollos.
"El ciclo de benchmark al principio no resuelve nada" explica Sevilla. "Luego hay un punto en que empieza a hacer algo, y ahí entras en la parte lineal de la sigmoide, ahí ves mejoras relativamente predecibles, conforme los modelos escalan ves mejoras hasta que el benchmark se satura".
También le preguntamos por el debate sobre el escalado y si ahora mismo dedicar más dinero, más GPU y más datos a entrenar modelos de IA tiene sentido. En los últimos tiempos se habla de cómo los modelos de IA ya no avanzan tanto aparentemente, pero para él la estrategia de escalado sigue teniendo mucho sentido.
"Siempre hemos asimilado que necesitamos dedicar muchísimos recursos para las mejoras", comentaba. Él y su equipo en Epoch AI han observado cómo la relación histórica entre recursos dedicados y mejora obtenida era "la que esperábamos", aunque sí que indica que esa mejora "tal vez ha sido un poco decepcionante en modelos sin razonamiento", donde el avance no ha sido tan claro.
Si embargo, destaca, "Alphago ya usaba más tiempo de inferencia, se veía que el razoiamiento funciona". En su opinión "no tenemos suficientes evidencias que demuestren que las tendencias de escalado estén muertas. Si entrenas con más cómputo vas a obtener mejores resultados", concluye.
"La IA no piensa como nosotros"
Si hay una cosa clara para este experto es que "es evidente que la IA no piensa como nosotros. Nos da mil vueltas en conocimientos de medicina o biología, por ejemplo, y está logrando avances notables en ámbitos como matemáticas o programación". Sin embargo, explica, "no es tan bueno en jugar a Pokémon, por ejemplo".

Para Sevilla "lo que yo veo es que va avanzando en otras cosas. La comparativa con la inteligencia humana no es exacta porque los campos en los que la IA mejorará son campos en los que el ser humano no ha evolucionado. Creo que la IA mejorará mucho más rápido en matemáticas o ingenería que en robótica o control motriz, por ejemplo".
Sevilla citaba un estudio reciente de Metr en el que se intentaba medir la capacidad de la IA en términos de la longitud de las tareas que la IA podía completar. Sus conclusiones revelaban cómo hay una tendencia clara que señala que los modelos de IA están mejorando de forma previsible.

En esa gráfica del estudio de Metr se mide "la duración de las tareas (medida por el tiempo que tardan los profesionales humanos) que los agentes de IA pueden completar con un 50% de fiabilidad. Esa duración se ha duplicado aproximadamente cada 7 meses durante los últimos 6 años".
Y como señalan, "incluso si las mediciones absolutas se desvían en un factor de 10, la tendencia predice que en menos de una década veremos agentes de IA capaces de completar de forma independiente una gran parte de las tareas de software que actualmente llevan a los humanos días o semanas".
"La IA no solo regurgita lo que ha aprendido durante el entrenamiento, sino que los combina de forma novedosa".
Hay otro debate del que quisimos rescatar la opinión de Jaime Sevilla. Se trata de esa afirmación que también lleva tiempo discutiéndose: las IAs no generan nuevo conocimiento, solo combinan todos los datos con las que que han sido entrenadas para "regurgitar" sus respuestas.
Sevilla reía al hablar sobre esto y nos preguntaba "¿qué creéis que es la inteligencia?" Para él eso es también lo que hacemos los seres humanos. De hecho, asegura, FrontierMath precisamente demuestra que la IA "no solo regurgita lo que ha aprendido durante el entrenamiento, sino que los combina de forma novedosa".
Su conclusión era además muy optimista sobre el futuro de la IA. Al ritmo que está evolucionando y con los recursos que se están dedicando, su visión es clara: "entre gpt-2 y gpt-4 hay una diferencia de 10.000 veces más cómputo", y eso supuso una mejora de prestaciones extraordinaria entre ambos modelos.
Estamos siguiendo esa misma línea de recuros dedicados, así que según él "para final de la década estaremos viendo un salto similar" entre GPT-4 y lo que tengamos cuando acabe ese plazo". No habló específicamente de AGI, pero sí dejó claro que el avance va a ser igualmente espectacular. Y ahí estarán benchmarks como FrontierMath para mostrarnos ese salto.
Ver 4 comentarios
4 comentarios
Miguel
Amazon y BMW ya han empezado a usar humanoides. Quizás a los 10 años haya avances increibles pero en menos de 5 años yo creo que vamos a ver McDonals, Burger Kings, etc, etc,... atendidos por humanoides.
P.D.: Artículo superinteresante Javier.
rafaello76
Al no tener un modelo exacto del funcionamiento de la mente humana, hacer paralelismos resulta poco predictivo.
Es cierto que tanto el hombre como la máquina, les cuesta o fallan en tareas para los que no han sido entrenados. Y dicen algunos que las IAs están hechas para pasar tests (benchmarks), pero que no resultan tan productivos como nos quieren hacer creer a la hora de la verdad.
Es un tema interesante. Quién sabe si los humanos nos quedaremos obsoletos en inteligencia pronto. Si a las máquinas puedes enseñarlas 1 vez en menos tiempo y luego recuerdan siempre y pueden razonar mucho más rápido, pues quizás dejaremos de ser lo más inteligente. Pero eso es algo a lo que nos hemos acostumbrado. Sobre todo como programadores y la obsolescencia de las herramientas y filosofías de programación.