Un equipo internacional de científicos ha comprobado que la inteligencia artificial (IA) continúa cometiendo errores cuando se enfrenta a preguntas que requieren razonamiento conceptual profundo y no una simple búsqueda de información, lo que evidencia que aún no iguala el pensamiento humano en tareas académicas complejas.
Según informó este jueves la Universidad de Granada (UGR), la investigación tuvo como objetivo determinar si los actuales grandes modelos de lenguaje (LLM, por sus siglas en inglés) poseen una capacidad real de resolución creativa o si, por el contrario, su funcionamiento se limita a una gestión altamente sofisticada de datos extraídos de internet.
El estudio, publicado en la revista Nature bajo el título A benchmark of expert-level academic questions to assess AI capabilities (Una base de referencia de preguntas académicas de nivel experto para evaluar las capacidades de la IA), se articula en torno a Humanity’s Last Exam (‘El último examen de la humanidad’), una prueba diseñada específicamente para poner a la IA al límite de sus capacidades cognitivas.
Para ello, más de 1.100 científicos de todos los ámbitos de la ciencia y las humanidades elaboraron una batería de preguntas de elevada complejidad técnica y conceptual. Entre los investigadores participantes se encuentra la doctora María Cruz Boscá, profesora del Departamento de Física Atómica, Molecular y Nuclear de la Universidad de Granada.
Las preguntas del examen cuentan con respuestas inequívocas y verificables, pero no pueden resolverse de forma rápida mediante una búsqueda en internet. Los resultados muestran que, incluso en sus versiones más avanzadas, los modelos de IA presentan una baja precisión y dificultades de calibración cuando se enfrentan a conceptos científicos profundos.
Tal y como recoge el artículo, los sistemas de inteligencia artificial no solo fallan en la comprensión conceptual, sino que además tienden a reproducir errores presentes en manuales y fuentes bibliográficas clásicas, lo que subraya la distancia que aún separa a los LLM del razonamiento experto humano en múltiples disciplinas científicas.
En su contribución al estudio, la profesora Boscá puso a prueba el razonamiento de la IA en el ámbito de la física cuántica. Sus resultados fueron especialmente reveladores: las inteligencias artificiales no lograron seleccionar las respuestas correctas cuando las preguntas exigían una comprensión conceptual profunda.
En una de las cuestiones, relacionada con la paradoja Einstein-Podolsky-Rosen, la IA falló al aplicar un sesgo interpretativo clásico, asumiendo una realidad objetiva en la medición que contradice los principios fundamentales de la mecánica cuántica. En otro caso, relativo al experimento Stern-Gerlach, el sistema reprodujo un error factual ampliamente difundido en manuales científicos, demostrando su incapacidad para discernir entre conocimiento correcto y errores consolidados.
A pesar de estos resultados, la investigadora subrayó que los modelos de lenguaje más avanzados han superado ya la fase de simple recuperación de información. “Estos sistemas han comenzado a realizar análisis reflexivos complejos a partir de los datos disponibles”, señaló.
No obstante, Boscá concluyó que el verdadero salto cualitativo de la inteligencia artificial aún está por llegar. “El verdadero hito llegará cuando la IA no solo evite errar en el conocimiento establecido, sino que además sea capaz de plantear nuevas preguntas y ofrecer respuestas a incógnitas científicas que hoy en día los humanos aún no hemos logrado resolver”, afirmó.