GSM-Symbolic | Limitaciones del Razonamiento Matemático de los LLM

GSM-Symbolic

Este post está basado en un artículo titulado «GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models» de los siguientes autores: Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengioy  Mehrdad Farajtabar

Este artículo lo puedes encontrar en el siguiente link, el mismo explora las capacidades de razonamiento matemático de los Modelos de Lenguaje a Gran Escala (LLMs) y las limitaciones de las evaluaciones actuales en GSM8K, un conjunto de datos de referencia común. Para entender un poco mas sobre las limitaciones de los LLM se propone GSM-Symbolic, un nuevo punto de referencia que ofrece variantes para evaluar el razonamiento matemático de los LLMs con mayor precisión.

La Necesidad de una Evaluación Más Sólida

Si bien los LLMs han demostrado ser impresionantes en diversas tareas, su capacidad de razonamiento lógico, especialmente en matemáticas, sigue siendo un tema de debate. El conjunto de datos GSM8K se utiliza ampliamente para evaluar el razonamiento matemático de los modelos en preguntas de nivel escolar. Sin embargo, la naturaleza estática de GSM8K limita las evaluaciones a una sola métrica en un conjunto fijo de preguntas. Esto impide un análisis exhaustivo de las capacidades de los modelos y aumenta el riesgo de contaminación de datos.

Para abordar estas limitaciones, se necesita un marco de evaluación más versátil que genere diversas variantes de preguntas y ajuste los niveles de dificultad. Este marco permitiría un análisis más profundo de las fortalezas y debilidades de los LLMs en tareas de razonamiento matemático.

GSM-Symbolic: Un Nuevo Benchmark

GSM-Symbolic es un benchmark mejorado que genera variantes diversas de las preguntas de GSM8K utilizando plantillas simbólicas. Este enfoque permite una evaluación más matizada y fiable del rendimiento de los LLMs en diferentes configuraciones, yendo más allá de las métricas de precisión de un solo punto.
Creación de Plantillas

Para crear plantillas en GSM-Symbolic, se identifican variables, sus dominios y las condiciones necesarias para asegurar la validez de la pregunta y la respuesta. Por ejemplo, se utilizan nombres propios comunes y se asegura la divisibilidad para obtener respuestas de números enteros. Este proceso se automatiza y se verifica manualmente para garantizar la precisión.

Configuración Experimental

El estudio se realizó en más de 20 modelos abiertos y varios modelos cerrados de última generación. Se generaron 5000 ejemplos para cada benchmark utilizando 100 plantillas y 50 muestras por plantilla. La evaluación se basó en el prompting de Chain-of-Thought (CoT) con 8 ejemplos, siguiendo la configuración común para benchmarks matemáticos.

Fiabilidad de los Resultados de GSM8K

El estudio reveló una variación significativa en el rendimiento de los modelos en diferentes instancias de la misma pregunta en GSM-Symbolic. Además, el rendimiento de la mayoría de los modelos disminuyó en comparación con GSM8K. Esto sugiere una posible contaminación de datos en GSM8K y cuestiona la fiabilidad de las métricas reportadas.

Fragilidad del Razonamiento

Se analizó la sensibilidad de los modelos a los cambios en nombres propios y valores numéricos. Se observó que, si bien la variación del rendimiento persiste en ambos casos, es menor al cambiar nombres propios. La precisión en GSM8K se acerca más a la distribución al cambiar nombres, mientras que disminuye significativamente al cambiar valores. Esto sugiere que los LLMs pueden estar realizando una forma de coincidencia de patrones en la distribución, lo que lleva a una alta variación en el rendimiento.

Influencia de la Dificultad de la Pregunta

Al aumentar la dificultad de las preguntas añadiendo cláusulas, el rendimiento promedio disminuyó y la varianza aumentó en todos los modelos. Esta tendencia se alinea con la hipótesis de que los modelos no están realizando un razonamiento formal, ya que el número de pasos de razonamiento necesarios aumenta linealmente, mientras que la tasa de disminución del rendimiento parece ser más rápida.

Comprensión de Conceptos Matemáticos

Para evaluar la comprensión conceptual, se creó GSM-NoOp, un conjunto de datos que añade información aparentemente relevante pero inconsecuente a las preguntas. Los resultados mostraron una disminución drástica en el rendimiento de todos los modelos. Esto indica que los LLMs pueden estar convirtiendo enunciados en operaciones sin comprender realmente su significado, lo que sugiere una falta de comprensión conceptua.

Limitaciones significativas en la capacidad

Este estudio revela limitaciones significativas en la capacidad de los LLMs para realizar un razonamiento matemático genuino. La alta variación en el rendimiento, la disminución del mismo al aumentar la dificultad y la sensibilidad a la información irrelevante indican que su razonamiento es frágil y se asemeja más a una coincidencia de patrones sofisticada que a un verdadero razonamiento lógico. Se necesitan más investigaciones para desarrollar modelos de IA capaces de un razonamiento formal que vaya más allá del reconocimiento de patrones para lograr una resolución de problemas más sólida y generalizable.

Comentarios
advertise width me