Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Los modelos de idiomas grandes (LLM) son cada vez más capaces de un razonamiento confuso a través de “escalera de tiempo de inferencia“Un conjunto de técnicas que asignan más fortuna computacionales durante la inferencia para producir respuestas. Sin secuestro, un nuevo estudio De Microsoft Research revela que la efectividad de estos métodos de escalera no es universal. Los aumentos de rendimiento varían significativamente en diferentes modelos, tareas y complejidades de problemas.
El hallazgo central es que simplemente arrojar más cálculo a un problema durante la inferencia no garantiza mejores o más resultados eficientes. Los hallazgos pueden ayudar a las empresas a comprender mejor la volatilidad de los costos y la confiabilidad del maniquí mientras buscan integrar el razonamiento progresista de IA en sus aplicaciones.
Poner métodos de escalera a la prueba
El equipo de investigación de Microsoft realizó un extenso observación empírico en nueve modelos fundamentales de última engendramiento. Esto incluía tanto modelos “convencionales” como GPT-4O, Soneto Claude 3.5, Géminis 2.0 Pro y Fogata 3.1 405basí como modelos específicamente ajustados para un razonamiento mejorado a través de la escalera de tiempo de inferencia. Esto incluido Openi’s O1 y O3-Mini, el soneto Claude 3.7 de Anthrope, el pensamiento de Gemini 2 Flash de Google, y Deepseek r1.
Evaluaron estos modelos utilizando tres enfoques de escalera de tiempo de inferencia distintos:
- Dependencia de pensamiento tipificado (cot): El método cardinal donde se le solicita al maniquí que responda paso a paso.
- Escalera paralela: El maniquí genera múltiples respuestas independientes para la misma pregunta y utiliza un agregador (como el voto mayoritario o la selección de la respuesta con mejor puntuación) para aparecer a un resultado final.
- Escalera secuencial: El maniquí genera iterativamente una respuesta y utiliza comentarios de un crítico (potencialmente del maniquí en sí) para refinar la respuesta en los intentos posteriores.
Estos enfoques se probaron en ocho conjuntos de datos de relato desafiantes que cubren una amplia serie de tareas que se benefician de la resolución de problemas paso a paso: razonamiento de matemáticas y STEM (AIME, Omni-Math, GPQA), calendario (planificación de calendario), problemas NP-Hard (3SAT, TSP), navegación (MAZA) y razonamiento spacial (spacialmap).
Varios puntos de relato incluyeron problemas con niveles de dificultad variable, lo que permite una comprensión más matizada de cómo la escalera se comporta a medida que los problemas se vuelven más difíciles.
“La disponibilidad de etiquetas de dificultad para Omni-Math, TSP, 3SAT y BA-Calendar nos permite analizar cómo la precisión y el uso de la token con dificultad en la escalera de tiempo de inferencia, que es una perspectiva que aún no se aplica”, escriben los investigadores “, los investigadores escriben”, el papel detallando sus hallazgos.
Los investigadores evaluaron el razonamiento de la frontera de Pareto de LLM analizando tanto la precisión como el costo computacional (es opinar, el número de tokens generados). Esto ayuda a identificar cómo los modelos de eficiencia logran sus resultados.

Asimismo introdujeron la medida de “brecha convencional a la conducción”, que compara el mejor rendimiento posible de un maniquí convencional (utilizando una selección ideal de “mejor de N”) con el rendimiento promedio de un maniquí de razonamiento, estimando las ganancias potenciales alcanzables a través de mejores técnicas de entrenamiento o demostración.
Más enumeración no siempre es la respuesta
El estudio proporcionó varias ideas cruciales que desafían suposiciones comunes sobre la escalera de tiempo de inferencia:
Los beneficios varían significativamente: Mientras que los modelos sintonizados para el razonamiento generalmente superan a los convencionales en estas tareas, el categoría de progreso varía mucho según el dominio y la tarea específicos. Las ganancias a menudo disminuyen a medida que aumenta la complejidad del problema. Por ejemplo, las mejoras de rendimiento vistas en los problemas matemáticos no siempre se traducen por igual a razonamiento estudiado o tareas de planificación.
La ineficiencia del token está profuso: Los investigadores observaron una adhesión variabilidad en el consumo de tokens, incluso entre modelos que logran una precisión similar. Por ejemplo, en el punto de relato de matemáticas AIME 2025, Deepseek-R1 usó más de cinco veces más tokens que el soneto Claude 3.7 para una precisión promedio aproximadamente comparable.
Más fichas no conducen a una maduro precisión: Al contrario de la idea intuitiva de que las cadenas de razonamiento más largas significan un mejor razonamiento, el estudio encontró que esto no siempre es cierto. “Sorprendentemente, igualmente observamos que las generaciones más largas en relación con el mismo maniquí a veces pueden ser un indicador de modelos que luchan, en motivo de una consejo mejorada”, dice el documento. “Del mismo modo, al comparar diferentes modelos de razonamiento, el uso de token más suspensión no siempre se asocia con una mejor precisión. Estos hallazgos motivan la carestia de enfoques de escalera más propósito y rentable”.
Costo no determinismo: Quizás lo más preocupante para los usuarios empresariales, las consultas repetidas al mismo maniquí para el mismo problema pueden dar motivo a un uso de token en gran medida variable. Esto significa que el costo de ejecutar una consulta puede fluctuar significativamente, incluso cuando el maniquí proporciona constantemente la respuesta correcta.

El potencial en los mecanismos de demostración: El rendimiento de la escalera mejoró constantemente en todos los modelos y puntos de relato cuando se simula con un “verificador consumado” (utilizando los mejores resultados de N).
Los modelos convencionales a veces coinciden con los modelos de razonamiento: Al aumentar significativamente las llamadas de inferencia (hasta 50 veces más en algunos experimentos), los modelos convencionales como GPT-4O a veces pueden chocar los niveles de rendimiento de los modelos de razonamiento dedicados, particularmente en tareas menos complejas. Sin secuestro, estas ganancias disminuyeron rápidamente en entornos en gran medida complejos, lo que indica que la escalera de fuerza bruta tiene sus límites.

Implicaciones para la empresa
Estos hallazgos tienen un peso significativo para los desarrolladores y los adoptantes empresariales de LLM. La cuestión del “costo no determinante” es particularmente traumatizado y dificulta el presupuesto. Como señalan los investigadores, “idealmente, los desarrolladores y usuarios preferirían modelos para los cuales la desviación tipificado del uso de token por instancia es desestimación para la previsibilidad de los costos”.
“El perfil que hacemos en (el estudio) podría ser útil para los desarrolladores como utensilio para nominar qué modelos son menos volátiles para el mismo aviso o para diferentes indicaciones”, dijo a VentureBeat de Besmira Nushi, directivo principal de investigación de Microsoft Research. “Idealmente, uno querría nominar un maniquí que tenga una desviación tipificado desestimación para las entradas correctas”.

El estudio igualmente proporciona buenas ideas sobre la correlación entre la precisión de un maniquí y la largura de la respuesta. Por ejemplo, el próximo diagrama muestra que las consultas matemáticas por encima de ~ 11,000 tokens tienen una posibilidad muy escasa de ser correctos, y esas generaciones deben detenerse en ese punto o reiniciarse con algunos comentarios secuenciales. Sin secuestro, Nushi señala que los modelos que permiten estas mitigaciones post hoc igualmente tienen una separación más limpia entre muestras correctas e incorrectas.

“En última instancia, igualmente es responsabilidad de los constructores de modelos pensar en aminorar la precisión y el costo del no determinismo, y esperamos que gran parte de esto suceda a medida que los métodos se vuelven más maduros”, dijo Nushi. “Pegado al costo del no determinismo, igualmente se aplica el no determinismo de la precisión”.
Otro hallazgo importante es el aumento constante de rendimiento de los verificadores perfectos, que destaca un ámbito crítica para el trabajo futuro: construir mecanismos de demostración robustos y ampliamente aplicables.
“La disponibilidad de verificadores más fuertes puede tener diferentes tipos de impacto”, dijo Nushi, como mejorar los métodos de entrenamiento fundamental para el razonamiento. “Si se usa de forma competente, estos igualmente pueden acortar las trazas de razonamiento”.
Los verificadores fuertes igualmente pueden convertirse en una parte central de las soluciones de IA de Enterprise Agentic. Muchas partes interesadas empresariales ya tienen tales verificadores en su motivo, que pueden faltar ser reutilizados para soluciones más agentes, como solucionadores SAT, verificadores de validez provisión, etc.
“Las preguntas para el futuro son cómo tales técnicas existentes se pueden combinar con interfaces impulsadas por IA y cuál es el estilo que conecta los dos”, dijo Nushi. “La carestia de conectar a los dos proviene del hecho de que los usuarios no siempre formularán sus consultas de forma formal, querrán usar una interfaz de estilo natural y esperar las soluciones en un formato similar o en una actividad final (por ejemplo, proponer una invitación de reunión)”.