Un investigación Por Epoch AI, un instituto de investigación de IA sin fines de utilidad, sugiere que la industria de la IA puede no ser capaz de obtener ganancias de rendimiento masivo de los modelos de IA de razonamiento durante mucho más tiempo. Tan pronto como internamente de un año, el progreso de los modelos de razonamiento podría disminuir, según los hallazgos del documentación.
Modelos de razonamiento como OpenAi’s O3 han llevado a ganancias sustanciales en los puntos de remisión de IA en los últimos meses, particularmente los puntos de remisión que miden las matemáticas y las habilidades de programación. Los modelos pueden aplicar más computación a los problemas, lo que puede mejorar su rendimiento, con la desventaja de que tardan más que los modelos convencionales para completar las tareas.
Los modelos de razonamiento se desarrollan primero en capacitar un maniquí convencional en una cantidad masiva de datos, luego aplicando una técnica señal formación de refuerzo, lo que efectivamente le da al maniquí “feedback” sobre sus soluciones a problemas difíciles.
Hasta ahora, Frontier AI Labs como OpenAI no ha perseverante una enorme cantidad de potencia informática a la etapa de formación de refuerzo de la capacitación del maniquí de razonamiento, según Epoch.
Eso está cambiando. Operai ha dicho que aplicó cerca de de 10 veces más informática para entrenar O3 que su predecesor, O1, y Epoch especula que la maduro parte de esta computación estaba dedicada al formación de refuerzo. Y el investigador de Operai, Dan Roberts, reveló recientemente que los planes futuros de la compañía requieren Priorizar el formación de refuerzo usar mucha más potencia informática, incluso más que para el entrenamiento de maniquí original.
Pero todavía hay un meta superior a la cantidad de computación que se puede aplicar al formación de refuerzo, por época.

Josh You, analista de Epoch y autor del investigación, explica que las ganancias de rendimiento del entrenamiento de modelos de IA habitual actualmente se cuartan cada año, mientras que las ganancias de rendimiento del formación de refuerzo están creciendo diez veces cada 3-5 meses. El progreso del entrenamiento de razonamiento “probablemente convergerá con la frontera genérico para 2026”, continúa.
El investigación de Epoch hace una serie de supuestos y se sostén en parte en los comentarios públicos de los ejecutivos de la compañía de IA. Pero igualmente defiende que los modelos de razonamiento de escalera pueden ser desafiantes por razones adicionalmente de la informática, incluidos los altos costos generales para la investigación.
“Si se requiere un costo de sobrecarga persistente para la investigación, los modelos de razonamiento podrían no medrar tan allá como se esperaba”, escribe. “La escalera rápida de cuenta es potencialmente un ingrediente muy importante en el progreso del maniquí de razonamiento, por lo que vale la pena rastrear esto de cerca”.
Es probable que cualquier indicación de que los modelos de razonamiento puedan alcanzar algún tipo de meta en el futuro cercano preocupen a la industria de la IA, que ha invertido enormes bienes en incremento de este tipo de modelos. Los estudios ya han demostrado que los modelos de razonamiento, que pueden ser increíblemente caro de valertienen defectos graves, como una tendencia a delirar más que ciertos modelos convencionales.
(Tagstotranslate) Epoch AI