Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información
Comenzó con el anuncio de Maniquí O1 de Openai en septiembre de 2024, pero positivamente despegó con el Tiro de Deepseek R1 en enero de 2025.
Ahora, parece que la mayoría de los principales proveedores de modelos de IA y entrenadores están en una nueva carrera para ofrecer modelos de lengua AI de “razonamiento” mejores, más rápidos y más baratos, es proponer, los que tal vez tardan un poco más en reponer a un becario humano, pero lo ideal, lo hacen con sus propias respuestas mejor, más completas y más completas “, que son las respuestas de la clase de los modelos.
Bytedance, el padre de los medios web chinos de Tiktok, es el extremo en unirse a la fiesta con el anuncio y Publicación del documento técnico Detrás de la semilla-pensamiento-v1.5, un próximo maniquí de idioma amplio (LLM) diseñado para avanzar en el rendimiento del razonamiento en los campos de ciencias, tecnología, matemáticas e ingeniería (STEM) y dominios de uso normal.
El maniquí aún no está acondicionado para descargar o usar, y no está claro cuáles serán los términos de abuso, ya sea que sea patentado/de código cerrado, código extenso/sin cargo para que todos usen y modifiquen a voluntad, o en algún punto intermedio. Sin incautación, el documento técnico proporciona algunos detalles notables que vale la pena ocurrir ahora y antaño de cuando estén disponibles.
Construido sobre la cimentación de mezcla de expertos (MOE) cada vez más popular
Como Meta’s New Claridad 4 y MIXTRAL de Mistral Ayer de él, la semilla-pensamiento-V1.5 se construye utilizando una cimentación de mezcla de expertos (MOE).
Esta cimentación está diseñada para hacer que los modelos sean más eficientes. Básicamente combina las capacidades de múltiples modelos en uno, cada uno especializado en un dominio diferente.
En este caso, la cimentación MOE significa que el pensamiento de semilla-v1.5 usa solo 20 mil millones de los 200 mil millones de parámetros a la vez.
El byte dice en su Documento técnico publicado en Github Esa semilla de pensamiento v1.5 prioriza el razonamiento estructurado y la procreación de respuesta reflexiva.
Los resultados casi se hablan por sí mismos, con el mejor rendimiento de la semilla V1.5 superando a Deepseek R1 y acercándose al recientemente decidido Razonor de Gemini 2.5 Pro de Google y el Razonor O3-Mini-High de OpenAI en muchas evaluaciones de remisión de terceros. Incluso supera a esos dos en el caso del Punto de remisión arc-agique mide el progreso en torno a la inteligencia normal fabricado, gastado como el objetivo o el “santo eucaristía” de la IA. Este maniquí supera a los humanos en la mayoría de las tareas económicamente valiosas, según la definición de OpenAI.
Posicionado como una alternativa compacta pero capaz a modelos más grandes de última procreación, Semilla-Thinking-V1.5 logra resultados de remisión competitivos. Presenta innovaciones de formación de refuerzo (RL), curación de datos de capacitación e infraestructura de IA.
Puntos de remisión de rendimiento y enfoque del maniquí
Seed-Thinking-V1.5 muestra un esforzado rendimiento en un conjunto de tareas desafiantes, obteniendo un 86.7% en AIME 2024, 55.0% pase@8 en CodeForces y 77.3% en el punto de remisión de Ciencias GPQA. Estos resultados lo colocan cerca o de modelos coincidentes como O3-Mini-High de OpenAI y Gemini 2.5 Pro de Google en métricas de razonamiento específicas.
En las tareas que no son de condición, el maniquí se evaluó a través de las comparaciones de preferencias humanas y logró una tasa de victorias de 8.0% más incorporación sobre DeepSeek R1, lo que sugiere que sus fortalezas se generalizan más allá de los desafíos lógicos o con mancuerna matemáticas.
Para encarar la saturación en puntos de remisión standard como AIME, Bytedance introducido BeyondAIME, un nuevo punto de remisión matemático más difícil con problemas curados diseñados para resistir la memorización y discriminar mejor el rendimiento del maniquí. Se paciencia que este y el conjunto de evaluación de CodeForces se publiquen públicamente para apoyar la investigación futura.
Organización de datos
Los datos de capacitación jugaron un papel central en el mejora del maniquí. Para el ajuste supervisado (SFT), el equipo seleccionó 400,000 muestras, incluidas 300,000 verificables (tareas de STEM, razonamiento y codificación) y 100,000 problemas no verificables como la escritura creativa y el selección de roles.
Para el entrenamiento RL, los datos se segmentaron en:
- Problemas verificables: 100.000 preguntas de tallo y rompecabezas de razonamiento filtrados rigurosamente con respuestas conocidas, obtenidas de competiciones de élite y revisión de expertos.
- Tareas no verificables: conjuntos de datos de preferencia humana centrados en indicaciones abiertas, evaluadas utilizando modelos de retribución por pares.
Los datos de STEM se inclinaron en gran medida en las matemáticas avanzadas, representando más del 80% del conjunto de problemas. Los datos lógicos adicionales incluyeron tareas como sudoku y rompecabezas de 24 puntos, con dificultad ajustable para igualar el progreso del maniquí.
Enfoque de formación de refuerzo
El formación de refuerzo en la semilla-pensamiento-v1.5 está impulsado por los marcos personalizados de actores críticos (VAPO) y de gradiente de políticas (DAPO), desarrollados para encarar las inestabilidades conocidas en la capacitación de RL. Estas técnicas reducen la escasez de señales de retribución y mejoran la estabilidad del entrenamiento, especialmente en entornos de esclavitud de pensamiento generoso (COT).
Los modelos de retribución juegan un papel fundamental en la supervisión de los resultados de RL. Bytedance introdujo dos herramientas esencia:
- Verificador de semillas: un LLM basado en reglas que verifica si se genera y las respuestas de remisión son matemáticamente equivalentes.
- Verificador de pensamiento de semillas: un sentenciador basado en el razonamiento paso a paso que perfeccionamiento la consistencia del entendimiento y resiste la piratería de recompensas.
Este sistema de recompensas de dos niveles permite una evaluación matizada para tareas sencillas y complejas.
Infraestructura y escalera
Para respaldar una capacitación válido a gran escalera, Bytedance construyó un sistema sobre su entorno de flujo híbrido. La ejecución es manejada por grupos de rayos, y los procesos de entrenamiento e inferencia se ubican conjuntamente para acortar el tiempo de inactividad de GPU.
El sistema de transmisión de transmisión (SRS) es una innovación sobresaliente que separa la desarrollo del maniquí de la ejecución del tiempo de ejecución. Acelera la velocidad de iteración al gobernar asíncronamente las generaciones parcialmente completadas en las versiones del maniquí. Según los informes, esta cimentación ofrece hasta 3 × ciclos RL más rápidos.
Las técnicas de infraestructura adicionales incluyen:
- Precisión mixta (FP8) para ahorros de memoria
- Paralelismo perito y ajuste mecánico del núcleo para la eficiencia de MOE
- Bytecheckpoint para puntos de control resistentes y flexibles
- Autotuner para optimizar las configuraciones de paralelismo y memoria
Evaluación humana e impacto del mundo verdadero
Para evaluar la línea con las preferencias centradas en el ser humano, el bytete realizó pruebas humanas en una variedad de dominios, incluida la escritura creativa, el conocimiento de las humanidades y la conversación normal.
Semilla-pensamiento-v1.5 superó constantemente a DeepSeek R1 a través de las sesiones, reforzando su aplicabilidad a las deposición de los usuarios del mundo verdadero.
El equipo de mejora señala que los modelos de razonamiento entrenados principalmente en tareas verificables demostraron una esforzado divulgación a los dominios creativos, un resultado atribuido a la estructura y el rigor integrado en flujos de trabajo de capacitación matemática.
Lo que significa para líderes técnicos, ingenieros de datos y tomadores de decisiones empresariales
Para los clientes potenciales técnicos que administran el ciclo de vida de los modelos de idiomas grandes, desde la curación de datos hasta la implementación, seed-pensamiento-V1.5 presenta una oportunidad para repensar cómo las capacidades de razonamiento se integran en las pilas de IA empresariales.
Su proceso de capacitación modular, que incluye conjuntos de datos de razonamiento verificable y formación de refuerzo multifase, particularmente atrae a equipos que buscan subir el mejora de LLM mientras se conservan el control de orzuelo fino.
Los movimientos de Bytedance para introducir el verificador de semillas y los mecanismos de propuesta del verificador de pensamiento de semillas para un modelado de recompensas más confiable, lo que puede ser crítico al implementar modelos en entornos orientados al cliente o regulados.
Para los equipos que operan bajo plazos ajustados y un pancho de facción escaso, la estabilidad del maniquí bajo formación de refuerzo, recaudador por innovaciones como VAPO y muestreo dinámico, podría acortar los ciclos de iteración y racionalizar el ajuste fino para tareas específicas.
Desde una perspectiva de orquestación y despliegue, el enfoque de infraestructura híbrida del maniquí, incluido el sistema de despliegue de transmisión (SRS) y el soporte para la optimización de FP8, suministra ganancias significativas en el rendimiento del entrenamiento y la utilización del hardware.
Estas características serían valiosas para los ingenieros responsables de subir las operaciones de LLM en los sistemas de nubes y en los primeros. El hecho de que la semilla-pensamiento-v1.5 fue entrenado con mecanismos para adaptar la feedback de recompensas basadas en la dinámica del tiempo de ejecución deje directamente de los desafíos de ejecutar las tuberías de datos heterogéneas y prolongar la consistencia entre los dominios.
Para los equipos encargados de avalar la confiabilidad, la reproducibilidad y la integración continua de nuevas herramientas, el diseño a nivel de sistema de pensamiento v1.5 de semillas podría servir como un plan para construir sistemas de orquestación multimodal robustos.
Para los profesionales de la ingeniería de datos, el enfoque estructurado para capacitar datos, incluidos el filtrado riguroso, el aumento y la demostración de expertos, refuerza la importancia de la calidad de los datos como un multiplicador del rendimiento del maniquí. Esto podría inspirar enfoques más deliberados para el mejora del conjunto de datos y las tuberías de potencia.
Perspectiva futura
SEED-PENTING-V1.5 Resulta de la colaboración adentro del equipo de Sistemas LLM Seed LLM de Bytedance, dirigido por Yonghui Wu y con representación pública de Haibin Lin, un contribuyente de IA desde hace mucho tiempo.
El tesina todavía se base en esfuerzos anteriores, como Doubao 1.5 Pro, e incorpora técnicas compartidas en RLHF y curación de datos.
El equipo planea continuar refinando las técnicas de formación de refuerzo, centrándose en la eficiencia de capacitación y el modelado de recompensas para tareas no verificables. La independencia pública de puntos de remisión internos como BeyondAIME está destinado a fomentar un avance más amplio en la investigación de IA centrada en el razonamiento.