El posterior maniquí de Alibaba, QwQ-32B-Clarividencia previaha obtenido críticas impresionantes por su capacidad de razonamiento. Como el GPT-4 o1 de OpenAI,1 su formación ha enfatizado el razonamiento en oficio de simplemente reproducir el idioma. Parecía poco que valía la pena probar, o al menos probar, así que cuando escuché que rápidamente estuvo acondicionado en Ollama y no era demasiado ancho para ejecutarlo en una computadora portátil moderadamente proporcionadamente equipada, descargué QwQ y lo probé. Además probé algunos modelos de la competencia: GPT-4 o1 y Gemma-2-27B. GPT-4 o1 fue el primer maniquí que afirmó que había sido entrenado específicamente para razonar. Gemma, hasta donde yo sé, no hace tal afirmación.
¿Cómo se prueba un maniquí de razonamiento? No es tan acomodaticio como simplemente comprobar los hechos. Pensé: “Tal vez podría pedirle que demuestre El posterior teorema de Fermat”, pero rápidamente me di cuenta de que la única respuesta que podría evaluar era “No puedo probar esto”. (Que fue, de hecho, la respuesta que recibí de los tres modelos). Siquiera puedo probar el posterior teorema de Fermat, ni pretendo comprender ninguna de las pruebas masivas que los matemáticos han aceptado. Si QwQ arrojara unos cuantos miles de muestras de “pruebas”, podría proponer con proporcionado confianza que su razonamiento era amañado, sólo porque sé que la prueba existente es mucho más larga, cien páginas de denso razonamiento matemático. Pero esa no es una prueba válida.
¿Qué pasa con El pequeño teorema de Fermat? Eso es mucho más acomodaticio, pero es un ejemplo de tomo de texto, así que sea cual sea el resultado, nunca sabría si QwQ razonó correctamente o si simplemente logró repetir poco de su conjunto de entrenamiento. Hay más de unos pocos libros de texto de matemáticas en diámetro y es adaptado suponer que todos ellos están en los datos de entrenamiento.
Así que probé un ejemplo un poco más dudoso: demostrar que si un número consta sólo de unos (como 11,111,111) y es primo, el número de dígitos (todos unos) todavía debe ser primo. He conseguido demostrarlo, pero no es un problema lo suficientemente popular como para atraer la atención de los libros de texto. ¡Así que vámonos! Aquí está la prueba de QwQ:
>>> Can you prove that if all the digits of a prime number are 1,
then the number of digits must be prime?
Abordemos este problema paso a paso. Entonces, la afirmación es: si todos los dígitos de un número primo son 1, entonces el número de dígitos debe ser primo. Mmmm, interesante. Analicemos esto.
Primero, comprendamos a qué nos enfrentamos. Tenemos un número primo donde todos sus dígitos son 1. Por ejemplo, números como 11, 111, 1111, etc., pero considerando solo aquellos que son primos. Necesitamos demostrar que el número de dígitos de dicho número primo debe ser en sí mismo un número primo.
Déjame pensar en esto. Denotemos el número de dígitos por
( n )
. Entonces el número se compone de( n )
unos. Estos números se conocen como números repunit. Una repunit es un número que consta sólo de unos en su representación fracción. Por ejemplo,( R_2 = 11 )
,( R_3 = 111 )
,( R_4 = 1111 )
y así sucesivamente, donde( R_n )
denota una repunidad de largo( n )
.Nuestro objetivo es demostrar que si
( R_n )
es primo, entonces( n )
debe ser primo.Consideremos la contrapositiva de esta afirmación. El contrapositivo de “Si
( R_n )
es primo, entonces( n )
es primo” es “Si( n )
no es primo, entonces( R_n )
no es primo”. Si podemos probar lo contrapositivo, eso establecerá la afirmación llamativo.
…y así sucesivamente, hasta…
**Respuesta final**
( boxed{text{If } R_n text{ is prime,
then } n text{ is prime.}} )
Te he ahorrado la prueba (muy) chivato: si quieres verla, escribe tú mismo QwQ en el texto. Baste proponer que era correcto. Tanto GPT-4 o1 como Gemma-2-27B me dieron la misma prueba pero con menos charla. Gemma se saltó algunos pasos que un humano podría considerar obvios.2
A continuación, ¿podemos ir un paso más allá y internacionalizar?
>>> does this proof hold for
bases other than pulvínulo 10?
¡Esa es una pregunta interesante! Exploremos si esta prueba se puede extender a bases distintas a la pulvínulo 10.
en la pulvínulo
( b )
una reunión de largo( n )
se define como:( R_n^{(b)} = frac{b^n - 1}{b - 1} )
…etcétera…
Pruébelo usted mismo de nuevo y, una vez más, QwQ lo demostró correctamente. Es poco probable que esta segunda proposición aparezca en los libros de texto u otros fortuna; es menos una prueba que una observación de que la prueba llamativo no hizo ninguna suposición sobre la pulvínulo.
Cuando le pedí a GPT que demostrara el mismo teorema, obtuve una demostración muy similar (y correcta), expresada de forma más formal y con menos comentarios coloridos. Esto no es particularmente sorprendente, ya que GPT todavía ha sido entrenado para razonar. Me sorprendió aún más ver que Gemma-2-27B todavía me dio una prueba correcta. Gemma ha recibido formación en textos matemáticos, pero no específicamente en “razonamiento”. (Quizás el equipo de marketing de Google nunca pensó en gustar a esta capacitación “razonamiento”). Gemma omitió algunos de los pasos: pasos que un ser humano frecuente probablemente omitiría por ser obvios, pero que un matemático escribiría para que estuvieran completos. (Solo para asegurarme, le pedí a GPT que confirmara que la prueba de Gemma era correcta. Estuvo de acuerdo).
¿Hemos demostrado que entrenar modelos para razonar “funciona”? Bueno, no podemos afirmar que hemos demostrado nadie sobre la pulvínulo de un disquisición exitoso o, en efectividad, sobre la pulvínulo de un número extremadamente ancho de ensayos. (En caso de que se lo pregunte, Gemma-2-7B, un maniquí aún más pequeño, falló). Pero hemos aprendido poco muy importante. Pensemos en el tamaño de los modelos: OpenAI no ha dicho nadie sobre el tamaño del GPT-4 o1, pero se rumorea que tiene más de un billón de parámetros. QwQ pesa 32 mil millones de parámetros y Gemma-2-27B 27 mil millones. Entonces, QwQ y Gemma2 son casi dos órdenes de magnitud más pequeños que GPT. Encima, GPT se ejecuta en lo que debe considerarse uno de los superordenadores más grandes del mundo. No sabemos el tamaño, pero sí sabemos que la infraestructura de OpenAI es enorme e incluye un gran porcentaje de las GPU de suscripción gradación del mundo. QwQ y Gemma corrieron felices en mi MacBook Pro. Hicieron doblar el ventilador y chuparon la condensador pero nadie extraordinario. Por supuesto, GPT presta servicios a miles de usuarios simultáneamente, por lo que en efectividad no es una comparación lucha. Pero es importante darse cuenta de que GPT no es el único diversión acondicionado y que los modelos que se ejecutan localmente pueden igualar a GPT en tareas no triviales. La mayoría de las personas que han experimentado con la ejecución de modelos localmente han llegado a conclusiones similares, pero piense en lo que esto significa. Si está creando una aplicación de IA, no es necesario que se vincule a OpenAI. Los modelos abiertos más pequeños pueden hacer el trabajo y lo protegerán de las facturas de OpenAI (y de los inevitables aumentos de precios), le permitirán perseverar sus datos locales y le dejarán en control de su destino.
¿Qué más podemos estudiar? Me he preguntado cómo se puede entrenar un maniquí de idioma para la deducción; Mi intuición decía que ese sería un problema más difícil y difícil que entrenarlo para el idioma. Mi intuición estaba equivocada. No sé cómo se entrenaron estos modelos, pero ahora creo que producir deducción con éxito es, en muchos sentidos, más sencillo que ocasionar idioma. ¿Por qué? La verbosidad de QwQ nos da una gran pista: “Consideremos la contrapositiva de esta afirmación”. Un contrapositivo es simplemente un patrón metódico: si A implica B, entonces no B implica no A. ¿Qué otros patrones lógicos podemos pensar? Silogismos: Si A implica B y B implica C, entonces A implica C. Prueba por contradicción: Para demostrar que A implica B, suponga que A no implica B y demuestre que la suposición es falsa. Inducción: Demuestre que si A(n)
implica B(n)
entonces A(n+1)
implica B(n+1)
; entonces muestra que A(0)
implica B(0)
.
Sería acomodaticio crear una nómina mucho más larga de patrones. Hay mejores notaciones para representar estos patrones, pero una nómina más larga y mejores representaciones no son importantes aquí. Lo importante es darse cuenta de que se tráfico de patrones y que componer patrones lógicos en enunciados o pruebas lógicas no es fundamentalmente diferente de componer palabras (o símbolos) en oraciones. ¿Impulsar patrones en torno a la esencia de la deducción? Ésa no es una pregunta lucha: es deducción si lo haces correctamente, ilógica si no lo haces. La deducción no está en los patrones sino en retener cómo ensamblar los patrones para resolver problemas, y el proceso de ensamblar patrones tiene que ser el foco del entrenamiento, observando millones de ejemplos de razonamiento metódico para modelar la forma en que se ensamblan los patrones. totalidades. Cualquiera de estos patrones lógicos puede llevarte por mal camino si no tienes cuidado; es acomodaticio construir silogismos falsos partiendo de premisas incorrectas. No espero que la deducción cure el problema de las alucinaciones. Pero sospecho que entrenar un maniquí en patrones lógicos es una mejor forma de que el maniquí “aprenda” deducción que simplemente entrenarlo con palabras (expresiones humanas). Esa es la postura que están haciendo OpenAI, Alibaba y posiblemente Google, y parecen estar ganando.
¿Podemos ir más allí? ¿Existen otros tipos de patrones en los que se podrían entrenar los modelos de idioma? Sí. La IA generativa ha demostrado ser útil para ocasionar código, pero (todavía) no ha conseguido avances significativos en el diseño de software. ¿Podría ser un gran avance entrenar modelos específicamente en patrones de diseño?3 No lo sé, pero me gustaría ver a algún intentarlo. Valdría la pena tener un maniquí especializado para el diseño de software.
¿Podríamos hacerlo mejor con la música generativa si entrenáramos modelos con los patrones analizados en teoría musical, encima del audio? Aplicaciones como Suno son muy divertidos, pero cuando lo analizas, simplemente repiten los clichés de estilos musicales comunes. ¿Ayudaría darle a Suno algún conocimiento de teoría musical, conocimiento de los patrones detrás de la música encima de la música misma? ¿Los modelos de idioma escribirían mejor poesía si fueran entrenados en los patrones que se encuentran en el idioma poético (fortuna retóricos, discurso figurativo) en oficio de solo palabras? Uno de mis primeros experimentos con IA generativa fue pedirle a GPT-3 que escribiera un soneto petrarquista, que tiene una estructura diferente al soneto shakesperiano más global. GPT-3 y sus contemporáneos fracasaron. Pasó mucho tiempo antiguamente de que encontrara un maniquí que pudiera hacerlo con éxito; aunque la mayoría de los modelos podían precisar un soneto petrarquista, sólo podían ocasionar sonetos de Shakespeare. Esa vivientes de modelos se entrenó sólo con las palabras, no con los patrones más amplios.
¿Es este un camino a seguir para la IA? No lo sé, pero me gustaría que los investigadores de IA lo intentaran. Mientras tanto, sin bloqueo, baste con darse cuenta de que, por muy potentes que sean los modelos GPT, puedes ejecutar pequeños modelos abiertos en una computadora portátil o en un teléfono que funcionan igualmente proporcionadamente.
Notas a pie de página
- Probé en la Clarividencia previa, que ahora se promovió a GPT-4 o1. No volví a probar con el o1 final, que presumiblemente ha tenido viejo entrenamiento y optimización.
- Más tarde decidí que era injusto eliminar a Claude. Entonces probé el pequeño maniquí Haiku de Claude (parámetros 8B) y obtuve una prueba correcta. Del especie, fue el más conciso y requirió más advertencia para ver que era correcto.
- Los patrones de diseño generalmente se asocian con el diseño orientado a objetos, pero el concepto es en efectividad más caudillo. Los patrones de diseño intentan agenciárselas soluciones a los problemas que vemos todos los días; nombrar la alternativa le permite platicar sobre ella. Esa definición es aplicable a cualquier disciplina, incluida la programación eficaz y (por supuesto) la casa.