Uno de los Nuevos modelos de IA insignia Meta decidido el sábado, Maverick, ocupa el segundo motivo en la arena de LMuna prueba que hace que los evaluadores humanos comparen las expectativas de los modelos y eligen cuáles prefieren. Pero parece que la lectura de Maverick que Meta implementó en LM Arena difiere de la lectura que está ampliamente apto para los desarrolladores.
Como varios AI investigadores Señaló en X, Meta señaló en su anuncio que el Maverick en el LM Arena es una “lectura de chat positivo”. Un manifiesto en el Sitio web oficial de llamasmientras tanto, revela que las pruebas de la arena LM de Meta se realizaron utilizando “Claridad 4 Maverick optimizado para la conversación”.
Como hemos escrito ayerpor varias razones, LM Arena nunca ha sido la medida más confiable del rendimiento de un maniquí de IA. Pero las compañías de inteligencia químico generalmente no han personalizado o no han adecuado sus modelos para obtener mejor en el LM Arena, o al menos no han admitido hacerlo.
El problema con la ajuste de un maniquí a un punto de remisión, retenerlo y luego liberar una transformación de “vainica” de ese mismo maniquí es que hace que sea difícil para los desarrolladores predecir exactamente qué tan acertadamente funcionará el maniquí en contextos particulares. Todavía es engañoso. Idealmente, puntos de remisión – lamentablemente inadecuado como son – Proporcione una instantánea de las fortalezas y debilidades de un solo maniquí en una variedad de tareas.
De hecho, los investigadores en X han Observado Stark diferencias en el comportamiento del Maverick descargable públicamente en comparación con el maniquí alojado en LM Arena. La lectura LM Arena parece usar muchos emojis y dar respuestas increíblemente largas.
Okl Claridad 4 es definitivamente una cocción cocida jajaja, ¿qué es esta ciudad de yap? pic.twitter.com/y3gvhbvz65
– Nathan Lambert (@natolambert) 6 de abril de 2025
Por alguna razón, el maniquí Claridad 4 en Arena usa muchos más emojis
en juntos. ai, parece mejor: pic.twitter.com/f74odx4ztt
– Tech Dev Notes (@TechDevnotes) 6 de abril de 2025
Nos hemos comunicado con Meta y Chatbot Arena, la ordenamiento que mantiene el LM Arena, para hacer comentarios.