Thursday, April 3, 2025

Más allá de los puntos de relato genéricos: cómo subench permite a las empresas evaluar los modelos de IA contra los datos reales


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Cada propagación del maniquí de IA inevitablemente incluye cuadros que promocionan cómo superó a sus competidores en esta prueba de relato o esa matriz de evaluación.

Sin confiscación, estos puntos de relato a menudo prueban capacidades generales. Para las organizaciones que desean usar modelos y agentes basados ​​en modelos de idiomas grandes, es más difícil evaluar qué tan admisiblemente el agente o el maniquí positivamente comprenden sus micción específicas.

Repositorio de modelos Cara abrazada valiente Tubenchuna aparejo de código franco donde los desarrolladores y empresas pueden crear sus propios puntos de relato para probar el rendimiento del maniquí con sus datos internos.

Sumuk Shashidhar, parte del Equipo de Investigación de Evaluaciones en Hugging Face, anunció YourBench en x. La característica ofrece “coexistentes de evaluaciones y datos sintéticos personalizados de cualquiera de sus documentos. Es un gran paso para mejorar cómo funcionan las evaluaciones del maniquí”.

Agregó que abrazar la cara sabe “que, para muchos casos de uso, lo que positivamente importa es qué tan admisiblemente un maniquí realiza su tarea específica. Your Bench le permite evaluar modelos sobre lo que le importa”.

Creación de evaluaciones personalizadas

Cara abrazada dijo en un semanario que subench funciona replicando subconjuntos de la relato de comprensión de habla multitarea masiva (MMLU) “Usando un texto de origen minúsculo, logrando esto por menos de $ 15 en costo de inferencia total mientras preserva perfectamente las clasificaciones de rendimiento del maniquí relativo”.

Las organizaciones necesitan preprocesar sus documentos antaño de que subench pueda funcionar. Esto involucra tres etapas:

  • Ingestión de documentos para “ordenar” los formatos de archivo.
  • Fragmentación semántica Desglosar los documentos para cumplir con los límites de las ventanas de contexto y ajustar la atención del maniquí.
  • Extracto de documentos

Luego viene el proceso de coexistentes de preguntas y respuestas, que crea preguntas a partir de la información sobre los documentos. Aquí es donde el heredero trae en su LLM preferido para ver cuál contesta mejor a las preguntas.

Hugging Face tested Yourbench with DeepSeek V3 and R1 models, Alibaba’s Qwen models including the reasoning model Qwen QwQ, Mistral Large 2411 and Mistral 3.1 Small, Ardor 3.1 and Ardor 3.3, Gemini 2.0 Flash, Gemini 2.0 Flash Lite and Gemma 3, GPT-4o, GPT-4o-mini, and o3 mini, and Claude 3.7 Sonnet and Claude 3.5 Haiku.

Shashidhar dijo que Hugging Face además ofrece examen de costos en los modelos y descubrió que Qwen y Gemini 2.0 Flash “producen un valencia tremendo por costos muy bajos”.

Limitaciones de calcular

Sin confiscación, la creación de puntos de relato LLM personalizados basados ​​en los documentos de una estructura tiene un costo. Yourbench requiere mucha potencia de enumeración para trabajar. Shashidhar dijo en X que la compañía está “agregando capacidad” tan rápido que podrían.

Abrazando la cara Varias GPU y se asocia con empresas como Google para usar sus servicios en la nubarrón para tareas de inferencia. VentureBeat se acercó a abrazar la cara sobre el uso de enumeración de Yourbench.

Benchmarking no es consumado

Los puntos de relato y otros métodos de evaluación brindan a los usuarios una idea de qué tan admisiblemente funcionan los modelos, pero estos no capturan perfectamente cómo funcionarán los modelos a diario.

Algunos tienen Incluso expresó desconfianza que las pruebas de relato muestran las limitaciones de los modelos y pueden conducir a conclusiones falsas sobre su seguridad y rendimiento. Un estudio además advirtió que Los agentes de evaluación comparativa podrían ser “engañosos”.

Sin confiscación, las empresas no pueden evitar evaluar modelos ahora que hay muchas opciones en el mercado, y los líderes de tecnología justifican el creciente costo de usar modelos de IA. Esto ha llevado a diferentes métodos para probar el rendimiento y la confiabilidad del maniquí.

Google Deepmind introdujo Hechos a tierraque prueba la capacidad de un maniquí para gestar respuestas fácticamente precisas basadas en la información de los documentos. Algunos investigadores de la Universidad de Yale y Tsinghua se desarrollaron puntos de relato de código autoinvocador para pilotar a las empresas para las cuales la codificación LLMS funcionan para ellos.


Jimit Patel
Jimit Patelhttps://butterword.com
📰 Periodista Independiente | 🌎 Entusiasta de las noticias latinoamericanas | Jimit Patel, un periodista consumado, entrega artículos de noticias confiables en español. Su escritura genera conversaciones, resuena con matices latinoamericanos y cubre eventos mundiales, estilo de vida, negocios, política, entretenimiento, viajes, deportes y tecnología.

Related Articles

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

STAY CONNECTED

326,453FansMe gusta
23,963SeguidoresSeguir
75,376SeguidoresSeguir

Latest Articles