OpenAi ha sido acentuado por muchos Partes de capacitar a su IA sobre contenido con derechos de autor sin permiso. Ahora un nuevo papel Según una estructura Watchdog AI, hace una seria imputación de que la compañía dependía cada vez más de los libros no públicos que no se licenció para capacitar a modelos de IA más sofisticados.
Los modelos de IA son motores de predicción esencialmente complejos. Entrenados en muchos datos (libros, películas, programas de televisión, etc., aprenden patrones y formas novedosas de inferir de un mensaje simple. Cuando un maniquí “escribe” un análisis sobre una tragedia griega o “dibuja” imágenes de estilo Gibli, simplemente está extrayendo de su vasto conocimiento a aproximarse. No está llegando a nulo nuevo.
Si admisiblemente varios laboratorios de IA, incluido OpenAI, han comenzado a adoptar datos generados por IA para entrenar a la IA a medida que agotan las fuentes del mundo positivo (principalmente la web pública), pocos han evitado los datos del mundo positivo por completo. Eso es probable porque el entrenamiento en datos puramente sintéticos viene con riesgos, como empeorar el rendimiento de un maniquí.
El nuevo artículo, del Esquema de Divulencias de AI, una estructura sin fines de beneficio cofundada en 2024 por el magnate de los medios Tim O’Reilly y el economista Ilan Strauss, llega a la conclusión de que OpenAi probablemente entrenó su GPT-4O Maniquí en libros de Paywalled de O’Reilly Media. (O’Reilly es el CEO de O’Reilly Media).
En ChatgptGPT-4O es el maniquí predeterminado. O’Reilly no tiene un acuerdo de abuso con Openai, dice el boletín.
“GPT-4O, el maniquí más nuevo y capaz de Openai, demuestra un robusto inspección del contenido de libros O’Reilly de Paywalled … en comparación con el maniquí inicial GPT-3.5 Turbo de OpenAI”, escribió los coautores del artículo. “En contraste, GPT-3.5 Turbo muestra un maduro inspección relativo de muestras de libros O’Reilly accesibles públicamente”.
El documento utilizó un método llamado De-capasintroducido por primera vez en un artículo escolar en 2024, diseñado para detectar contenido con derechos de autor en los datos de capacitación de modelos de idiomas. Todavía conocido como un “ataque de inferencia de membresía”, el método prueba si un maniquí puede distinguir de modo confiable textos autorizados por los humanos de versiones parafraseadas de IA del mismo texto. Si puede, sugiere que el maniquí podría tener un conocimiento previo del texto de sus datos de capacitación.
Los coautores del periódico-O’Reilly, Strauss y el investigador de IA Sruly Rosenblat-dicen que sondearon GPT-4O, GPT-3.5 Turboy el conocimiento de otros modelos Operai de los libros de medios O’Reilly publicados antiguamente y posteriormente de sus fechas de corte de capacitación. Usaron 13,962 extractos de párrafo de 34 libros de O’Reilly para estimar la probabilidad de que se haya incluido un extracto particular en el conjunto de datos de entrenamiento de un maniquí.
Según los resultados del documento, GPT-4O “reconoció” mucho más contenido de libros de O’Reilly que los modelos más antiguos de Openai, incluido GPT-3.5 Turbo. Eso es incluso posteriormente de tener en cuenta los posibles factores de confusión, dijeron los autores, como las mejoras en la capacidad de los modelos más nuevos para descubrir si el texto era facultado por los humanos.
“GPT-4O (probablemente) reconoce, y además lo ha hecho el conocimiento previo de muchos libros no públicos de O’Reilly publicados antiguamente de su término de corte de capacitación”, escribieron los coautores.
No es una pistola humeante, los coautores tienen cuidado de tener en cuenta. Reconocen que su método práctico no es infalible y que OpenAi podría poseer recopilado los extractos de libros con paredes de cuota de los usuarios que lo copian y lo pegarán en ChatGPT.
En el consumo de las aguas, los coautores no evaluaron la colección de modelos más nuevo de OpenAi, que incluye modelos GPT-4.5 y “razonamiento” como O3-Mini y O1. Es posible que estos modelos no estuvieran entrenados en los datos del ejemplar de O’Reilly de Paywalled o que hayan sido capacitados en una cantidad beocio que GPT-4O.
Dicho esto, no es ningún secreto que OpenAi, que ha abogado por restricciones más sueltas En torno a desarrollar modelos que utilizan datos con derechos de autor, ha estado buscando datos de capacitación de maduro calidad durante algún tiempo. La compañía ha ido tan allí como Contrata periodistas para ayudar a ajustar las futuro de sus modelos. Esa es una tendencia en toda la industria en caudillo: compañías de IA que reclutan expertos en dominios como la ciencia y la física para Hacer que estos expertos efectivamente alimenten sus conocimientos en los sistemas de IA.
Cerca de señalar que Openai paga al menos algunos de sus datos de capacitación. La compañía cuenta con acuerdos de abuso con editores de parte, redes sociales, bibliotecas de medios de actividad y otros. Operai además ofrece mecanismos de pega aunque imperfectos – que permiten a los propietarios de derechos de autor marcar el contenido que preferirían que la empresa no use para fines de capacitación.
Aún así, mientras Openai lucha contra varias demandas por sus prácticas de datos de capacitación y el tratamiento de la ley de derechos de autor en los tribunales de los Estados Unidos, el artículo de O’Reilly no es el aspecto más halagador.
Operai no respondió a una solicitud de comentarios.