Friday, February 21, 2025

Una vistazo debajo del capó de los transfomeros, la transformación del maniquí de IA de conducción de motor


Únase a nuestros boletines diarios y semanales para obtener las últimas actualizaciones y contenido exclusivo sobre la cobertura de IA líder de la industria. Obtenga más información


Hoy, prácticamente todos los productos y modelos de AI de vanguardia usan una casa de transformador. Modelos de idiomas grandes (LLMS) como GPT-4O, LLAMA, Géminis y Claude están basadas en transformadores, y otras aplicaciones de IA, como texto a voz, registro necesario de voz, engendramiento de imágenes y modelos de texto a video, tienen transformadores como sus subyacentes tecnología.

Con la exageración en torno a la IA que no es probable que disminuya el pronto, es hora de dar a los transformadores su conveniente, por eso me gustaría explicar un poco sobre cómo funcionan, por qué son tan importantes para el crecimiento de soluciones escalables y por qué Son la columna vertebral de LLMS.

Los transformadores son más de lo que parece

En extracto, un transformador es una casa de red neuronal diseñada para modelar secuencias de datos, lo que las hace ideales para tareas como la traducción del idioma, la finalización de las oraciones, el registro necesario de voz y más. Los transformadores positivamente se han convertido en la casa dominante para muchas de estas tareas de modelado de secuencias porque el mecanismo de atención subyacente puede ser fácilmente paralelo, lo que permite una escalera masiva cuando entrenamiento y realización de inferencia.

Originalmente introducido en un artículo de 2017, “La atención es todo lo que necesitas“De los investigadores de Google, el transformador se introdujo como una casa del codificador de codificadores diseñada específicamente para la traducción del idioma. Al año próximo, Google lanzó representaciones de codificadores bidireccionales de Transformers (BERT), que podría considerarse una de las primeras LLM, aunque ahora se considera pequeña según los estándares actuales.

Desde entonces, y especialmente acelerado con el arribada de los modelos GPT de Opadai – La tendencia ha sido entrenar modelos cada vez más grandes con más datos, más parámetros y ventanas de contexto más largas.

Para allanar esta transformación, ha habido muchas innovaciones como: hardware de GPU más liberal y un mejor software para la capacitación de GPU; técnicas como cuantización y mezcla de expertos (MOE) para sujetar el consumo de memoria; nuevos optimizadores para el entrenamiento, como Shampoo y Adamw; Técnicas para calcular de forma competente la atención, como la flashatención y el almacenamiento en elegancia de KV. La tendencia probablemente continuará en el futuro previsible.

La importancia de la autoatación en los transformadores

Dependiendo de la aplicación, un maniquí de transformador sigue una casa de codificador codificador. El componente del codificador aprende una representación vectorial de datos que luego se puede utilizar para tareas aguas debajo como la clasificación y el investigación de sentimientos. El componente del decodificador toma una representación vectorial o velado del texto o imagen y lo usa para gestar un nuevo texto, lo que lo hace útil para tareas como la finalización y el extracto de las oraciones. Por esta razón, muchos modelos familiares de última engendramiento, como la comunidad GPT, son solo decodificadores.

Los modelos de codificadores codificadores combinan uno y otro componentes, haciéndolos enseres para la traducción y otras tareas de secuencia a secuencia. Tanto para las arquitecturas del codificador como para el decodificador, el componente central es la capa de atención, ya que esto es lo que permite que un maniquí retenga el contexto de las palabras que aparecen mucho antiguamente en el texto.

La atención viene en dos sabores: autoatención y atención cruzada. La autoatación se usa para capturar relaciones entre las palabras en el interior de la misma secuencia, mientras que la atención cruzada se usa para capturar relaciones entre las palabras en dos secuencias diferentes. La atención cruzada conecta los componentes del codificador y el decodificador en un maniquí y durante la traducción. Por ejemplo, permite que la palabra inglesa “fresa” se relacione con la palabra francesa “fraise”. Matemáticamente, tanto la autoatención como la entrega cruzada son diferentes formas de multiplicación de matriz, que se pueden hacer de forma extremadamente competente utilizando una GPU.

Correcto a la capa de atención, los transformadores pueden capturar mejor las relaciones entre las palabras separadas por largas cantidades de texto, mientras que los modelos anteriores como las redes neuronales recurrentes (RNN) y los modelos de memoria a corto plazo (LSTM) largas pierden el vestigio de las palabras anteriores de las palabras de las palabras anteriores en el texto.

El futuro de los modelos

Actualmente, los transformadores son la casa dominante para muchos casos de uso que requieren LLM y se benefician de la decano cantidad de investigación y mejora. Aunque esto no parece cambiar pronto, una clase diferente de maniquí que ha manada interés recientemente son los modelos de espacio de estado (SSM) como Mamba. Este operación en gran medida competente puede manejar secuencias de datos muy largas, mientras que los transformadores están limitados por una ventana de contexto.

Para mí, las aplicaciones más emocionantes de los modelos de transformadores son los modelos multimodales. El GPT-4O de OpenAI, por ejemplo, es capaz de manejar texto, audio e imágenes, y otros proveedores están comenzando a seguir. Las aplicaciones multimodales son muy diversas, desde subtítulos de video hasta clonación de voz y segmentación de imágenes (y más). Además presentan la oportunidad de hacer que la IA sea más accesible para aquellos con discapacidades. Por ejemplo, una persona ciega podría ser atendida por la capacidad de interactuar a través de componentes de voz y audio de una aplicación multimodal.

Es un espacio emocionante con mucho potencial para descubrir nuevos casos de uso. Pero recuerde que, al menos en el futuro previsible, están en gran medida respaldados por Transformer Architecture.

Terrence Alsup es un verificado de datos senior en Finastra.

DataDecision Makers

¡Bienvenido a la comunidad VentureBeat!

DataDecisionmakers es donde los expertos, incluidas las personas técnicas que hacen trabajo de datos, pueden compartir información e innovación relacionadas con los datos.

Si desea estudiar sobre ideas de vanguardia e información actualizada, las mejores prácticas y el futuro de los datos y la tecnología de datos, únase a nosotros en DateCisionmakers.

Incluso podrías considerar Contribuyendo un artículo ¡Por lo tuyo!

Lea más de DataDecisionmakers


Jimit Patel
Jimit Patelhttps://butterword.com
📰 Periodista Independiente | 🌎 Entusiasta de las noticias latinoamericanas | Jimit Patel, un periodista consumado, entrega artículos de noticias confiables en español. Su escritura genera conversaciones, resuena con matices latinoamericanos y cubre eventos mundiales, estilo de vida, negocios, política, entretenimiento, viajes, deportes y tecnología.

Related Articles

DEJA UNA RESPUESTA

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

STAY CONNECTED

326,453FansMe gusta
23,963SeguidoresSeguir
75,376SeguidoresSeguir

Latest Articles