
La creciente demanda de computadoras para ejecutar modelos de IA no ha hecho más que acelerarse, pero hay dos obstáculos importantes que cualquier persona en el negocio debe aventajar: conseguir los chips adecuados y llevarlos a los centros de datos donde puedan iniciar a crear ingresos.
Común Compute, una nueva neonube de inferencia (una empresa que alquila potencia de procesamiento de IA, especializándose en la etapa en la que los modelos se ejecutan y responden a los usuarios en emplazamiento de aceptar capacitación) tiene respuestas a esas preguntas que iluminan en dirección a dónde se dirige el ecosistema de IA. Esas respuestas le ayudaron a percibir una ronda auténtico de 15 millones de dólares con una valoración posterior al billete de 60 millones de dólares, liderada por FUSE VC con la décimo de Carya Venture Partners y Village Mundial Ventures.
Primero, ¿cuál es el chip correcto? La demanda de GPU se ha disparado, pero se está convirtiendo en una opinión generalizada que no son los chips más adecuados para ejecutar modelos de IA una vez que han sido entrenados. La etapa de la IA en la que un maniquí genera respuestas activamente tiene requisitos computacionales diferentes a los del entrenamiento, y se está diseñando una nueva clase de chips específicamente para ella. La transacción Groq de Nvidia por 20 mil millones de dólares en diciembre y la ofrecimiento pública auténtico de 57 mil millones de dólares de Cerebras la semana pasada señalan el camino.
Con la capacidad limitada en ambas empresas, los cofundadores de Común Compute, el director ejecutor Finn Puklowski y el director de tecnología Jason Goodison, encontraron otra opción. Están recurriendo a chips especializados construidos por SambaNova, un fabricante de chips respaldado por Intel centrado en la inferencia que ha quedado un poco fuera de la conversación de Silicon Valley.
Eso puede cambiar cuando SambaNova suceso sus nuevos chips este año. La inmueble es más flexible y utiliza más memoria para juntar contexto durante los cálculos de inferencia, y SambaNova afirma que supera no sólo a las GPU sino todavía a otros chips especializados construidos por empresas como Groq o Cerebras. Puklowski dice que los nuevos chips generarán entre 600 y 700 tokens por segundo, frente a los aproximadamente 250 tokens por segundo de las GPU.
Común Compute tiene pedidos por 300 millones de dólares en chips SN50 de la compañía y dice que será la primera neocloud que los implemente.
Estos chips todavía ayudan a resolver el segundo gran problema (dónde colocarlos) para Común Compute: están enfriados por aerofagia, no por agua, y consumen menos energía, por lo que pueden instalarse en instalaciones de centros de datos existentes sin nuevas inversiones en infraestructura.
Puklowski está buscando acuerdos de colocación (acuerdos en los que Común Compute instala su hardware en las instalaciones de otra persona) no solo con proveedores de centros de datos, sino todavía con criptomineros que buscan reutilizar su infraestructura, ya que el costo de producir un bitcoin a menudo ha excedido su precio.
Común Compute lanzó su ofrecimiento en la cirro la semana pasada, afirmando que ya es el más rápido en ejecutar MiniMax 2.7, un potente LLM de código campechano.
Joe Hasselmann es un inversor de aventura que entró en la etapa auténtico del auge de la inferencia cuando invirtió en Groq en 2021. Este año, lanzó un nuevo fondo, Evercrest Hacienda Partners, centrado en el espacio de la inteligencia fabricado e hizo de Común Compute su primera inversión. Hassleman ve en la asociación de SambaNova con Común Compute paralelos con la relación de Coreweave con Nvidia y con la combinación de la fabricación de chips de Groq con su precedente ofrecimiento de cirro.
“Necesitan una combinación saludable de clientes que coloquen sus chips en entornos que tengan un detención crecimiento para ellos”, dijo Hassleman. “Por mucho que Común Compute esté apostando por SambaNova, SambaNova está apostando por Común Compute”.
La pregunta es qué tipo de inmueble informática capturará el longevo valencia en el futuro de la IA. Las nubes de inferencia son apuestas implícitas en un mundo de múltiples modelos y agentes, donde ningún proveedor domina y la velocidad y el costo de la inferencia se convierten en las variables competitivas secreto. Considere el $113 millones Serie B recaudado para OpenRouter esta semana, lo que refleja la capacidad de la compañía para ofrecer a los clientes paso a múltiples modelos para optimizar su consumición en tokens.
La velocidad importa en ese cálculo, tanto por el precio como por la capacidad. Puklowski quiere convertir las cargas de trabajo de una hora para los agentes de codificación en tareas de cinco o diez minutos, y hacer que los agentes de audio para el servicio al cliente, que requieren una inferencia más rápida para conversar de modo efectiva, sean más económicos.
“Si usa ChatGPT y le proporciona 50 tokens por segundo, sigue siendo mucho más rápido de lo que podemos percibir”, dijo Puklowski a TechCrunch, “ahora que las cosas se han movido a agente a agente, donde los agentes están leyendo en nuestro nombre o haciendo ping a las bases de datos, necesitan ir más rápido”.
Cuando operación a través de enlaces en nuestros artículos, podemos cobrar una pequeña comisión. Esto no afecta nuestra independencia editorial.
Percibir más Tech News in Spanish

