Red Hat, el principal proveedor mundial de soluciones de código abierto, ha anunciado el lanzamiento de llm-d, un nuevo proyecto de código abierto que aborda la necesidad más crítica del futuro de la IA generativa: la inferencia a gran escala. Utilizando tecnologías innovadoras de inferencia para la IA generativa a escala, llm-d es potenciado mediante una arquitectura nativa de Kubernetes, inferencia distribuida basada en vLLM y un enrutamiento de red inteligente con conciencia de IA, lo que permite que las robustas nubes de inferencia de los grandes modelos de lenguaje (LLM) cumplan con los objetivos de nivel de servicio (SLO) de producción más rigurosos.
Si bien el entrenamiento sigue siendo importante, la IA generativa depende realmente de una inferencia más eficiente y escalable, el motor que transforma los modelos de IA en conocimientos accionables y experiencias de usuario. Según Gartner1, "para 2028, a medida que el mercado madure, más del 80% de los aceleradores de carga de trabajo de los centros de datos se implementarán específicamente para uso de inferencia, en lugar de para uso de entrenamiento". Esto subraya que el futuro de la IA generativa reside en la capacidad de ejecución. La creciente demanda de recursos de modelos de razonamiento cada vez más complejos y de mayor tamaño limitan la viabilidad de la inferencia centralizada y amenazan con frenar la innovación de la IA con costes prohibitivos y una latencia paralizante.
Abordando la necesidad de inferencia de IA generativa escalable con llm-d
Red Hat y sus socios de la industria están afrontando directamente este desafío con llm-d, un proyecto visionario que amplifica el poder de vLLM para trascender las limitaciones de un solo servidor y desbloquear la producción a escala para la inferencia de IA. Utilizando la probada destreza de orquestación de Kubernetes, llm-d integra capacidades de inferencia avanzadas en las infraestructuras de TI empresariales existentes. Esta plataforma unificada permite a los equipos de TI responder a las diversas demandas de servicio de las cargas de trabajo críticas para el negocio, al mismo tiempo que despliega técnicas innovadoras para maximizar la eficiencia y reducir drásticamente el coste total de propiedad (TCO) vinculado a los aceleradores de IA de alto rendimiento.
llm-d ofrece un potente conjunto de innovaciones, destacando:
● vLLM, que se ha convertido rápidamente en el servidor de inferencia de facto estándar de código abierto, proporcionando soporte de modelos desde el día 0 para modelos de vanguardia emergentes, y soporte para una amplia lista de aceleradores, incluyendo ahora las Unidades de Procesamiento de Tensor (TPU) de Google Cloud.
● Desagregación de prefill y decode para separar las fases de contexto de entrada y generación de tokens de la IA en operaciones discretas, donde luego pueden distribuirse entre múltiples servidores.
● Descarga de caché KV (key-value), basada en LMCache, que traslada la carga de memoria de caché KV de la memoria de la GPU a un almacenamiento estándar más rentable y abundante, como la memoria de la CPU o el almacenamiento en red.
● Clústeres y controladores basados en Kubernetes para una programación más eficiente de los recursos de cómputo y almacenamiento a medida que fluctúan las demandas de carga de trabajo, manteniendo el rendimiento y una menor latencia.
● Enrutamiento de red consciente de la IA para programar las solicitudes entrantes a los servidores y aceleradores que tienen más probabilidades de tener cachés "calientes" de cálculos de inferencia anteriores.
● APIs de comunicación de alto rendimiento para una transferencia de datos más rápida y eficiente entre servidores, con soporte para NVIDIA Inference Xfer Library (NIXL).
llm-d: respaldado por líderes de la industria
Este nuevo proyecto de código abierto ya ha conseguido el apoyo de una impresionante coalición de proveedores líderes de modelos de IA generativa, pioneros en aceleradores de IA y destacadas plataformas de nube de IA. CoreWeave, Google Cloud, IBM Research y NVIDIA son colaboradores fundadores, y se suman como socios AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI, lo que pone de manifiesto la estrecha colaboración del sector para trazar el futuro del servicio de LLM a gran escala. La comunidad llm-d cuenta, además, con el apoyo de los fundadores del Sky Computing Lab de la Universidad de California, creadores de vLLM, y del LMCache Lab de la Universidad de Chicago, artífices de LMCache.
Arraigado en su firme compromiso con la colaboración abierta, Red Hat reconoce la trascendental importancia de contar con comunidades dinámicas y accesibles en el vertiginoso panorama de la inferencia de IA generativa. Red Hat promoverá activamente el desarrollo de la comunidad llm-d, cultivando un entorno inclusivo para los nuevos integrantes e impulsando su evolución constante.
La visión de Red Hat: cualquier modelo, cualquier acelerador, cualquier nube
El futuro de la IA debe estar definido por oportunidades ilimitadas, y no por las limitaciones impuestas por los silos de infraestructura. Red Hat ve un futuro donde las organizaciones pueden desplegar cualquier modelo, en cualquier acelerador, a través de cualquier nube, ofreciendo una experiencia de usuario excepcional y más consistente sin costes exorbitantes. Para desbloquear el verdadero potencial de las inversiones en IA generativa, las empresas necesitan una plataforma de inferencia universal: un estándar para una innovación en IA más fluida y de alto rendimiento, tanto ahora como en el futuro.
Así como Red Hat fue pionera en su propuesta de empresa abierta al transformar Linux en la base de la TI moderna, ahora está preparada para diseñar el futuro de la inferencia de IA. El potencial de vLLM es el de un eje central para la inferencia de IA generativa estandarizada, y Red Hat se compromete a crear un ecosistema próspero en torno no solo a la comunidad vLLM, sino también a llm-d para la inferencia distribuida a escala. La visión es clara: independientemente del modelo de IA, el acelerador subyacente o el entorno de implementación, Red Hat tiene la intención de convertir a vLLM en el estándar abierto definitivo para la inferencia en la nueva nube híbrida.
Brian Stevens, senior vice president and AI CTO, Red Hat
“El lanzamiento de la comunidad llm-d, apoyado por una vanguardia de líderes en IA, marca un momento decisivo para abordar la necesidad de inferencia de IA generativa escalable, un obstáculo fundamental que debe superarse para permitir una adopción más amplia de la IA empresarial. Al aprovechar la innovación de vLLM y las capacidades probadas de Kubernetes, llm-d allana el camino para una inferencia de IA distribuida, escalable y de alto rendimiento en la nube híbrida expandida, compatible con cualquier modelo, cualquier acelerador y en cualquier entorno de nube, contribuyendo así a materializar una visión de potencial ilimitado para la IA”.
Ramine Roane, corporate vice president, AI Product Management, AMD
"AMD se enorgullece de ser un miembro fundador de la comunidad llm-d, contribuyendo con nuestra experiencia en GPUs de alto rendimiento para impulsar la inferencia de IA y responder a las necesidades cambiantes de la IA empresarial. A medida que las organizaciones afrontan la creciente complejidad de la IA generativa en busca de una mayor escala y eficiencia, AMD confía en poder responder a esta demanda del sector a través del proyecto llm-d".
Shannon McFarland, vice president, Cisco Open Source Program Office & Head of Cisco DevNet
“El proyecto llm-d representa un avance apasionante para la IA generativa aplicada. llm-d faculta a los desarrolladores para integrar y escalar de forma programática la inferencia de IA generativa, abriendo así nuevas cotas de innovación y eficiencia en el actual panorama de la IA. Cisco se enorgullece de formar parte de la comunidad llm-d, donde colaboramos para explorar casos de uso reales que ayuden a las organizaciones a implementar la IA de manera más eficaz y eficiente”.
Chen Goldberg, senior vice president, Engineering, CoreWeave
“CoreWeave se enorgullece de ser un colaborador fundador del proyecto llm-d y de reforzar nuestro compromiso de larga trayectoria con la IA de código abierto. Desde nuestra colaboración inicial con EleutherAI hasta nuestro trabajo actual para impulsar la inferencia a escala, hemos invertido de manera constante en hacer que la potente infraestructura de IA sea más accesible. Nos entusiasma colaborar con un grupo excepcional de socios y con la comunidad de desarrolladores en general para construir un motor de inferencia flexible y de alto rendimiento que acelere la innovación y siente las bases para una IA abierta e interoperable”.
Mark Lohmeyer, vice president and general manager, AI & Computing Infrastructure, Google Cloud
"La inferencia de IA eficiente es fundamental a medida que las organizaciones avanzan al despliegue de la IA a gran escala y generan valor para sus usuarios. Al adentrarnos en esta nueva era de la inferencia, Google Cloud se enorgullece de construir sobre nuestro legado de contribuciones de código abierto como colaborador fundador del proyecto llm-d. Esta nueva comunidad actuará como un catalizador esencial para la inferencia de IA distribuida a escala, facilitando a los usuarios una mayor eficiencia en la gestión de sus cargas de trabajo y una mayor flexibilidad en la elección de sus recursos de infraestructura".
Jeff Boudier, Head of Product, Hugging Face
“Creemos que cada empresa debería poder construir y ejecutar sus propios modelos. Con vLLM aprovechando la biblioteca de transformadores de Hugging Face como fuente de verdad para las definiciones de modelos; una amplia diversidad de modelos, grandes y pequeños, está disponible para potenciar aplicaciones de IA de texto, audio, imagen y video. Ocho millones de desarrolladores de IA utilizan Hugging Face para colaborar en más de dos millones de modelos y conjuntos de datos de IA compartidos abiertamente con la comunidad global. Estamos emocionados de apoyar el proyecto llm-d para permitir a los desarrolladores llevar estas aplicaciones a escala”.
Priya Nagpurkar, vice president, Hybrid Cloud and AI Platform, IBM Research
“En IBM, consideramos que la siguiente etapa de la IA se centra en la eficiencia y la escala. Nos concentramos en generar valor para las empresas mediante soluciones de IA que puedan desplegar con eficacia. Como colaborador fundador de llm-d, IBM se enorgullece de desempeñar un papel fundamental en la creación de una plataforma de inferencia de IA distribuida, diferenciada y agnóstica al hardware. Esperamos seguir contribuyendo al crecimiento y al éxito de esta comunidad para transformar el porvenir de la inferencia de IA”.
Bill Pearson, vice president, Data Center & AI Software Solutions and Ecosystem, Intel
“La puesta en marcha de llm-d representará un punto de inflexión crucial para la industria en la impulsión de la transformación de la IA a gran escala, e Intel se entusiasma de participar como colaborador fundador. La implicación de Intel en llm-d es el hito más reciente en nuestra colaboración de décadas con Red Hat para dotar a las empresas de soluciones de código abierto que puedan desplegar en cualquier entorno, en la plataforma de su elección. Ansiamos seguir ampliando y fomentando la innovación en IA a través de la comunidad llm-d”.
Eve Callicoat, senior staff engineer, ML Platform, Lambda
"La inferencia es donde se entrega el valor real de la IA en el mundo real, y llm-d representa un gran salto adelante. Lambda se enorgullece de apoyar un proyecto que hace que la inferencia de vanguardia sea accesible, eficiente y abierta".
Ujval Kapasi, vice president, Engineering AI Frameworks, NVIDIA
“El proyecto llm-d constituye una valiosa incorporación al ecosistema de IA de código abierto y pone de manifiesto el respaldo de NVIDIA a la colaboración para impulsar la innovación en la IA generativa. Una inferencia escalable y de elevado rendimiento resulta fundamental para la siguiente oleada de IA generativa y agéntica. Colaboramos con Red Hat y otros socios para fomentar la implicación de la comunidad llm-d y su adopción en la industria, contribuyendo a acelerar llm-d con innovaciones de NVIDIA Dynamo como NIXL”.
Ion Stoica, Professor and Director of Sky Computing Lab, University of California, Berkeley
“Nos complace ver a Red Hat construir sobre el éxito establecido de vLLM, que tuvo su origen en nuestro laboratorio para ayudar a abordar los desafíos de velocidad y memoria que conlleva la ejecución de grandes modelos de IA. Proyectos de código abierto como vLLM, y ahora llm-d, que se fundamenta en vLLM, se sitúan en la vanguardia de la innovación en IA, afrontando los requisitos de inferencia de IA más rigurosos e impulsando un cambio significativo para la industria en su conjunto”.
Junchen Jiang, CS Professor, LMCache Lab, University of Chicago
“Las optimizaciones de caché KV distribuidas, como la descarga, la compresión y la combinación, han sido un enfoque clave de nuestro laboratorio, y nos entusiasma ver que llm-d aprovecha LMCache como un componente central para reducir el tiempo hasta el primer token, así como para mejorar el rendimiento, particularmente en la inferencia de contexto largo.”