Enfoque

viernes 20 de junio | 2025

Red Hat lanza la comunidad llm-d para potenciar la inferencia distribuida de IA generativa a gran escala

Creado en colaboración con sus colaboradores fundadores CoreWeave, Google Cloud, IBM Research y NVIDIA, y al que se han sumado líderes de la industria como AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI, junto con el apoyo universitario de la Universidad de California, Berkeley, y la Universidad de Chicago, el proyecto busca que la IA generativa en producción alcance la misma omnipresencia que Linux.

Red Hat, el principal proveedor mundial de soluciones de código abierto, ha anunciado el lanzamiento de llm-d, un nuevo proyecto de código abierto que aborda la necesidad más crítica del futuro de la IA generativa: la inferencia a gran escala. Utilizando tecnologías innovadoras de inferencia para la IA generativa a escala, llm-d es potenciado mediante una arquitectura nativa de Kubernetes, inferencia distribuida basada en vLLM y un enrutamiento de red inteligente con conciencia de IA, lo que permite que las robustas nubes de inferencia de los grandes modelos de lenguaje (LLM) cumplan con los objetivos de nivel de servicio (SLO) de producción más rigurosos.

Si bien el entrenamiento sigue siendo importante, la IA generativa depende realmente de una inferencia más eficiente y escalable, el motor que transforma los modelos de IA en conocimientos accionables y experiencias de usuario. Según Gartner1, "para 2028, a medida que el mercado madure, más del 80% de los aceleradores de carga de trabajo de los centros de datos se implementarán específicamente para uso de inferencia, en lugar de para uso de entrenamiento". Esto subraya que el futuro de la IA generativa reside en la capacidad de ejecución. La creciente demanda de recursos de modelos de razonamiento cada vez más complejos y de mayor tamaño limitan la viabilidad de la inferencia centralizada y amenazan con frenar la innovación de la IA con costes prohibitivos y una latencia paralizante.

Abordando la necesidad de inferencia de IA generativa escalable con llm-d

Red Hat y sus socios de la industria están afrontando directamente este desafío con llm-d, un proyecto visionario que amplifica el poder de vLLM para trascender las limitaciones de un solo servidor y desbloquear la producción a escala para la inferencia de IA. Utilizando la probada destreza de orquestación de Kubernetes, llm-d integra capacidades de inferencia avanzadas en las infraestructuras de TI empresariales existentes. Esta plataforma unificada permite a los equipos de TI responder a las diversas demandas de servicio de las cargas de trabajo críticas para el negocio, al mismo tiempo que despliega técnicas innovadoras para maximizar la eficiencia y reducir drásticamente el coste total de propiedad (TCO) vinculado a los aceleradores de IA de alto rendimiento.

llm-d ofrece un potente conjunto de innovaciones, destacando:

● vLLM, que se ha convertido rápidamente en el servidor de inferencia de facto estándar de código abierto, proporcionando soporte de modelos desde el día 0 para modelos de vanguardia emergentes, y soporte para una amplia lista de aceleradores, incluyendo ahora las Unidades de Procesamiento de Tensor (TPU) de Google Cloud.

● Desagregación de prefill y decode para separar las fases de contexto de entrada y generación de tokens de la IA en operaciones discretas, donde luego pueden distribuirse entre múltiples servidores.

● Descarga de caché KV (key-value), basada en LMCache, que traslada la carga de memoria de caché KV de la memoria de la GPU a un almacenamiento estándar más rentable y abundante, como la memoria de la CPU o el almacenamiento en red.

● Clústeres y controladores basados en Kubernetes para una programación más eficiente de los recursos de cómputo y almacenamiento a medida que fluctúan las demandas de carga de trabajo, manteniendo el rendimiento y una menor latencia.

● Enrutamiento de red consciente de la IA para programar las solicitudes entrantes a los servidores y aceleradores que tienen más probabilidades de tener cachés "calientes" de cálculos de inferencia anteriores.

● APIs de comunicación de alto rendimiento para una transferencia de datos más rápida y eficiente entre servidores, con soporte para NVIDIA Inference Xfer Library (NIXL).

llm-d: respaldado por líderes de la industria

Este nuevo proyecto de código abierto ya ha conseguido el apoyo de una impresionante coalición de proveedores líderes de modelos de IA generativa, pioneros en aceleradores de IA y destacadas plataformas de nube de IA. CoreWeave, Google Cloud, IBM Research y NVIDIA son colaboradores fundadores, y se suman como socios AMD, Cisco, Hugging Face, Intel, Lambda y Mistral AI, lo que pone de manifiesto la estrecha colaboración del sector para trazar el futuro del servicio de LLM a gran escala. La comunidad llm-d cuenta, además, con el apoyo de los fundadores del Sky Computing Lab de la Universidad de California, creadores de vLLM, y del LMCache Lab de la Universidad de Chicago, artífices de LMCache.

Arraigado en su firme compromiso con la colaboración abierta, Red Hat reconoce la trascendental importancia de contar con comunidades dinámicas y accesibles en el vertiginoso panorama de la inferencia de IA generativa. Red Hat promoverá activamente el desarrollo de la comunidad llm-d, cultivando un entorno inclusivo para los nuevos integrantes e impulsando su evolución constante.

La visión de Red Hat: cualquier modelo, cualquier acelerador, cualquier nube

El futuro de la IA debe estar definido por oportunidades ilimitadas, y no por las limitaciones impuestas por los silos de infraestructura. Red Hat ve un futuro donde las organizaciones pueden desplegar cualquier modelo, en cualquier acelerador, a través de cualquier nube, ofreciendo una experiencia de usuario excepcional y más consistente sin costes exorbitantes. Para desbloquear el verdadero potencial de las inversiones en IA generativa, las empresas necesitan una plataforma de inferencia universal: un estándar para una innovación en IA más fluida y de alto rendimiento, tanto ahora como en el futuro.

Así como Red Hat fue pionera en su propuesta de empresa abierta al transformar Linux en la base de la TI moderna, ahora está preparada para diseñar el futuro de la inferencia de IA. El potencial de vLLM es el de un eje central para la inferencia de IA generativa estandarizada, y Red Hat se compromete a crear un ecosistema próspero en torno no solo a la comunidad vLLM, sino también a llm-d para la inferencia distribuida a escala. La visión es clara: independientemente del modelo de IA, el acelerador subyacente o el entorno de implementación, Red Hat tiene la intención de convertir a vLLM en el estándar abierto definitivo para la inferencia en la nueva nube híbrida.

Brian Stevens, senior vice president and AI CTO, Red Hat

“El lanzamiento de la comunidad llm-d, apoyado por una vanguardia de líderes en IA, marca un momento decisivo para abordar la necesidad de inferencia de IA generativa escalable, un obstáculo fundamental que debe superarse para permitir una adopción más amplia de la IA empresarial. Al aprovechar la innovación de vLLM y las capacidades probadas de Kubernetes, llm-d allana el camino para una inferencia de IA distribuida, escalable y de alto rendimiento en la nube híbrida expandida, compatible con cualquier modelo, cualquier acelerador y en cualquier entorno de nube, contribuyendo así a materializar una visión de potencial ilimitado para la IA”.

Ramine Roane, corporate vice president, AI Product Management, AMD

"AMD se enorgullece de ser un miembro fundador de la comunidad llm-d, contribuyendo con nuestra experiencia en GPUs de alto rendimiento para impulsar la inferencia de IA y responder a las necesidades cambiantes de la IA empresarial. A medida que las organizaciones afrontan la creciente complejidad de la IA generativa en busca de una mayor escala y eficiencia, AMD confía en poder responder a esta demanda del sector a través del proyecto llm-d".

Shannon McFarland, vice president, Cisco Open Source Program Office & Head of Cisco DevNet

“El proyecto llm-d representa un avance apasionante para la IA generativa aplicada. llm-d faculta a los desarrolladores para integrar y escalar de forma programática la inferencia de IA generativa, abriendo así nuevas cotas de innovación y eficiencia en el actual panorama de la IA. Cisco se enorgullece de formar parte de la comunidad llm-d, donde colaboramos para explorar casos de uso reales que ayuden a las organizaciones a implementar la IA de manera más eficaz y eficiente”.

Chen Goldberg, senior vice president, Engineering, CoreWeave

“CoreWeave se enorgullece de ser un colaborador fundador del proyecto llm-d y de reforzar nuestro compromiso de larga trayectoria con la IA de código abierto. Desde nuestra colaboración inicial con EleutherAI hasta nuestro trabajo actual para impulsar la inferencia a escala, hemos invertido de manera constante en hacer que la potente infraestructura de IA sea más accesible. Nos entusiasma colaborar con un grupo excepcional de socios y con la comunidad de desarrolladores en general para construir un motor de inferencia flexible y de alto rendimiento que acelere la innovación y siente las bases para una IA abierta e interoperable”.

Mark Lohmeyer, vice president and general manager, AI & Computing Infrastructure, Google Cloud

"La inferencia de IA eficiente es fundamental a medida que las organizaciones avanzan al despliegue de la IA a gran escala y generan valor para sus usuarios. Al adentrarnos en esta nueva era de la inferencia, Google Cloud se enorgullece de construir sobre nuestro legado de contribuciones de código abierto como colaborador fundador del proyecto llm-d. Esta nueva comunidad actuará como un catalizador esencial para la inferencia de IA distribuida a escala, facilitando a los usuarios una mayor eficiencia en la gestión de sus cargas de trabajo y una mayor flexibilidad en la elección de sus recursos de infraestructura".

Jeff Boudier, Head of Product, Hugging Face

“Creemos que cada empresa debería poder construir y ejecutar sus propios modelos. Con vLLM aprovechando la biblioteca de transformadores de Hugging Face como fuente de verdad para las definiciones de modelos; una amplia diversidad de modelos, grandes y pequeños, está disponible para potenciar aplicaciones de IA de texto, audio, imagen y video. Ocho millones de desarrolladores de IA utilizan Hugging Face para colaborar en más de dos millones de modelos y conjuntos de datos de IA compartidos abiertamente con la comunidad global. Estamos emocionados de apoyar el proyecto llm-d para permitir a los desarrolladores llevar estas aplicaciones a escala”.

Priya Nagpurkar, vice president, Hybrid Cloud and AI Platform, IBM Research

“En IBM, consideramos que la siguiente etapa de la IA se centra en la eficiencia y la escala. Nos concentramos en generar valor para las empresas mediante soluciones de IA que puedan desplegar con eficacia. Como colaborador fundador de llm-d, IBM se enorgullece de desempeñar un papel fundamental en la creación de una plataforma de inferencia de IA distribuida, diferenciada y agnóstica al hardware. Esperamos seguir contribuyendo al crecimiento y al éxito de esta comunidad para transformar el porvenir de la inferencia de IA”.

Bill Pearson, vice president, Data Center & AI Software Solutions and Ecosystem, Intel

“La puesta en marcha de llm-d representará un punto de inflexión crucial para la industria en la impulsión de la transformación de la IA a gran escala, e Intel se entusiasma de participar como colaborador fundador. La implicación de Intel en llm-d es el hito más reciente en nuestra colaboración de décadas con Red Hat para dotar a las empresas de soluciones de código abierto que puedan desplegar en cualquier entorno, en la plataforma de su elección. Ansiamos seguir ampliando y fomentando la innovación en IA a través de la comunidad llm-d”.

Eve Callicoat, senior staff engineer, ML Platform, Lambda

"La inferencia es donde se entrega el valor real de la IA en el mundo real, y llm-d representa un gran salto adelante. Lambda se enorgullece de apoyar un proyecto que hace que la inferencia de vanguardia sea accesible, eficiente y abierta".

Ujval Kapasi, vice president, Engineering AI Frameworks, NVIDIA

“El proyecto llm-d constituye una valiosa incorporación al ecosistema de IA de código abierto y pone de manifiesto el respaldo de NVIDIA a la colaboración para impulsar la innovación en la IA generativa. Una inferencia escalable y de elevado rendimiento resulta fundamental para la siguiente oleada de IA generativa y agéntica. Colaboramos con Red Hat y otros socios para fomentar la implicación de la comunidad llm-d y su adopción en la industria, contribuyendo a acelerar llm-d con innovaciones de NVIDIA Dynamo como NIXL”.

Ion Stoica, Professor and Director of Sky Computing Lab, University of California, Berkeley

“Nos complace ver a Red Hat construir sobre el éxito establecido de vLLM, que tuvo su origen en nuestro laboratorio para ayudar a abordar los desafíos de velocidad y memoria que conlleva la ejecución de grandes modelos de IA. Proyectos de código abierto como vLLM, y ahora llm-d, que se fundamenta en vLLM, se sitúan en la vanguardia de la innovación en IA, afrontando los requisitos de inferencia de IA más rigurosos e impulsando un cambio significativo para la industria en su conjunto”.

Junchen Jiang, CS Professor, LMCache Lab, University of Chicago

“Las optimizaciones de caché KV distribuidas, como la descarga, la compresión y la combinación, han sido un enfoque clave de nuestro laboratorio, y nos entusiasma ver que llm-d aprovecha LMCache como un componente central para reducir el tiempo hasta el primer token, así como para mejorar el rendimiento, particularmente en la inferencia de contexto largo.”

Tu opinión enriquece este artículo:

Ingresar con Google

Nota Principal

HIP 2026 pone a Madrid en el foco mundial de la hostelería y deja un impacto económico de más de 102 millones

La hostelería tiene desde el próximo lunes hasta el miércoles, 18 de febrero, una cita en Madrid. HIP 2026, la mayor feria en Europa de soluciones para el ámbito HORECA, abrirá sus puertas el 16 de febrero en IFEMA Madrid para recibir a más de 60.000 empresarios, directivos y profesionales de la industria que descubrirán las estrategias y herramientas con las que mejorar la competitividad de sus empresas. Con ello, el encuentro posicionará la ciudad como capital mundial de la innovación hostelera y dejará un impacto económico de más de 102 millones de euros.

InfoStartUps

Al Andalus Innovation Venture abre la convocatoria de su V edición para encontrar a las startups y scaleups más prometedoras de Iberia

Al Andalus Innovation Venture, el mayor foro de startups e innovación abierta de Andalucía, ha lanzado oficialmente la convocatoria para su quinta edición. La cita, que se celebrará los días 22 y 23 de septiembre de 2026 en Sevilla, en el Pabellón de la Navegación (Cartuja) busca atraer a las startups y scaleups más disruptivas de España y Portugal.

Y además

Casi 1 de cada 4 personas ha mantenido una relación sentimental en el trabajo

El trabajo ocupa una parte central de la vida, de ahí la importancia que adquiere ese espacio compartido con otras personas y las relaciones que se establecen en él. Tanto es así que, según los últimos datos de la encuesta de InfoJobs sobre Relaciones personales en el entorno laboral, 6 de cada 10 españoles (63%) perciben su relación con los compañeros como muy positiva, contabilizando una valoración media de 6,9 sobre 10. Las relaciones profesionales no solo favorecen la colaboración y el buen clima, sino que también propician lazos personales y sentimentales, difuminando cada vez más la frontera entre lo laboral y lo privado.

InfoStartUps

El estado de la innovación en España"_El 80% de las empresas ya innovan en España, pero solo 1 de cada 6 logra llevar esa innovación al negocio

Las empresas españolas ya han superado la fase exploratoria de la innovación, pero aún no han resuelto cómo trasladarla al negocio y generar impacto. El informe El estado de la innovación en España, elaborado por PATIO Campus, hub de innovación corporativa abierta, analiza el grado de madurez del ecosistema de la innovación corporativa y concluye que el principal reto ya no es innovar, sino cerrar la brecha entre experimentación, despliegue operativo e impacto económico.

C-Level

L'Oréal nombrará a Pablo Isla vicepresidente del grupo

El consejo de administración someterá a la Junta General de Accionistas, que se celebrará el próximo 24 de abril, el nombramiento de Pablo Isla, actual presidente de Nestlé y exconsejero delegado de Inditex entre 2005 y 2011, como vicepresidente del grupo, según ha informado la empresa en un comunicado.

Enfoque

Ayesa Digital prevé aumentar la plantilla cerca de un 10% en todos sus hubs tecnológicos hasta 2027

Ayesa Digital, proveedor global de servicios digitales, prevé aumentar cerca de un 10% el número de profesionales en todos sus hubs tecnológicos para acompañar al crecimiento del negocio hasta 2027. Así lo ha trasladado Antón Arriola, presidente de Kutxabank y representante del consorcio inversor que el pasado 31 de diciembre alcanzó un acuerdo para adquirir la firma tecnológica. El cierre de la operación está previsto para las próximas semanas tras la necesaria aprobación por parte de las autoridades competentes.

InfoStartUps

Urbanitae entre las empresas tecnológicas de mayor crecimiento en España según el ranking ‘Deloitte Technology Fast 50’

Urbanitae, plataforma española de inversión inmobiliaria, ha sido reconocida con el puesto 23 del prestigioso ranking ‘Deloitte Technology Fast 50 Programme’, que distingue a las 50 empresas tecnológicas de mayor escalabilidad del ecosistema emprendedor en España.

Y además

Garbage se suma al ciclo o gozo 2026 el próximo mes de julio como parte de su gira de despedida

La icónica banda de rock Garbage ha confirmado un concierto el 6 de julio en la Sala Pelícano de A Coruña , dentro de la programación del ciclo O Gozo 2026, que formará parte de su esperada gira de despedida, con el apoyo de la Xunta de Galicia a través de la Agencia Turismo de Galicia.

Plus

“Los menores podrán seguir encontrando vías para esquivar el nuevo control de acceso a redes sociales si el sistema no se diseña con garantías técnicas y legales” (advierten los expertos)

España se prepara para implantar uno de los marcos regulatorios más estrictos de Europa en materia de protección digital de menores. El Gobierno ultima un paquete legislativo que prohibirá el acceso a redes sociales a los menores de 16 años y obligará a las plataformas a desplegar sistemas de verificación de edad fiables y auditables.

Plus

Amazon Ads lanza Creative Agent, una herramienta de IA que crea anuncios con calidad profesional

Amazon Ads ha lanzado en España, Creative Agent, una herramienta de IA que ayuda a crear campañas publicitarias de forma sencilla y con calidad profesional. La solución cubre todo el proceso creativo, desde la investigación de mercado y audiencias hasta el diseño y la producción final de materiales en diversos formatos gráficos y de vídeo. Con ella, Amazon Ads permite a empresas de todos los tamaños y sectores crear campañas publicitarias que conecten con sus clientes, reduciendo costes y tiempo de producción.

Red Hat lanza la comunidad llm-d para potenciar la inferencia distribuida de IA generativa a gran escala

Compartir con tus amigos de

Tu opinión enriquece este artículo:

Te puede interesar:

Suscribite gratis a nuestro newsletter