Alexander Troshin (AMD), sobre las CPU EPYC: ‘hemos mejorado la eficiencia energética en más de 4 veces en 5 generaciones’

La quinta generación de estos procesadores para centros de datos permite a las empresas amortizar su inversión en 6-12 meses, asegura AMD

Alexander Troshin (AMD), sobre las CPU EPYC: ‘hemos mejorado la eficiencia energética en más de 4 veces en 5 generaciones’.AMD.

Alfredo Biurrun
Alfredo Biurrun

Creada: 20.03.2025 15:20

Última actualización: 20.03.2025 15:20

Para entender la importancia que tienen los centros de datos en la actualidad, podemos utilizar una analogía con el cuerpo humano. Son a Internet el equivalente al cerebro en una persona e igualmente imprescindible, dado que actúan como el núcleo de procesamiento y almacenamiento de información. De hecho, una de las discusiones habituales en los últimos tiempos, y más desde la explosión de servicios y productos de inteligencia artificial, son las necesidades energéticas que requieren, y ahí es donde entra AMD con su última generación de procesadores EPYC para centros de datos.

Lanzados en octubre, están basados en la arquitectura Zen 5, que llegó primero a portátiles y ordenadores de sobremesa el verano pasado, los EPYC de 5ª generación (Serie 9005) ofrecen una gama desde 8 hasta 192 núcleos (con 384 hilos de procesamiento), frecuencias más rápidas de hasta 5 GHz y compatibilidad con memoria DDR5 hasta 6.400 MT/s. Estos procesadores están diseñados para cargas de trabajo exigentes como IA, capacidades avanzadas para centros de datos modernos y una eficiencia energética mejorada. Según un reciente estudio global del Uptime Institute, el 40% de los servidores utilizados en los centros de datos de todo el mundo tienen al menos 6 años de antigüedad y utilizan 2 tercios (66%) de la energía de los centros de datos, mientras que solo producen el 7% de la capacidad de proceso total del mundo. AMD asegura que las últimas CPU EPYC pueden realizar la misma cantidad de trabajo de 1.000 servidores anticuados con solo 131 servidores AMD y ayudar a las empresas a amortizar las inversiones en tan solo 6-12 meses. LA RAZON ha entrevistado a Alexander Troshin, responsable de Marketing de productos y desarrollo de negocio - EMEA y la Unidad de negocio de servidores en AMD, sobre los centros de datos y el papel de los procesadores EPYC de 5ª generación.

¿Qué mejoras ofrecen los EPYC 5 frente a los EPYC 4 y la última generación Xeon de Intel?

Hay dos formas de mejorar el rendimiento: frecuencias más rápidas y hacer más trabajo durante cada ciclo de reloj [IPC o el número de instrucciones que puede ejecutar por cada ciclo de reloj]. Para la serie EPYC 9005, hicimos ambas cosas:

1) La serie AMD EPYC 9005 aporta un aumento de IPC de ~ 17% para la empresa y la nube, basado en la media ofrecida por 36 cargas de trabajo en servidores empresariales y la nube, además de un aumento aún mayor en HPC e IA 9xx5-001. con la introducción de un trazado de datos de 512b completo en el conjunto de instrucciones AVX512 ya disponible. AMD EPYC de 5ª generación proporciona una mejora media de hasta el 37% en el IPC básico para las cargas de trabajo de HPC e IA en comparación con la 4ª generación. Esto se calcula sobre la media de 24 cargas de trabajo de HPC e IA e incluimos cargas de trabajo en simulaciones e IA como NAMD, GROMACS, Resnet 50 y BERT.

2) También pudimos aumentar las frecuencias de CPU en toda la serie. Por ejemplo, al comparar una CPU AMD EPYC 9355 de 5ª generación con una CPU AMD EPYC 9354 de 4ª generación, pudimos aumentar la frecuencia base de 3,25 GHz a 3,55 GHz y el reloj boost máximo de 3,8 GHz a 4,4 GHz. Mientras que el recuento de núcleos de la CPU y el TDP del procesador se mantuvieron iguales, en 280 W. Como era de esperar, esto se traduciría en un mayor rendimiento a la misma potencia, lo que aumenta la eficiencia energética.

En cuanto a la comparación con la última generación de Intel Xeon, antes de nuestras pruebas internas, confiamos en la evaluación externa de terceros para comparar. Por ejemplo, Phoronix probó las últimas generaciones de AMD e Intel. Los resultados son muy convincentes: AMD tiene resultados líderes en compilación de núcleos, criptografía, Blender, GROMACS, compresión 7-ZIP y multitud de otras pruebas. Todo ello utilizando configuraciones de memoria estándar frente a la tecnología MRDIMM propietaria de Intel. Más resultados se pueden encontrar aquí.

Cuando hablamos de que 4 de cada 10 servidores en centros de datos tienen al menos 6 años de antigüedad, ¿de qué salto de rendimiento estamos hablando? Es decir, ¿cuánto han mejorado los procesadores para servidores de AMD en este tiempo?

En pocas palabras, mucho. Hay tres pilares clave en el diseño de la arquitectura Zen: escalabilidad, rendimiento y eficiencia energética. Esto es lo que pudimos lograr en cada pilar desde el lanzamiento del primer procesador AMD EPYC, basado en la arquitectura de núcleo Zen:

1) Escalabilidad: aumentamos el número de núcleos, hasta 32 por CPU en la primera generación y hasta 192 núcleos por CPU en la actual. Eso es un aumento de seis veces, al tiempo que sigue ofreciendo opciones núcleos de CPU desde 8 hasta 192 en la serie 9005.

2) Rendimiento: pudimos lograr un aumento de rendimiento de más de 11 veces en comparación con la última generación con la primera. Esto se mide en relación a la puntuación con SPECrate2017_int_base a finales del año de lanzamiento.

3) Eficiencia energética: al mismo tiempo, hemos mejorado la eficiencia energética o el rendimiento por vatio métrico en más de cuatro veces a lo largo de cinco generaciones. Esto se mide por la puntuación relativa SPECrate2017_int_base al final del año de lanzamiento, dividida por el TDP de la CPU.

Cuando AMD afirma que 131 servidores AMD pueden realizar el trabajo de 1.000 servidores antiguos, ¿con qué procesadores está comparando los EPYC?

Este es uno de los ejemplos que cualquiera puede construir utilizando la herramienta de estimación del coste total de propiedad (TCO) AMD Server & Greenhouse Gas Emissions. Compara las soluciones de servidor basadas en CPU AMD EPYC e Intel Xeon seleccionadas, necesarias para ofrecer un TOTAL_PERFORMANCE [rendimiento total] de 391.000 unidades de rendimiento SPECrate2017_int_base a fecha del 10 de octubre de 2024. Esta estimación compara un servidor 2P basado en Intel Xeon Platinum_8280 de 28 núcleos heredado con una puntuación de 391 frente a un servidor 2P EPYC 9965 (192C) con una puntuación de 3.000 junto con una actualización a un servidor basado en Intel Xeon Platinum 8592+ (64C) 2P con una puntuación de 1.130 en la comparación. La puntuación real de SPECrate 2017_int_base para EPYC 9965 2P variará en función de las decisiones de los fabricantes de equipos originales. Las estimaciones de impacto ambiental se realizaron aprovechando estos datos, utilizando los factores de electricidad específicos de cada país/región en la edición Internacional de Factores de Electricidad Específicos de País, 10 de julio de 2024, y la Calculadora de equivalencias de gases de efecto invernadero de la Agencia de Protección Ambiental de los Estados Unidos. Se puede obtener más información aquí. Básicamente, de la generación anterior a la actual.

¿Cuál podría ser el coste de renovar un centro de datos promedio con procesadores EPYC y en cuánto tiempo se amortiza esa inversión?

Depende del rendimiento deseado, la configuración, las expectativas de retorno de la inversión y otras consideraciones. No hay una medida única para todos. En el ejemplo anterior, el cliente puede lograr el mismo rendimiento requerido utilizando un número significativamente menor de servidores (hasta un 87 %), por lo tanto, menores costos de mantenimiento y significativamente menos energía (hasta un 68 %) que brindan hasta un 67 % menos de TCO a 3 años. En cuanto al costo, el precio del 9965 1kU es de 14.813 $ por CPU, mientras que el 8280 costaba 11.460 $ cuando se lanzó y mientras estuvo disponible. Teniendo en cuenta los requisitos de energía y el ahorro, en tal caso, el tiempo de recuperación de la inversión en hardware es inferior a un año, lo cual es excepcional. Por supuesto, no todos los centros de datos utilizan productos de la parte superior de la gama, por lo tanto, en otros casos será diferente. Cualquiera que desee ver por sí mismo cómo funcionaría la actualización en su caso, con los detalles de su infraestructura, puede usar las herramientas AMD EPYC TCO que están disponibles en amd.com, aquí.

¿Puede darme ejemplos de servicios y productos populares que utilicen procesadores EPYC de 5ª generación en sus centros de datos?

Es un poco pronto para saberlo, ya que lanzamos la 5ª generación de EPYC hace poco, en octubre de 2024 para ser exactos. Sin embargo, empresas y servicios como Netflix, Oracle Exadata, META (por ejemplo, Facebook), Salesforce, Uber, Microsoft Office 365, EPIC Games y muchos más utilizan varias generaciones de productos AMD EPYC en sus instalaciones y en la nube.

¿Cómo ha influenciado las demandas de cómputo para inteligencia artificial en la última generación de procesadores EPYC?

Además de un rendimiento y una eficiencia líderes con tareas de propósito general, los procesadores AMD EPYC de 5ª generación permiten a los clientes acelerar la obtención de información y las implementaciones de IA, tanto si ejecutan una CPU como una solución de CPU + GPU. Hemos diseñado específicamente la CPU 9575F de nueva generación para alimentar los nodos principales de IA. Lo que proporciona un gran rendimiento para las soluciones de CPU + GPU, como los nodos principales de IA. Hemos ampliado el trazado de datos para AVX-512 a 512 bits a partir del núcleo ‘Zen 5’, con lo que ahora los datos pueden leerse en la CPU en un solo ciclo de reloj. Además, hemos aumentado la cola de coma flotante, los programadores y las rutas de forma exponencial.

En comparación con la competencia, la CPU EPYC 9965 de 192 núcleos ofrece hasta 3,7 veces más rendimiento en tareas de IA de extremo a extremo, como TPCx-AI (derivado), que son fundamentales para impulsar un enfoque eficiente de la IA generativa. (9xx5-012).

En modelos de IA generativa de clase empresarial de tamaño pequeño y mediano, como Llama 3.1-8B de Meta, el EPYC 9965 proporciona un rendimiento 1,9 veces superior al de la competencia. (9xx5-009).

Por último, el EPYC 9575F, la CPU de nodo anfitrión de IA diseñada para este entorno, puede utilizar su aumento de frecuencia máxima de 5 GHz para ayudar a que un clúster de IA de 1.000 nodos genere hasta 700.000 tokens más de inferencia por segundo. Hacen más, más rápido (9xx5-087).

Además, seguimos ampliando nuestras bibliotecas ZenDNN centradas en la inferencia de aceleración de redes neuronales profundas optimizadas para la arquitectura de CPU Zen, mejorando el rendimiento en multitud de tareas, incluida la inferencia en modelos generativos de grandes lenguajes, como Llama.

Para el usuario de PC´s de consumo, ¿cómo se comparan los procesadores EPYC de AMD con los Ryzen, también con arquitectura Zen 5, que pueden comprar para montar un ordenador doméstico?

La escala es completamente diferente. Las CPU Ryzen escalan hasta 16 núcleos, mientras que las CPU EPYC pueden tener una enorme cantidad de hasta 192 núcleos por CPU y también la capacidad de escalar aún más con configuraciones de dos sockets. La huella de memoria también es muy diferente, con hasta 192 GB de RAM por CPU en Ryzen (2 canales de memoria) hasta escalar a 9 TB de memoria por zócalo en EPYC. Un ejemplo para un consumidor en juegos sería comparar la ejecución de un cliente de juego en su PC con la ejecución de varios servidores de juegos al mismo tiempo en un servidor concreto.

¿Cómo se traduce el liderazgo de AMD en superordenadores y soluciones de IA en beneficios tangibles para el consumidor promedio? ¿Qué aplicaciones o servicios que usamos a diario se ven mejorados por estas tecnologías?

Buena pregunta y no siempre es visible de inmediato. Al asociarnos e impulsar superordenadores y soluciones de IA en todo el mundo, mejoramos las diferentes experiencias cotidianas al proporcionar recursos y herramientas a los científicos en campos como la predicción meteorológica, la seguridad cibernética; investigación genética; astrofísica y bioinformática; física subatómica; investigación en física de partículas; desarrollo de vacunas; la creación de modelos de lenguaje grandes abiertos, y muchos más. Se puede decir que la computación es el combustible para la investigación y los avances.

¿Podría explicar de forma sencilla cómo la consolidación de centros de datos con procesadores AMD EPYC puede afectar al coste y la disponibilidad de servicios digitales que usamos a diario, como el streaming de vídeo o las redes sociales?

¡Gran y complicada pregunta! En primer lugar, por supuesto, algunos o todo el coste de hardware e infraestructura de los proveedores de servicios, más los costes operativos, se transfieren al usuario final. Al disminuir esos costes a través de la consolidación, en teoría, las empresas pueden disminuir los precios de sus ofertas.

En segundo lugar, siempre que se cumplan las métricas de rendimiento y se logre el nivel decente de redundancia requerido, la disponibilidad de esos servicios no se verá afectada. Por lo tanto, el uso de un menor número de servidores físicos no da como resultado una menor disponibilidad.

Por último, está la experiencia de usuario. La transmisión de video y las redes sociales pueden seguir patrones diferentes. Por ejemplo, la transmisión de video depende en gran medida de la calidad y el rendimiento de la red, por lo tanto, la infraestructura de red y las velocidades son primordiales allí. Mientras que los proveedores de redes de entrega de contenido, como Cloudflare, se centran cada vez más en la eficiencia en lugar del rendimiento. Ya que necesitan equilibrar la carga y las solicitudes en toda la infraestructura, para garantizar tiempos de carga rápidos y una experiencia fluida para los usuarios de todo el mundo (por ejemplo, en las redes sociales).

Así que, una vez más, no existe una solución única para todos y es emocionante ver que diferentes actores en el mercado utilizan AMD EPYC para ofrecer la mejor experiencia a los usuarios finales.

En el contexto de la sostenibilidad, ¿cómo contribuyen las soluciones de AMD para centros de datos a un futuro más ecológico y cómo puede el consumidor ser consciente de ese impacto positivo?

Nosotros, en AMD, seguimos impulsando el rendimiento, pero también la eficiencia energética, por lo tanto, ofrecemos el rendimiento por vatio más atractivo. AMD tiene un objetivo de 30x25, lo que significa ofrecer un aumento de 30 veces en la eficiencia energética de los procesadores y aceleradoras de AMD que alimentan los servidores para el entrenamiento de IA y HPC entre 2020 y 2025. Con la última actualización de 2024, estamos en una mejora de la eficiencia de ~28,3 veces utilizando aceleradoras AMD Instinct MI300X emparejadas con CPU host AMD EPYC 9575F, en comparación con la línea de base del objetivo de 2020.

Otro poderoso ejemplo es el desarrollo de ‘chiplets’ de AMD. Un enfoque revolucionario de diseño de semiconductores que abarca la arquitectura modular. La innovación aborda varios desafíos tecnológicos y de sostenibilidad simultáneamente. Como reducir los impactos ambientales y los costos de fabricación, al tiempo que aumenta el rendimiento informático y la eficiencia energética. En lugar de un gran chip monolítico, los ingenieros de AMD reconfiguraron los componentes IP Building Blocks utilizando una conectividad flexible y escalable que diseñamos, conocida como Infinity Fabric. Esto sentó las bases para nuestra arquitectura Infinity, configurando múltiples chiplets individuales para escalar núcleos de cómputo en innumerables diseños, que optimizan aún más la eficiencia energética. AMD midió recientemente los beneficios de sostenibilidad de los chiplets en el proceso de fabricación de obleas, para una línea de productos, y los resultados son convincentes. La producción de CPU EPYC de 4ª generación con 8 chiplets para computación separados, en lugar de una matriz monolítica, ahorró ~50K toneladas métricas de CO2e en 2023. Al evitar las obleas fabricadas, es aproximadamente lo mismo que la huella de CO2e operativa anual de AMD en 2022.

Y por último, pero no menos importante, los consumidores deben ser conscientes de que las principales organizaciones de investigación del mundo ya eligen AMD por su rendimiento y eficiencia energética. Actualmente, según la última lista Top500, AMD alimenta 5 de los 10 mejores superordenadores del mundo, incluidos los sistemas de exaescala (Top-1 - El Capitan y Top-2 - Frontier), así como el superordenador más rápido de Europa (ENI, Italia, en el Top-5). Al mismo tiempo, 15 de los 25 principales superordenadores Green-500 también utilizan AMD.