AMD está haciendo grandes esfuerzos con una arquitectura que parecía un pequeño paso adelante más que un avance claro para competir con NVIDIA. Con motivo del Hot Chip 2025 los rojos han mostrado varias claves de su nueva arquitectura RDNA 4, y entre ellas destacan la flexibilidad para crear diferentes modelos a partir de la misma GPU, un sistema centralizado de compresión y descompresión que aligera el tráfico de datos, un diseño modular y flexible con mayor seguridad y resiliencia, y un Data Flow optimizado para sacar el máximo partido al Infinity Fabric y a la memoria con su sistema Out-of-Order.
Todo esto, en conjunto, busca que esta generación de gráficas RX 9000 no solo rinda más, sino que lo haga de forma más eficiente, escalable y preparada para cargas de trabajo cada vez más complejas. Veamos cómo funciona según lo que ha mostrado AMD.
AMD RDNA 4, la arquitectura más modular, con mejor Data Flow, motor de compresión y descompresión que la hacen totalmente flexible
Para entender mejor hacia dónde apunta AMD con estas novedades, hay que fijarse en cómo han rediseñado la estructura interna de la arquitectura para cada GPU y SoC, en qué se traduce este nuevo enfoque y qué papel juega en la evolución de tecnologías como el Ray Tracing, Path Tracing o el manejo de geometrías densas (DGF), apartados donde también se han producido avances de calado que enlazan directamente con lo que se ha venido adelantando en meses anteriores.
Uno de los cambios más llamativos está en la configuración flexible del silicio, es decir, de cada GPU.
Ahora cada una puede adaptarse a distintos segmentos gracias a un sistema de recortes muy granular: desde desactivar motores de Shaders completos hasta inutilizar solo grupos de trabajo concretos (WGP) pasando por la posibilidad de “apagar” controladores de memoria (IMC, aunque AMD los llama UMC) individuales en bloques de 64 bits.
Esto convierte a RDNA 4 en un diseño mucho más aprovechable en la fabricación por parte de TSMC, porque a partir de un único chip pueden salir múltiples variantes, totalmente perfectas y balanceadas, optimizadas tanto para gama alta como para gamas medias sin necesidad de duplicar esfuerzos. Eso ahorra no solo tiempo, sino mucho dinero, haciendo más rentable cada gráfica vendida.
SoC: motor central de compresión y descompresión para mejorar el rendimiento y la eficiencia de Infinity Fabric, arquitectura modular pensada desde cero
El segundo gran bloque es el de la compresión y descompresión centralizadas. AMD ha integrado un motor dedicado que gestiona este proceso en todo el flujo de datos entre Shaders, memoria, cachés y bloques multimedia. La consecuencia directa es doble: por un lado, se consigue hasta un 15% más de rendimiento en ciertos escenarios de rasterización tradicional, mientras que, por el otro, se reduce en torno a un 25% el uso de ancho de banda en el Infinity Fabric, lo que se traduce en menor consumo de cada GPU.
La ventaja extra es que los desarrolladores ya no tienen que preocuparse de qué algoritmos de compresión usar, porque todo queda embebido en el hardware. O lo que es igual, se deja de lado el software para que el hardware haga el trabajo desde dentro.
El tercer aspecto que AMD ha resaltado es la arquitectura modular del SoC, donde cada bloque puede reutilizarse o incluso dividirse para generar variantes más compactas. Aquí entra también un refuerzo de seguridad poco habitual en GPU: controles de acceso jerarquizados, reinicialización automática en caso de errores de paridad y la integración de RAS en módulos clave como cachés L3, Infinity Fabric o controladores de memoria.
Un Data Flow mejorado que conecta GL2 Cache con la LLC, IMC y DRAM
El siguiente punto es el flujo de datos dentro de cada GPU, el cual se ha optimizado con un Infinity Fabric coherente y de altísimo ancho de banda, capaz de mover 1 KB por ciclo de reloj a frecuencias de entre 1,5 y 2,5 GHz, dependiendo del estado de energía. Los Shader Engines se conectan a la caché GL2 común y de ahí a un entramado de estaciones coherentes, caché de último nivel (LLC) y controladores de memoria dual channel que desembocan en la DRAM.
Este rediseño asegura que los CU accedan a la información con latencias más bajas, lo cual es clave para workloads que dependen de grandes volúmenes de datos, como el Ray Tracing o Path Tracing. Todas estas piezas encajan de forma directa con lo que AMD ya había adelantado en torno a su nuevo set de instrucciones en RDNA 4 y a la introducción del Dense Geometry Format (DGF).
La mayor eficiencia en compresión y en el tráfico interno es justo lo que se necesita para manejar geometrías tan densas sin saturar la memoria, mientras que el Infinity Fabric de alta velocidad y coherente se convierte en la base para soportar algoritmos BVH de Ray Tracing más complejos.
Una arquitectura pensada para FSR RedStone como piedra angular: RDNA 4 es mejor de lo esperado
Hay que tener en cuenta que todo lo dicho hasta ahora en cuanto a arquitectura va muy enfocado también al nuevo Neural Radiance Cache, Neural SuperSampling y el Denoising, es decir, a FSR RedStone.
Esto solo es otro pequeño paso para comprender lo que ya AMD desveló oficialmente y que está por llegar. Ahora se entiende mucho mejor la arquitectura y los motivos de todas las nuevas características implementadas. De hecho, lo que parecía un paso menor como arquitectura ha acabado siendo un gran paso adelante, eso sí, contado por fascículos.
Evidentemente, esto ha sido deliberado para intentar ocultar sus pasos en la medida de lo posible y no darle pie a NVIDIA e Intel a reaccionar. Si estabas con el "hype" arriba, prepárate, porque todo pinta mejor de lo esperado. Solo hace falta que RedStone cumpla con las realidades del hardware y rinda al nivel que se le espera.
Saludos.
No hay comentarios:
Publicar un comentario
Por favor sé respetuoso/a y escribe adecuadamente. Gracias.