Puntos clave:
- Trainium3 UltraServers ofrecen alto rendimiento para cargas de trabajo de IA, con hasta 4,4 veces más rendimiento de cómputo, 4 veces más eficiencia energética y casi 4 veces más ancho de banda de memoria que los Trainium2 UltraServers, lo que permite desarrollar soluciones de IA más rápido con menores costes operativos.
- Trn3 UltraServers escalan hasta 144 chips Trainium3, proporcionando hasta 362 PFLOPs FP8 con una latencia 4 veces menor para entrenar modelos más grandes más rápido y servir inferencia a escala.
- Clientes como Anthropic, Karakuri, Metagenomics, Neto.ai, Ricoh y Splashmusic están reduciendo los costes de entrenamiento e inferencia hasta en un 50 % con Trainium, mientras que Decart está logrando una inferencia 4 veces más rápida para vídeo generativo en tiempo real a la mitad del coste de las GPU, y Amazon Bedrock ya está sirviendo cargas de trabajo de producción en Trainium3.
A medida que los modelos de IA crecen en tamaño y complejidad, están llevando al límite la infraestructura de cómputo y de redes, y los clientes buscan reducir los tiempos de entrenamiento y la latencia de inferencia—el tiempo que transcurre entre que un sistema de IA recibe una entrada y genera la salida correspondiente. Entrenar modelos de vanguardia requiere ahora inversiones en infraestructura que solo unas pocas organizaciones pueden permitirse, mientras que servir aplicaciones de IA a escala demanda recursos de cómputo que pueden descontrolarse rápidamente. Incluso con las instancias aceleradas más rápidas disponibles hoy, simplemente aumentar el tamaño del clúster no logra reducir el tiempo de entrenamiento debido a las limitaciones de paralelización, mientras que las exigencias de la inferencia en tiempo real llevan las arquitecturas de instancia única más allá de sus capacidades.
Para ayudar a los clientes a superar estas limitaciones, hoy hemos anunciado la disponibilidad general de Amazon EC2 Trn3 UltraServers. Impulsados por el nuevo chip Trainium3 construido con tecnología de 3 nm, los Trn3 UltraServers permiten a organizaciones de todos los tamaños entrenar modelos de IA más grandes más rápido y servir a más usuarios a menor coste, democratizando el acceso a la potencia de cómputo necesaria para los proyectos de IA más ambiciosos del mañana.
Trainium3 UltraServers: diseñados específicamente para cargas de trabajo de IA de próxima generación
Trn3 UltraServers integran hasta 144 chips Trainium3 en un único sistema integrado, ofreciendo hasta 4,4 veces más rendimiento de cómputo que los Trainium2 UltraServers. Esto te permite abordar proyectos de IA que antes eran poco prácticos o demasiado caros, entrenando modelos más rápido, reduciendo los tiempos de meses a semanas, atendiendo más solicitudes de inferencia de usuarios simultáneamente y disminuyendo tanto el time-to-market como los costes operativos.
En pruebas de Trn3 UltraServers utilizando el modelo de pesos abiertos GPT-OSS de OpenAI, los clientes pueden alcanzar 3 veces más rendimiento por chip y ofrecer tiempos de respuesta 4 veces más rápidos que con los Trn2 UltraServers. Esto significa que las empresas pueden escalar sus aplicaciones de IA para gestionar picos de demanda con una menor huella de infraestructura, mejorando directamente la experiencia del usuario y reduciendo el coste por solicitud de inferencia.
Estas mejoras provienen del diseño específico del chip Trainium3. El chip logra un rendimiento sin precedentes gracias a innovaciones avanzadas de diseño, interconexiones optimizadas que aceleran el movimiento de datos entre chips y sistemas de memoria mejorados que eliminan cuellos de botella al procesar grandes modelos de IA. Más allá del rendimiento bruto, Trainium3 aporta ahorros energéticos sustanciales. Un 40 % más de eficiencia energética respecto a generaciones anteriores. Esta eficiencia es clave a escala, lo que nos permite ofrecer una infraestructura de IA más rentable al tiempo que reducimos el impacto ambiental en nuestros centros de datos.
Infraestructura de red avanzada diseñada para escalar
AWS ha diseñado el Trn3 UltraServer como un sistema verticalmente integrado. Desde la arquitectura del chip hasta la pila de software. En el corazón de esta integración hay una infraestructura de red pensada para eliminar los cuellos de botella de comunicación que suelen limitar la computación de IA distribuida. El nuevo NeuronSwitch-v1 ofrece el doble de ancho de banda dentro de cada UltraServer, mientras que la red Neuron Fabric mejorada reduce los retardos de comunicación entre chips hasta poco menos de 10 microsegundos.
Las cargas de trabajo de IA del futuro, incluidos los sistemas agénticos, los modelos de mezcla de expertos (MoE) y las aplicaciones de aprendizaje por refuerzo, requieren que enormes volúmenes de datos fluyan sin fricciones entre procesadores. Esta red diseñada por AWS te permite crear aplicaciones de IA con respuestas casi instantáneas que antes eran imposibles, desbloqueando nuevos casos de uso como sistemas de decisión en tiempo real que procesan y actúan sobre los datos al instante, y una IA conversacional fluida que responde de forma natural sin latencias.
Para los clientes que necesitan escalar, EC2 UltraClusters 3.0 puede conectar miles de UltraServers que contienen hasta 1 millón de chips Trainium. (10 veces más que la generación anterior) proporcionándote la infraestructura para entrenar la próxima generación de modelos fundacionales. Esta escala permite proyectos que antes simplemente no eran posibles, desde entrenar modelos multimodales con conjuntos de datos de un billón de tokens hasta ejecutar inferencia en tiempo real para millones de usuarios concurrentes.
Clientes ya están viendo resultados a una escala sin precedentes
Los clientes ya están obteniendo un valor significativo de Trainium, con empresas como Anthropic, Karakuri, Metagenomics, Neto.ai, Ricoh y Splashmusic reduciendo sus costes de entrenamiento hasta en un 50% comparado con otras alternativas. Amazon Bedrock, el servicio gestionado de AWS para modelos fundacionales, ya está sirviendo cargas de trabajo de producción en Trainium3, lo que demuestra que el chip está listo para despliegues a escala empresarial.
Empresas pioneras en IA como Decart, un laboratorio especializado en modelos de vídeo e imagen generativos eficientes y optimizados que impulsan experiencias interactivas en tiempo real, están aprovechando las capacidades de Trainium3 para cargas de trabajo exigentes como el vídeo generativo en tiempo real, logrando una generación de fotogramas 4 veces más rápida a la mitad del coste de las GPU. Esto hace que las aplicaciones intensivas en cómputo sean prácticas a escala, habilitando categorías completamente nuevas de contenido interactivo. Desde experiencias en vivo personalizadas hasta simulaciones de gran escala. Con Project Rainier, AWS colaboró con Anthropic para conectar más de 500.000 chips Trainium2 en el mayor clúster de cómputo de IA del mundo. Cinco veces mayor que la infraestructura utilizada para entrenar la generación anterior de modelos de Anthropic. Trainium3 se basa en estos cimientos probados, ampliando la arquitectura UltraCluster para ofrecer un rendimiento aún mayor para la próxima generación de clústeres de cómputo de IA a gran escala y modelos de frontera.
De cara a la próxima generación de Trainium
Ya estamos trabajando en Trainium4, que se está diseñando para aportar mejoras significativas de rendimiento en todas las dimensiones, incluyendo al menos 6 veces el rendimiento de procesamiento (FP4), 3 veces el rendimiento en FP8 y 4 veces más ancho de banda de memoria para soportar la próxima generación de entrenamiento e inferencia de frontera. Combinado con optimizaciones continuas de hardware y software, puedes esperar mejoras de rendimiento que escalen muy por encima de las mejoras básicas. La mejora de 3 veces en rendimiento FP8 de Trainium4 representa un salto fundamental. Puedes entrenar modelos de IA al menos tres veces más rápido o ejecutar al menos tres veces más solicitudes de inferencia, con ganancias adicionales gracias a mejoras continuas de software y optimizaciones específicas de cada carga de trabajo. FP8 es el formato de precisión estándar del sector que equilibra la exactitud del modelo con la eficiencia computacional para las cargas de trabajo modernas de IA.
Para ofrecer un rendimiento de escala aún mayor, Trainium4 se está diseñando para admitir la tecnología de interconexión de chips de alta velocidad NVIDIA NVLink Fusion. Esta integración permite que Trainium4, Graviton y EFA trabajen juntos de forma fluida dentro de racks MGX comunes, proporcionándote una infraestructura de IA rentable a escala de rack que admite tanto servidores GPU como servidores Trainium. El resultado es una plataforma flexible y de alto rendimiento, optimizada para cargas de trabajo exigentes de entrenamiento e inferencia de modelos de IA.