El rediseño radical de red que llevó a AWS a construir una nube más resiliente

La historia de cómo un mensaje en Slack, una teoría académica rescatada del olvido y una maraña de cables llevaron a un equipo de ingenieros y científicos de Amazon Web Services a resolver un problema que había eludido a toda una industria durante años.

Una tarde de 2023, Seshadhri Comandur, Amazon Scholar y profesor en la Universidad de California en Santa Cruz, respondió casualmente a un mensaje en un hilo de Slack de la empresa que terminaría llevándolo a una misión para resolver uno de los enigmas más persistentes de la industria de los centros de datos.

El mensaje provenía de Ratul Mahajan, también Amazon Scholar, experto en redes de centros de datos y profesor en la Universidad de Washington: "Busco a alguien con experiencia en teoría de grafos y enrutamiento".

Comandur, un matemático que trabaja con algoritmos y redes en el plano abstracto, y que como comenta no sabía "nada" sobre centros de datos, respondió: "Sí, algo sé de eso."

En ese momento, Mahajan encontró al especialista en matemáticas que había estado buscando, y Comandur encontró aquello por lo que viven los investigadores: la oportunidad de llevar la teoría a la práctica. Junto con un tercer científico de AWS, Giacomo Bernardi, el trío llevaría a AWS a convertirse en la primera empresa en aplicar la teoría de grafos aleatorios a redes de centros de datos a gran escala, una idea que llevaba décadas acumulando polvo en el ámbito académico.

Su logro, detallado en un artículo científico publicado recientemente, 'Expanding into Reality: Random Graphs for Datacenter Networks', es un avance que proporcionará mayor fiabilidad y rendimiento a los clientes de AWS, ahorrará miles de millones de dólares en hardware y reducirá las emisiones de CO2 en un número creciente de redes eléctricas donde opera la empresa.

Pero, ¿qué es la teoría de grafos aleatorios? ¿Y cómo lograron Bernardi, Comandur, Mahajan y su equipo resolver un problema que había desconcertado a la industria durante años?

de izquierda a derecha: Ratul Mahajan, Amazon Scholar y experto en redes de centros de datos y profesor en la Universidad de Washington; Giacomo Bernardi, científico de AWS y Seshadhri Comandur, Amazon Scholar y profesor en la Universidad de California en Santa Cruz. — De izquierda a derecha: Ratul Mahajan, Amazon Scholar y experto en redes de centros de datos y profesor en la Universidad de Washington; Giacomo Bernardi, científico de AWS y Seshadhri Comandur, Amazon Scholar y profesor en la Universidad de California en Santa Cruz.

Una teoría rescatada del olvido

La historia comienza con Bernardi, o más bien, con su obsesión por los routers: los dispositivos especializados que dirigen el tráfico en un centro de datos. Tradicionalmente, los routers se conectan en jerarquías con forma de árbol. Aunque esta disposición funciona de manera efectiva, también puede generar cuellos de botella donde los datos se congestionan.

Bernardi estaba convencido de que debía existir una forma mejor de organizar las cosas. Pensaba que conectar los routers en una estructura plana, pero aún profundamente ordenada, podría distribuir la carga y eliminar puntos únicos de fallo. Había esbozado un diseño inspirado en los mosaicos de Penrose, una configuración geométrica que utiliza unas pocas formas simples para cubrir una superficie con un patrón que nunca se repite verdaderamente.

Trabajando con Mahajan, había intentado poner en práctica el diseño "Penrose", pero estaban atascados. Ninguna aplicación práctica que pudieran concebir era compatible con la escala a la que opera AWS. Negándose a rendirse, recurrieron en su lugar a otro concepto que había sido muy debatido en el ámbito académico, pero que, por el contrario, se consideraba generalmente aún más imposible. ¿Y si conectaran los routers de forma aleatoria?

Un argumento científico para construir una red de esta manera se publicó por primera vez en 2012. El estudio, 'Jellyfish: networking data centers randomly', se basaba en una rama de las matemáticas llamada teoría de grafos aleatorios, que estudia qué sucede cuando se conectan puntos en una red de forma aleatoria. Sugería que la transferencia de datos podría hacerse más eficiente y más resiliente si los routers se conectaban de manera aleatoria. El artículo fue ampliamente citado, pero tenía un defecto: nadie podía demostrar cómo aplicarlo dentro de las restricciones físicas de un centro de datos real.

"Era típico del mundo académico", dijo Bernardi. "Todo el mundo se entusiasma, pero luego la realidad llega". Poner en práctica la teoría de grafos aleatorios presentaba tres problemas aparentemente insuperables:

¿Cómo conectar físicamente millones de cables de fibra óptica asignados aleatoriamente sin crear una maraña inmanejable?
¿Cómo enrutar datos a través de una red sin estructura fija que los guíe?
¿Cómo demostrar matemáticamente si todo el sistema funcionaría realmente antes de comprometer el tiempo y el dinero para construirlo?

Y así, la idea de aplicar la teoría de grafos aleatorios a una red de centros de datos siguió siendo solo eso: una idea, hasta que Bernardi, Mahajan, Comandur y un grupo de expertos en redes, ingenieros ópticos y diseñadores de centros de datos de Amazon comenzaron su decidido camino para hacerla realidad.

Controlar el caos

El primer problema era evidente: cómo evitar una gigantesca maraña de cables. Los centros de datos modernos contienen millones de conexiones individuales de fibra óptica que enlazan servidores y routers. Un solo campus puede contener cientos de kilómetros de cableado. Se podría intentar construir una red de grafos aleatorios manualmente, tomando toda esa fibra y conectando cada router a otro router específico al azar. Pero como dijo Bernardi: "Es una idea terrible".

Esto se debe a que la aleatoriedad, para ser útil a escala de centro de datos, tiene que ser el mismo tipo de aleatoriedad, cada vez, en todas partes. Si se hace a mano, produciría una red diferente cada vez, y una red que no puedes replicar es una red que no puedes construir, probar ni mantener de forma fiable. Así que el equipo se dedicó a diseñar un componente de hardware que contuviera la aleatoriedad en sí mismo: un componente sellado sin fuente de alimentación, donde las conexiones aleatorias ocurrían en su interior de forma controlada, repetible y fabricable. Lo llamaron ShuffleBox.

El diseño tenía que ser lo suficientemente simple para producirse a escala y lo suficientemente sencillo para que los técnicos lo instalaran de forma consistente. Sabían lo que necesitaban hacer, pero, por supuesto, el "cómo" resultó complicado. "Estuvimos intentando diseñarlo durante meses, pero nunca terminábamos de lograrlo", dijo Bernardi. Eso fue hasta que Comandur le dio a Bernardi una misteriosa ecuación y le pidió que ejecutara una simulación masiva para encontrar los ocho números que la satisfacían. Los dígitos resultantes que Bernardi proporcionó unos días después resultaron ser la fórmula exacta para organizar el cableado de fibra óptica dentro de cada ShuffleBox. O, en otras palabras, la clave para hacer que la conectividad aleatoria fuera estandarizada y desplegable en todo el mundo.

Enrutar a través de la aleatoriedad

El segundo problema tiene que ver con las reglas y, específicamente, con cómo reescribirlas. En una red de centro de datos tradicional, los routers están dispuestos en niveles jerárquicos estrictos, como un organigrama corporativo. Para que los datos viajen de un servidor a otro, deben pasar por capas prescritas en un orden específico, lo que bajo cargas pesadas puede crear cuellos de botella. Sería como intentar contactar a un director en una empresa burocrática, donde en lugar de ir directamente a esa persona, la política dicta que primero debes pasar por tu jefe, luego por el jefe de tu jefe, y así sucesivamente.

Aplicar la teoría de grafos aleatorios significaría conectar esos mismos routers sin ninguna estructura fija, dando a los datos muchas más rutas disponibles en cualquier momento dado, permitiendo que el tráfico se distribuya de forma más natural y más rápida por todo el sistema. Suena fácil, pero los datos solo pueden viajar de un punto a otro cuando los routers se lo indican, y los routers operan según reglas conocidas como "protocolos de enrutamiento". En una red jerárquica tradicional, encontrar la ruta correcta es relativamente sencillo, ya que la propia estructura proporciona un mapa. Pero en una red de grafos aleatorios, determinar la mejor ruta se vuelve mucho más difícil.

El avance llegó con un protocolo de enrutamiento diseñado específicamente para grafos aleatorios. El equipo lo llamó Spraypoint, porque, como dijo Bernardi: "El router de origen, donde comienzan los datos, los dispersa por toda la red hacia todos sus routers vecinos. Luego hay una segunda fase llamada pointing, donde los routers intermedios dirigen los datos hacia su destino final".

Spraypoint desafía la lógica convencional de las redes. En lugar de usar solo las rutas más cortas entre dos puntos, distribuye los datos a través de cientos de rutas simultáneamente. "Las rutas más cortas no siempre son la mejor opción", dijo Comandur. "A veces necesitas tomar un camino ligeramente más largo, pero entonces tienes muchas opciones diferentes disponibles, lo que reduce drásticamente el riesgo de congestión".

Producir la prueba

El último problema era quizás el más trascendental. ¿Cómo demuestras que una red aleatoria funcionará antes de comprometerte a construirla?

Antes de que Comandur se involucrara en el proyecto, Bernardi y Mahajan ya habían estado investigando si los grafos aleatorios podían funcionar a escala. Se apoyaron enormemente en servicios en la nube como Amazon Elastic Compute Cloud (EC2), que permite a los usuarios escalar cantidades masivas de computación al instante, para construir simuladores de software gigantes que pusieran a prueba sus ideas. En total, Bernardi estima que utilizaron alrededor de 530 años de procesamiento computacional (equivalente a ejecutar un solo procesador durante medio milenio) en cientos de miles de escenarios de fallo.

Los resultados fueron consistentemente alentadores. Pero no llegaban a constituir una prueba de que una red de grafos aleatorios funcionaría a la magnitud requerida por AWS. Necesitaban que alguien descubriera literalmente nuevas fórmulas matemáticas que proporcionaran la base teórica para lo que las simulaciones ya estaban mostrando.
"Empezamos con experimentos, observamos resultados y luego preguntamos: '¿Pero por qué funciona esto?'", dijo Bernardi. "Es realmente lo contrario de lo que se supone que deben hacer los científicos".

Con la ayuda de Comandur, finalmente pudieron pasar de la observación a la prueba. Sus simulaciones podían haber mostrado que los grafos aleatorios funcionaban, pero no predecían cuán bien, ni hasta dónde, resistirían bajo carga real. ¿A cuántos miles de routers podía escalar el diseño antes de fallar? Se requería un modelado matemático capaz de predecir el comportamiento en cualquier escenario, a cualquier escala, antes de conectar un solo cable.

Comandur proporcionó no solo la confirmación de que la idea era sólida, sino el lenguaje matemático para describir exactamente por qué, y un modelo lo suficientemente preciso como para dar al equipo (y eventualmente al resto de AWS) la confianza para comprometerse a construirlo de verdad. Esa confianza necesitaba ser total, porque cuando se trata de datos reales de clientes, no hay margen para la experimentación. La red tiene que funcionar. La prueba de concepto definitiva sería el primer centro de datos en producción construido con el nuevo diseño, en Irlanda.

Para demostrar que el enrutamiento funcionaría, el equipo construyó el grafo aleatorio de la manera difícil: a mano, sin ShuffleBoxes. Trabajando durante varias semanas, cablearon fibras individuales exactamente en el tipo de jungla de cables entrecruzados que el ShuffleBox había sido inventado para evitar. "Todavía miramos las fotos y sentimos el horror", dijo Bernardi. Pero estética aparte, no había duda sobre el diseño subyacente. La prueba en la vida real funcionó y, lo más importante, exactamente de la manera que los modelos habían predicho.

La fortaleza de la aleatoriedad

El objetivo final de la red de AWS es ser invisible. "La enciendes y funciona", comenta Matt Rehder, vicepresidente de ingeniería de redes de la empresa. "No es algo en lo que queramos que nuestros clientes piensen en absoluto." La teoría de grafos aleatorios, resulta, es una forma aún más poderosa de garantizar eso.

En una fase temprana del proceso, el equipo se había dado cuenta de que, aunque lo que proponían era un replanteamiento radical de la red del centro de datos, sería demasiado disruptivo y fundamentalmente arriesgado sugerir el diseño de toda una serie de nuevos dispositivos y componentes. Tenían que hacer la implementación lo más fluida y sencilla posible, y necesitaban trabajar con los routers, cables de fibra, módulos ópticos y transceptores existentes. Los únicos elementos nuevos serían el protocolo Spraypoint y el ShuffleBox.

La nueva arquitectura ofrece significativamente menos dispositivos de red entre dos servidores que se comunican, y menos dispositivos significa menos puntos potenciales de fallo. También significa miles de millones de dólares en ahorro de costes y una red que puede sortear problemas de forma más dinámica, utilizando más de su capacidad disponible en cualquier momento dado.

En pruebas bajo la mayoría de condiciones de tráfico del mundo real, el nuevo diseño movió datos aproximadamente un tercio más rápido que las estructuras jerárquicas a las que reemplaza. El resultado es una red que no solo es más eficiente, sino más fiable y más potente para los clientes que dependen de ella.

Y las ganancias en eficiencia van más allá. Significativamente menos dispositivos de red significa menor consumo energético, energía que puede dirigirse en su lugar hacia más capacidad de computación para los clientes. AWS espera reducir el consumo eléctrico de los equipos de red con el nuevo diseño en un 40% en comparación con su arquitectura anterior, reduciendo las emisiones de CO2 en un número creciente de redes eléctricas donde opera.

La empresa comenzó a desplegar el nuevo diseño de red en España y Alemania en 2025, y lo implementará en la mayoría de sus centros de datos a nivel global en 2026.
Para Comandur, es una historia que espera compartir con sus estudiantes. La prueba de que la brecha entre la academia abstracta y la vida real puede salvarse. Que un enigma puede permanecer sin resolver durante una década, no porque la solución no exista, sino porque las personas que poseen las diferentes piezas aún no se han encontrado.

Etiquetas relacionadas

AWS

El rediseño radical de red que llevó a AWS a construir una nube más resiliente

Una teoría rescatada del olvido

Controlar el caos

Enrutar a través de la aleatoriedad

Producir la prueba

La fortaleza de la aleatoriedad

El talento detrás de la nube: conoce a las personas que trabajan en los centros de datos de AWS en España

Los centros de datos de Amazon son 7 veces más eficientes en el uso del agua que la media del sector

El Gobierno de Cantabria se incorpora a la Alianza Tech de AWS para impulsar la formación en cloud computing e inteligencia artificial en FP

Conoce el compromiso a largo plazo de AWS con Aragón (España)

Amazon lanza "Mujeres e IA", un programa de formación para impulsar el talento femenino en Inteligencia Artificial en España

AWS lanza la Nube Soberana Europea de AWS y anuncia su expansión por Europa

AWS Lambda Managed Instances: los beneficios del serverless sin restricciones

AWS presenta Graviton5: la CPU más potente y eficiente de la compañía

AWS simplifica la personalización de modelos para ayudar a los clientes a crear agentes de IA más rápidos y eficientes

Amazon presenta nuevos modelos frontier Nova, un servicio pionero Nova Forge para que las organizaciones creen sus propios modelos, y Nova Act para crear agentes