NOTICIAS

Lo último en tecnología

Supercomputadora de Inteligencia Artificial


El Despliegue de Clústeres de GPU más Grande del Mundo para lograr la Supercomputadora de Inteligencia Artificial a la fecha.

xAI, en colaboración con Supermicro y NVIDIA, ha dado un gran paso en la creación de la supercomputadora de inteligencia artificial (IA) más poderosa hasta la fecha. Este imponente sistema, ubicado en Memphis, TN, incluye más de 100,000 GPUs NVIDIA HGX H100, exabytes de almacenamiento y redes ultrarrápidas. Todo está diseñado para entrenar y alimentar a Grok, un chatbot generativo de IA desarrollado por xAI. Vamos a explorar cómo este gigante tecnológico se materializó en solo 122 días.

¿Cómo se Construye una Supercomputadora de IA?

Crear una supercomputadora de IA como la de xAI no es tarea fácil. Se necesita una enorme cantidad de poder de cómputo y una infraestructura completamente personalizada. En este caso, se utilizó una sala de datos común como base, pero el reto fue transformar este espacio vacío en un centro de supercomputación avanzado en tan solo 122 días.

Cada una de las cuatro salas de cómputo alberga alrededor de 25,000 GPUs de NVIDIA, así como almacenamiento, redes de fibra óptica de alta velocidad y energía integrada. Sin embargo, el proceso va mucho más allá de lo convencional.

Tecnología y Diseño Especializado para Inteligencia Artificial

El verdadero corazón de este sistema se encuentra en los racks refrigerados por líquido de Supermicro. Estos racks contienen ocho sistemas Supermicro 4U Universal GPU, que a su vez incluyen las poderosas GPUs NVIDIA HGX H100 de 8-GPU, todas refrigeradas por líquido. Cada rack aloja 64 GPUs NVIDIA Hopper, lo que contribuye a la impresionante capacidad de procesamiento de la supercomputadora.

Además de las GPUs, cada rack incluye dos CPUs x86 refrigeradas por líquido, lo que permite un rendimiento óptimo y una mayor eficiencia energética.

Sistema de Refrigeración Líquida

El sistema de refrigeración líquida es uno de los aspectos más innovadores de esta supercomputadora. Cada colector de distribución de refrigerante (CDM) transporta el líquido frío a las GPUs, mientras que los ventiladores del sistema mantienen el aire frío en el rack y expulsan el aire caliente a través de intercambiadores de calor refrigerados por líquido. Esta solución permite una mayor eficiencia en la refrigeración, lo que reduce el consumo de energía en comparación con servidores refrigerados por aire.

Además, el diseño permite un mantenimiento sencillo, ya que los componentes refrigerados por líquido se pueden retirar o reinstalar fácilmente sin necesidad de desarmar el sistema completo.

Red de Alta Velocidad y Escalabilidad

La infraestructura de red es otro aspecto clave para que este centro de datos funcione a su máxima capacidad. Utilizando la plataforma de redes NVIDIA Spectrum-X, las redes de este centro de datos permiten transferencias de datos ultrarrápidas y confiables. Esta tecnología es ideal para manejar las altas demandas de las cargas de trabajo de IA, gracias a características como el enrutamiento inteligente de datos, la reducción de retrasos y el control del tráfico de red.

El NVIDIA Bluefield-3 SuperNIC proporciona una red de 400 gigabits por segundo, lo que significa que cada servidor de cómputo puede manejar un ancho de banda de 3.6 Tbps. Además, el uso de la red RDMA (Remote Direct Memory Access) para las GPUs optimiza aún más el rendimiento de este sistema masivo.

Conmutadores Avanzados para la Supercomputadora de Inteligencia Artificial

Para garantizar que todas estas conexiones funcionen a la perfección, el sistema utiliza el conmutador Ethernet NVIDIA Spectrum SN5600. Este conmutador de 64 puertos y 800 Gb tiene la capacidad de dividir y gestionar 128 enlaces Ethernet de 400 gigabits. Su diseño avanzado permite que el clúster funcione a niveles máximos de rendimiento sin congestionar la red, lo que lo convierte en una pieza clave para el éxito de este centro de datos.

El Futuro de la Supercomputación

Con esta supercomputadora, xAI, junto con Supermicro y NVIDIA, ha establecido un nuevo estándar en la supercomputación. El Clúster xAI Colossus no solo está empujando los límites de lo que es posible hoy en día, sino que también abre las puertas a nuevas posibilidades en el área de la inteligencia artificial y otras sectores tecnológicos.

Este logro de la creación de una Supercomputadora de Inteligencia Artificial es solo el comienzo. A medida que la tecnología continúa avanzando, estaremos atentos a cómo este clúster sigue evolucionando y llevando a cabo tareas cada vez más complejas. Sin duda, xAI, Supermicro y NVIDIA están liderando el camino hacia una nueva era de supercomputación.