Dimensionar correctamente la refrigeración para cargas de trabajo de IA

Por qué las aplicaciones informáticas generan diferentes perfiles de refrigeración

La inteligencia artificial ha cambiado fundamentalmente las exigencias que se imponen a los centros de datos. Mientras que los sistemas tradicionales de TI con 70 kW por rack ya se consideran entornos de alta densidad, en el ámbito de la IA ya se alcanzan con frecuencia consumos de 136 kW por rack. Este desarrollo plantea un desafío que a menudo se pasa por alto durante el diseño de los sistemas. Esto se debe a que no todas las aplicaciones de IA generan automáticamente el mismo perfil de carga. Los módulos multi‑GPU con memoria compartida y redes integradas en placa generan una enorme capacidad de procesamiento, pero la carga térmica resultante varía considerablemente según el caso de uso. Esta variabilidad no es un efecto secundario, sino un factor clave de planificación que algunos operadores todavía subestiman.

Los tres escenarios de aplicaciones de IA más comunes presentan diferencias fundamentales:

Los chatbots y las aplicaciones interactivas operan en lo que se conoce como modo de inferencia, a una temperatura constante dentro de un rango de alta carga. La carga se comporta de forma continua y predecible. Aunque los chips funcionan constantemente a niveles elevados mientras procesan solicitudes, la estabilidad de la carga permite un control estable y una disipación de calor fiable. Desde el punto de vista de la climatización, este es un escenario favorable, ya que la carga térmica se mantiene estable y los sistemas de refrigeración pueden diseñarse para parámetros constantes.

Por otro lado, las aplicaciones de Industria 4.0 suelen presentar un patrón cíclico en el rango de carga medio a alto. En este caso, las fases de cálculo intensivo se alternan con pausas, lo cual es típico en la planificación de la producción, el control de calidad mediante procesamiento de imágenes basado en IA o los sistemas de predicción industrial. Estos patrones cíclicos requieren conceptos de control adaptativo, ya que los sistemas de refrigeración deben cambiar rápidamente entre distintos niveles de potencia.

El entrenamiento de IA, en cambio, genera fluctuaciones de temperatura extremas que exigen tiempos de respuesta muy rápidos. El entrenamiento es altamente iterativo y dependiente de los datos. Según el tamaño del conjunto de datos que se esté procesando en cada momento, qué componentes del modelo se estén entrenando y cuántas GPU trabajen en paralelo, se producen picos rápidos en la carga térmica. Por ejemplo, un algoritmo de entrenamiento puede pasar del 60 % de utilización al 100 % y descender de nuevo a una carga base del 15 al 20 % en cuestión de milisegundos.

Por qué los conceptos estandarizados de refrigeración suelen ser insuficientes

Las soluciones estándar de refrigeración líquida que no están específicamente diseñadas para los perfiles dinámicos de carga de las aplicaciones modernas de IA ya están alcanzando hoy sus límites físicos. Un problema central es, a menudo, la falta de reservas térmicas, así como la limitada capacidad de funcionamiento a carga parcial durante variaciones extremas de carga. Mientras que las cargas constantes en modo de inferencia siguen siendo manejables, los sistemas convencionales de refrigeración líquida fallan ante los rápidos picos durante las fases de entrenamiento. Simplemente no pueden proporcionar el caudal necesario con la rapidez suficiente para reducir eficazmente la temperatura.

La solución para absorber estos picos de forma segura reside en la flexibilidad del sistema y en una estrategia de control híbrida. Una infraestructura de refrigeración líquida preparada para el futuro debe ser capaz de alternar prácticamente sin interrupciones entre dos entornos:

  1. Modo de inferencia: aquí es clave una refrigeración dinámica mediante control de temperatura o de caudal para lograr la máxima eficiencia.
  2. Entrenamiento de IA: en este caso, se requiere un control estático basado en valores constantes de delta‑p (presión diferencial).

Solo el control de presión diferencial garantiza un caudal máximo capaz de gestionar de forma fiable incluso los picos de carga más extremos, asegurando así que el sistema esté correctamente dimensionado para la demanda máxima. Un sistema moderno de refrigeración líquida debe dominar esta transición entre dinámica basada en la demanda y rendimiento sostenido en picos, de modo que pueda utilizarse de forma óptima tanto para el entrenamiento como para su implementación posterior (inferencia).

 

Implicaciones prácticas para la planificación de infraestructuras

Los diferentes perfiles de carga de trabajo tienen un impacto directo en las decisiones arquitectónicas fundamentales:

  • En los entornos de chatbots, el enfoque se centra en invertir en fiabilidad y eficiencia energética.
  • Para los escenarios de Industria 4.0, son necesarios controles inteligentes que comprendan los ciclos de los procesos y permitan una regulación adaptativa.
  • En el entrenamiento de IA, las reservas térmicas se convierten en un factor crítico. Los sistemas de refrigeración y los componentes de climatización deben diseñarse de manera que nunca alcancen sus límites, ni siquiera durante picos de carga masivos.

La experiencia como factor de éxito

La principal lección en la implementación de infraestructuras de IA es comprender con precisión los perfiles específicos de carga de trabajo de la aplicación planificada. Muchos operadores fracasan en la implementación práctica porque los patrones de carga reales a menudo difieren considerablemente de los cálculos teóricos.

Solo mediante proyectos piloto con capacidad escalada es posible probar las aplicaciones de IA en condiciones reales y dimensionar con precisión los sistemas de refrigeración. El Centro de Pruebas de STULZ en Hamburgo valida sistemas líquido‑líquido con este fin, basándose en métricas de rendimiento reales. Además de realizar pruebas del sistema en escenarios realistas, esto incluye también la evaluación de la estabilidad del caudal en múltiples CDUs, así como la monitorización continua del fluido. Este enfoque empírico evita costosos errores de planificación y garantiza la compatibilidad con futuras generaciones de hardware.

Conclusión: planificación diferenciada para cargas de trabajo diferenciadas

Los días de los conceptos de refrigeración “talla única” han terminado. Los centros de datos de IA requieren una comprensión profunda de las cargas de trabajo específicas que se ejecutarán in situ. Una estrategia exitosa combina tres elementos: un análisis exhaustivo del propio mix de cargas de trabajo, una colaboración con proveedores tecnológicos como STULZ que puedan realizar pruebas en condiciones reales, y la disposición a invertir en proyectos piloto para escalar de manera gradual. Solo esta combinación permite crear centros de datos que funcionen de forma óptima hoy y sigan siendo competitivos mañana.