Kühlung für KI-Workloads richtig dimensionieren

Warum IT-Anwendungen unterschiedliche Kühlprofile erzeugen

KI hat die Anforderungen an Rechenzentren grundlegend verändert. Während traditionelle IT-Systeme mit 70 kW pro Rack bereits als hochdichte Umgebungen gelten, werden im KI-Bereich heute oft schon Leistungen von 136 kW pro Rack erreicht. Diese Entwicklung bringt eine Herausforderung mit sich, die bei der Systemauslegung oft übersehen wird. Denn nicht alle KI-Anwendungen erzeugen automatisch das gleiche Lastprofil. Multi-GPU-Module mit Shared Memory und integrierten Onboard-Netzwerken erzeugen zwar immense Rechenleistung, aber die dabei entstehende thermische Last variiert stark je nach Anwendungsfall. Diese Variabilität ist kein Nebeneffekt, sondern ein zentraler Planungsfaktor, den einige Betreiber immer noch unterschätzen.

Die drei häufigsten KI-Anwendungsszenarien zeigen fundamentale Unterschiede:

Chatbots und interaktive Anwendungen arbeiten im sogenannten Inferenz-Modus mit einer konstanten Temperatur in einem hohen Lastbereich. Die Last verhält sich dabei kontinuierlich und vorhersehbar. Die Chips laufen während der Bearbeitung der Anfragen zwar permanent auf hohem Niveau, das gleichbleibende Lastniveau ermöglicht aber eine stabile Regelung und eine zuverlässige Wärmeabfuhr. Aus klimatisierungstechnischer Sicht ist dies ein günstiges Szenario, da die Wärmelast stabil bleibt und die Kühlsysteme auf konstante Parameter ausgelegt werden können.

Industrie-4.0-Anwendungen zeigen dagegen eher ein zyklisches Muster im mittleren bis hohen Lastbereich. Hier wechseln sich intensive Rechenphasen mit Pausen ab, was typisch ist für Produktionsplanungen, Qualitätskontrollen mittels KI-gestützter Bildverarbeitung oder für industrielle Vorhersagesysteme. Diese zyklischen Lastmuster erfordern adaptive Regelungskonzepte, da die Kühlsysteme schnell zwischen verschiedenen Leistungsstufen wechseln müssen.

Bei KI-Trainings entstehen hingegen extreme Temperaturschwankungen, die sehr schnelle Reaktionsanforderungen mit sich bringen. Das Training ist hochgradig iterativ und datenabhängig. Je nachdem, wie groß der aktuell verarbeitete Datensatz ist, welche Modellkomponenten gerade trainiert werden und wie viele GPUs parallel dabei arbeiten, entstehen rasante Sprünge in der thermischen Last. So könnte ein Trainingsalgorithmus von 60 Prozent Auslastung auf 100 Prozent hochfahren und innerhalb von wenigen Millisekunden wieder auf 15 bis 20 Prozent Grundlast zurückfallen.

Warum standardisierte Kühlkonzepte meist nicht ausreichend sind

Standard-Flüssigkeitskühllösungen, die nicht speziell auf die dynamischen Lastprofile moderner KI-Anwendungen ausgelegt wurden, stoßen heute bereits an ihre physikalischen Grenzen. Ein Kernproblem ist dabei oft das Fehlen thermischer Reserven sowie ein Mangel an Teillastfähigkeit bei extremen Lastschwüngen. Während konstante Lasten im Inferenz-Modus noch beherrschbar bleiben, scheitern herkömmliche Liquid-Cooling-Systeme an den rasanten Sprüngen während der Trainingsphasen. Sie können schlichtweg nicht schnell genug den notwendigen Volumenstrom bereitstellen, um die Temperatur effektiv zu reduzieren.

Die Lösung, um solche Peaks sicher aufzufangen, liegt in der Systemflexibilität und einer hybriden Regelungsstrategie. Eine zukunftsfähige LC-Infrastruktur muss in der Lage sein quasi nahtlos zwischen zwei Welten zu wechseln:

1. Inferenz-Betrieb: Hier ist eine dynamische Kühlung via Temperatur- oder Flow-Regelung entscheidend für die maximale Effizienz.

2. KI-Training: Hier ist eine statische Regelung auf Basis von konstanten Delta-p-Werten (Differenzdruck) erforderlich.

Nur über die Differenzdruck-Regelung wird ein maximaler Volumenstrom garantiert, der selbst extreme Lastspitzen sicher abfängt und das System so zuverlässig auf einen Spitzenwert dimensioniert. Ein modernes Flüssigkühlsystem muss diesen Wechsel zwischen bedarfsgerechter Dynamik und dauerhafter Höchstleistung beherrschen, damit es sowohl für das Training als auch für die spätere Bereitstellung (Inferenz) optimal genutzt werden kann.

Die praktischen Konsequenzen für die Infrastruktur-Planung

Die unterschiedlichen Workload-Profile haben direkte Auswirkungen auf grundlegende Architekturentscheidungen:

Für Chatbot-Umgebungen steht die Investition in Zuverlässigkeit und Energieeffizienz im Vordergrund.
Für Industrie-4.0-Szenarien sind intelligente Steuerungen notwendig, welche die Prozesszyklen verstehen und adaptive Regelungen ermöglichen.
Für KI-Trainings wird die thermische Reserve zur kritischen Größe. Kühlsysteme und Klimakomponenten müssen so ausgelegt sein, dass sie auch bei massiven Lastsprüngen niemals an ihre Grenzen stoßen.

Know-how als Erfolgsfaktor

Das zentrale Learning bei der Einführung von KI-Infrastrukturen besteht darin, die spezifischen Workload-Profile der geplanten Anwendung präzise zu verstehen. Viele Betreiber scheitern an der praktischen Umsetzung, da die realen Lastmuster oft deutlich von theoretischen Berechnungen abweichen.

Erst durch Pilotprojekte mit skalierter Kapazität können KI-Anwendungen unter Realbedingungen getestet und Kühlsysteme exakt dimensioniert werden. Das STULZ Testcenter in Hamburg validiert hierfür Liquid-to-Liquid-Systeme anhand praxisorientierter Leistungspunkte. Neben Systemtests unter realitätsnahen Szenarien umfasst dies auch die Prüfung der Strömungsstabilität über mehrere CDUs hinweg sowie ein kontinuierliches Fluid-Monitoring. Diese empirische Herangehensweise verhindert teure Fehlplanungen und sichert die Kompatibilität zu zukünftigen Hardware-Generationen.

Fazit: Differenzierte Planung für differenzierte Workloads

Die Zeiten von „One-Size-Fits-All“-Kühlkonzepten sind vorbei. KI-Rechenzentren erfordern ein tiefes Verständnis dafür, welche spezifischen Workloads vor Ort laufen sollen. Eine erfolgreiche Strategie kombiniert drei Elemente: Eine bewusste Analyse des eigenen Workload-Mix, die Partnerschaft mit Technologieanbietern wie STULZ, die unter praxisnahen Bedingungen testen können, und die Bereitschaft, in Pilotprojekte zu investieren, um sukzessive zu skalieren. Erst diese Kombination schafft Rechenzentren, die heute optimal funktionieren und morgen wettbewerbsfähig bleiben.