Přehřátí datacentra Amazonu způsobilo výpadek: Umělá inteligence klade nové nároky na chlazení
InovaceNedávný incident v datovém centru Amazon Web Services (AWS) vedl k rozsáhlému výpadku obchodování na globálních trzích. Příčinou bylo přehřátí, kdy vnitřní teploty v zařízení překročily bezpečné provozní limity.
Nedávný incident v datovém centru Amazon Web Services (AWS) vedl k rozsáhlému výpadku obchodování na globálních trzích. Příčinou bylo přehřátí, kdy vnitřní teploty v zařízení překročily bezpečné provozní limity. Datacentrum, které podporuje cloudové výpočty a úlohy umělé inteligence, se muselo vypnout kvůli extrémním tepelným podmínkám, jež jsou typické pro vysokohustotní výpočetní hardware. Datová centra jsou silně závislá na precizním chlazení, které udržuje teploty serverů v úzkém rozmezí, obvykle mezi 18 °C a 27 °C. Pokud chladicí kapacita nestačí, servery snižují výkon nebo se zcela vypnou, aby se zabránilo poškození hardwaru.
Tato událost poukazuje na strukturální problém, který odvětví datových center dosud plně nevyřešilo. Moderní akcelerátory umělé inteligence, jako jsou grafické procesory (GPU) a tensorové procesory (TPU) používané pro trénování a inferenci AI modelů, generují takovou hustotu tepla, pro kterou nebyly starší chladicí architektury navrženy. Jeden serverový rack pro AI může nyní spotřebovat 30 až 100 kilowattů energie, zatímco standardní výpočetní rack před deseti lety spotřeboval 5–10 kW. Téměř veškerá tato energie se přeměňuje na teplo. Tradiční vzduchové chlazení se při takových hustotách stává fyzicky nepraktickým, protože vzduch jednoduše nedokáže odvádět teplo dostatečně rychle při zvládnutelných objemech proudění.
Odvětví se proto postupně přesouvá k přímému kapalinovému chlazení (DLC), kde chladivo cirkuluje přes chladicí desky přímo namontované na procesorech. Někteří operátoři zkoumají i plné ponoření serverů do dielektrické kapaliny. Obě metody odvádějí teplo mnohem efektivněji než vzduch, ale modernizace stávajících zařízení je nákladná a provozně složitá. Datová centra Amazonu spotřebovávají globálně gigawatty energie, a i malé neefektivity v tepelném managementu se v takovém měřítku výrazně projevují.
Poptávka po kapacitě datových center roste rychleji než schopnost odvětví zavádět adekvátní chladicí infrastrukturu. Velcí poskytovatelé cloudu, jako jsou Amazon, Microsoft a Google, jsou pod tlakem, aby rychle uváděli do provozu nové kapacity, což může znamenat, že zařízení navržená pro starší tepelné profily jsou přetěžována nebo nově využívána pro náročné AI úlohy. Další proměnnou jsou vnější klimatické podmínky. S rostoucími okolními teplotami v mnoha regionech se zmenšuje prostor pro využití venkovního vzduchu k chlazení. Zařízení navržené pro mírné klima čelí vyšší zátěži během vln veder, a to právě v době, kdy může být omezen i dostupný výkon sítě. Otázka spotřeby vody je rovněž aktuální. Odpařovací chladicí systémy, široce používané ve velkých datových centrech, spotřebovávají ročně miliony galonů vody. Zařízení v regionech s nedostatkem vody čelí regulačním a dodavatelským omezením, která limitují jejich možnosti chlazení. Tento problém se pravděpodobně zintenzivní s tím, jak se operátoři rozšiřují do nových geografických oblastí, aby uspokojili poptávku po infrastruktuře AI. Přesná příčina selhání v datovém centru Amazonu zůstává nejasná, dokud nebude zveřejněna podrobná analýza, ale zapadá do širšího vzorce výzev v tepelném managementu datových center.