Большой ИИ — Требуется большая система жидкого охлаждения: Google разговаривал с системой охлаждения TPU

Жидкое охлаждение использовалось в центрах обработки данных в течение длительного времени, хотя и не везде. В последнее время он становится все более важным на фоне растущего потребления энергии и генерации тепла от Equipment. Google рассказывает об эволюции центров уровня охлаждения для его Sungers TPU AI, чипсов и отчетов о сыре.
Google впервые оборудовал свой TPU с жидким охлаждением в 2018 году после серии экспериментов и постоянно улучшает систему жидкого охлаждения. Эти решения предназначены специально для масштаба центров обработки данных. Таким образом, полки с шестью (5+1) устройствами распределения жидкости (CDU) обслуживают до восьми полков с TPU. Для легкого обслуживания используются гибкие шланги и быстрые соединения.
Во внутренней цепи чипы подключены последовательно, что приводит к нагреванию охлаждающей жидкости, так что расчет мощности выполняется в соответствии с самым горячим чипом в конце каждой цепи. Из CDU по теплообменникам тепло перемещается в общую систему водоснабжения объекта без смешивания жидкостей (вода в обеих цепях). По данным Google, энергопотребление от насосов LSS составляет менее 5% от мощности вентиляторов, необходимых для воздушного охлаждения.
Google использует разделенную водяную блок. Обнаженная система кристаллического охлаждения была использована для охлаждения TPUV4. Этот метод не совсем безопасен, но в случае TPUV4 этот подход необходим, поскольку такие ускорители потребляют в 1,6 раза больше энергии, чем TPUV3. Кроме того, компания должна была работать над проблемами утечки и появлением микроорганизмов.

Google тщательно проверяет компоненты утечки, использует специальные системы уведомления о утечке и выполняет запланированное обслуживание и фильтрацию. Кроме того, у компании есть набор протоколов реагирования для проблем и предупреждений, что позволяет быстро устранить угрозы, которые могут быть довольно значимыми в масштабе центров обработки данных.

В мае появились сообщения о том, что Google готовит стойки Megawatt. Фактически, компания уже начала использовать 416 В переменного тока при входе полков и преобразователей DC, а также для того, чтобы вооружить их встроенными устройствами UPS. Кроме того, компания динамически управляет потреблением энергии и производительности как отдельных TPU, так и полков в целом.