В рамках нашей долгосрочной программы исследований и оценки продвинутых технологий охлаждения высокопроизводительных серверов мы протестировали двухфазный кулер прямого контакта (direct-to-chip, DTC) от компании ZutaCore на сервере Supermicro с двумя процессорами AMD EPYC Bergamo. Тестирование производилось в дата-центре Centersquare в Рединге (Беркшир, Великобритания), в сотрудничестве с системным интегратором Boston Limited.
По мере роста числа ядер и энергопотребления процессоров традиционные воздушные кулеры перестают справляться с темпами нагрева современных высокопроизводительных чипов. Эта проблема особенно ярко проявляется в вычислительных нодах большой плотности, где методы воздушного охлаждения оказываются недостаточно эффективными, чтобы рассеивать то значительное количество тепла, которое выделяется при работе мощных многоядерных процессоров, таких как, например, 128-ядерный AMD EPYC Bergamo.
Ощутимое тепловыделение этих мощных процессоров очевидно превышает возможности воздушного охлаждения. Даже самые продвинутые радиаторы испытывают трудности в части обеспечения оптимальной тепловой эффективности без дополнительного энергопотребления или повышения уровня выходного шума вентиляторов воздушного кулера.
Далее в статье мы рассмотрим апгрейд системы охлаждения двухсокетного сервера Supermicro с заменой традиционного воздушного кулера на двухфазное DTC-решение ZutaCore. Сначала мы протестировали систему до апгрейда, выявив значительные недоработки со стороны заводского воздушного кулера, после чего установили кулер DTC и протестировали сервер заново.
Тестовая система представляет собой сервер Supermicro в корпусе 1U с двумя процессорами AMD EPYC Bergamo по 128 ядер каждый. Имея под капотом 256 ядер и 768 ГБ оперативной памяти, этот сервер способен справляться с высокоинтенсивными нагрузками, в особенности в средах ИИ и больших данных. Однако, даже используя воздушный кулер с большими радиаторами, система испытывала трудности с удерживанием температуры на оптимальном уровне под стрессовой нагрузкой, результатом чего стал термический троттлинг.
Для повышения эффективности охлаждения и, соответственно, производительности сервера мы выбрали двухфазный жидкостный кулер ZutaCore. Это инновационное решение использует хладагент, который переходит из жидкого состояния в пар внутри основания кулера, примыкающего непосредственно к процессору. Этот фазовый переход обеспечивает более эффективное охлаждение по сравнению с традиционными жидкостными или воздушными кулерами, так как скрытая теплота парообразования способствует более интенсивному отводу тепла от ядер CPU.
Апгрейд кулера начинается с разборки заводской воздушной системы охлаждения. Сняв радиаторы, мы обнажаем теплораспределительные крышки процессоров Bergamo, площадь которых очевидно мала для теплового потока от этих «прожорливых» чипов. В ходе первичных тестов мы зарегистрировали высокие значения температуры CPU и, как результат, проблемы с поддержанием стабильно высокой производительности под стрессовой нагрузкой.
Следующий шаг представляет базовый принцип двухфазного охлаждения, который реализуется в специально разработанных основаниях кулера ZutaCore. Эти основания содержат внутренние испарительные камеры, в которых поглощающий тепло хладагент испаряется, циркулируя по системе. Пар из камер поступает в конденсатор, где он охлаждается и снова превращается в жидкость, которая используется в следующем цикле.
Одна из замечательных особенностей этой системы – механическое авторегулирование. Поплавковый механизм каждого испарителя регулирует количество поступающего хладагента в зависимости от тепловой нагрузки с CPU. Такой замкнутый контур гарантирует, что на каждый процессор автоматически будет поступать оптимальное количество хладагента.
Основания точно примыкают к чипам CPU, обеспечивая равномерное давление и тепловой поток. Хладагент подводится к основаниям по трубкам, которые мы перед установкой кулера отдельно протестировали на механическую прочность, чтобы гарантировать отсутствие протечек.
Следующая задача состоит в интеграции системы охлаждения сервера в более широкую инфраструктуру дата-центра. Система DTC ZutaCore объединяется в одно целое с существующей системой контроля температуры сервера и предлагает усовершенствованное управление через программное обеспечение кулера ZutaCore. Это приложение позволяет в реальном времени вести мониторинг ключевых параметров, как то – давление хладагента и значения температуры в различных точках системы, в том числе температуры CPU (T Junction).
Приложение подключается к интерфейсу IPMI (Intelligent Platform Management Interface) сервера, обеспечивая бесшовный мониторинг и управление параметрами системы охлаждения. Нас особенно впечатлила детализация параметров с отдельным контролем скорости вентиляторов, температуры пара и оборотов помпы. Такой детальный контроль процесса охлаждения позволяет точно отрегулировать производительность системы в соответствии с нагрузкой.
После подключения к блоку теплоотвода посредством быстро отсоединяемых фитингов и сброса атмосферного воздуха из контура охлаждения с помощью входящих в комплект инструментов двухфазный кулер готов к работе.
Как уже упоминалось выше, перед установкой двухфазного кулера ZutaCore мы провели серию тестов с заводским воздушным кулером. Под стресс-нагрузкой, рассчитанной на максимальное задействование всех 256 ядер, система быстро достигала предельных значений температуры – в результате процессоры переходили в режим троттлинга, то есть снижали производительность, чтобы оставаться в рамках допустимых рабочих температур. Температура CPU под продолжительной интенсивной нагрузкой балансировала в районе 85°C, что сопровождалось заметным снижением тактовых частот.
После установки кулера DTC мы запустили те же самые тесты, и результаты изменились радикально. Температура CPU под полной нагрузкой значительно снизилась и оставалась в пределах 65°C. И, что еще более важно, термический троттлинг больше не возникал. В ходе тестирования с двухфазным кулером процессоры Bergamo стабильно работали на более высоких частотах.
Энергопотребление системы ожидаемо снизилось, поскольку больше не нужно было раскручивать вентиляторы до максимальных скоростей в целях интенсификации охлаждения. И сервер сразу стал работать заметно тише, что определялось даже на фоне достаточно шумной обстановки дата-центра.
Поскольку этот опыт был рассчитан на использование кулера ZutaCore в режиме консольной работы с сервером, все измерения были качественными. Стоит отметить, что во время съемки фильма платформа Bergamo с кулером ZutaCore установила несколько мировых рекордов в категории Y-cruncher BBP, которые были подтверждены HWBot.org.
Одно из весомых преимуществ системы ZutaCore – большие возможности для экономии энергии. Меньшая ставка на воздушное охлаждение означает сокращение количества используемых высокоскоростных вентиляторов и кондиционеров, а это оборачивается реальным снижением энергетических затрат. Кроме того, новая система охлаждения позволяет серверу работать при более высокой температуре окружающей среды без риска перегрева. Это имеет неоценимое значение для дата-центров, которым нужно оптимизировать коэффициент PUE (Power Usage Effectiveness) в условиях более высокой температуры рабочих помещений.
Двухфазный кулер ZutaCore действительно решает проблему высоких тепловых нагрузок и несет дата-центрам долгосрочную выгоду. Его улучшенная энергетическая эффективность с меньшими затратами на охлаждение может иметь решающее значение для вычислительных сред с высокой плотностью.
Для дата-центров, использующих процессоры и графические ускорители нового поколения, такие как AMD EPYC и NVIDIA H100, система ZutaCore представляет собой масштабируемое решение для платформ с растущим тепловым выходом, которое не требует существенной перестройки имеющейся инфраструктуры.
Кроме того, метод двухфазного охлаждения достаточно экологичен. Хладагенты ZutaCore нетоксичны и имеют низкий коэффициент GWP (Global Warming Potential). Использование в качестве хладагента диэлектрических жидкостей гарантирует отсутствие риска возникновения короткого замыкания или повреждения оборудования даже в случае протечки.
Апгрейд системы охлаждения двухпроцессорного сервера Supermicro AMD EPYC Bergamo до двухфазного кулера прямого контакта ZutaCore в явном виде показал улучшение температурных показателей, снижение шума и повышение энергетической эффективности платформы. Поскольку дата-центры продолжают расширяться и расширять границы производительности серверов, продвинутые технологии охлаждения, как у ZutaCore, открывают новые возможности управления растущими тепловыми потоками в современных вычислительных средах.
Если вы запускаете высокоинтенсивные нагрузки на пределе возможностей аппаратных конфигураций ваших серверов, инвестиции в передовые системы охлаждения, например, ZutaCore, вероятно, позволят вам повысить производительность дата-центра и сократить операционные расходы в долгосрочной перспективе.
Мы благодарим Boston Limited и Centersquare за предоставление тестовой платформы и рабочей среды дата-центра.