Каталог
ZV
ездный б-р, 19
+7 (495) 974-3333 +7 (495) 974-3333 Выбрать город: Москва
Подождите...
Получить токен
Соединиться
X
Сюда
Туда
x
Не выбрано товаров для сравнения
x
Корзина пуста
Итого: 
Оформить заказ
Сохранить заказ
Открыть корзину
Калькуляция
Очистить корзину
x
Главная
Магазины
Каталог
Мои заказы
Корзина
Магазины Доставка по РФ
Город
Область
Ваш город - ?
От выбранного города зависят цены, наличие товара и
способы доставки

Среда, 24 июля 2024 09:54

Почему серверы потребляют так много энергии: динамика TDP за последние 15 лет

короткая ссылка на новость:
На каком этапе модернизации своих серверов или построения ИИ-кластеров вы ни находились бы в данный момент, ясно одно: жидкостному охлаждению уделяется все большее внимание, а мощность серверов – это, с одной стороны, длинный шест, а с другой – самый серьезный вызов для современных дата-центров. Хотя на ситуацию влияют многие факторы, один из самых значительных – растущее энергопотребление серверов, наряду с ростом их производительности и емкости. В этой статье мы проанализируем динамику роста TDP процессоров для двухсокетных серверов и видеокарт NVIDIA SXM.

Темпы роста TDP серверных процессоров

Я несколько раз принимался за эту диаграмму, но каждый раз останавливался в нерешительности. Потому что сложно выбрать ряд процессоров, наиболее наглядно иллюстрирующий динамику TDP с течением времени. Даст ли показательный срез 8-сокетный Xeon EX – высококлассный чип, вышедший ограниченным тиражом? А как насчет чипов для рабочих станций? В конце концов я обратился к опыту STH, просмотрел типы чипов, которые мы развертывали в двухсокетных серверах, и решил использовать их. Идеальна ли эта выборка? Конечно, нет. Это просто попытка проследить прогресс серверных процессоров на протяжении последних полутора десятилетий на примере определенного класса чипов.

При взгляде на динамику TDP двухсокетных Intel Xeon становится ясно, что основной тенденцией является повышение этого показателя, причем в последние годы такими темпами, которых мы просто не видели на протяжении предшествующих десяти лет.

1

В период с 2008 по 2016 год уровень энергопотребления оставался сравнительно стабильным. Первым поколением, где наметился выраженный рост TDP, стало вышедшее в 2017 году поколение Skylake (1-е поколение Intel Xeon Scalable). После Cascade Lake 2019 года значения TDP продолжили расти, как в высококлассном (верхний уровень планки), так и более бюджетном (нижний уровень планки) сегментах. Поколение Cooper Lake многое переняло от Cascade Lake, но включало в себя ряд усовершенствований и, например, развертывалось в серверах Facebook. Кто-то может справедливо возразить, что это была прежде всего серия для четырехсокетных серверов (4P), но мы добавили эти чипы в нашу выборку. Если вы хотите представить картину без Cooper Lake, просто передвиньте на 2020 год планку Cascade Lake, и получите примерно четырехлетнюю стабилизацию TDP. Но начиная с поколения Ice Lake, вышедшего в 2021 году, показатели TDP в топовом и начальном сегментах снова продемонстрировали очевидную тенденцию к росту.

Здесь нужно заметить, что, хотя мы уже обсуждали серию Granite Rapids-AP, которая должна выйти в этом квартале и для которой заявлен максимум TDP 500 Вт, а также 500-ваттную серию AMD EPYC-Next (Turin), намеченную на 4-й квартал, эти продукты еще не вышли, то есть наши диаграммы до конца не заполнены. Мы просто начали с заведомо более низких TDP и в качестве крайнего мажорирующего значения взяли озвученную на данный момент обеими компаниями цифру 500 Вт. Которая может измениться.

Что касается AMD, то у нас получается следующая картина. Учитывая популярность серии Opteron 6000 в свое время, мы подняли свои многочисленные обзоры процессоров с сокетом G34 и взяли оттуда данные по более старым чипам. Когда в 2011 году вышла серия Intel Xeon E5-2600, производители серверов говорили, что процессоры Xeon E5 вытесняют линейку Opteron 6000.

2

Хотя уровень TDP чипов Turin начального уровня выглядит сравнительно невысоким, очевидно, что средний уровень TDP растет. Если сравнить эту диаграмму с вышеприведенной диаграммой для чипов Intel, легко заметить, что AMD наращивала TDP своих чипов более высокими темпами, чем Intel. В отрасли, как вы, возможно, слышали, накануне выхода новейшей линейки Xeon 6E много говорят о более высокой эффективности чипов AMD. Это потому, что серии AMD EPYC от Rome до Genoa/ Genoa-X/ Bergamo имели значительное преимущество в техпроцессе, которое позволяло вписать намного больше ядер в слегка расширенные рамки TDP. Например, топовый чип 2019 года Cascade Lake Xeon 8280 был 205-ваттным с числом ядер 28, то есть около 7.3 Вт/ ядро. Чип AMD EPYC 7H12 для высокопроизводительных вычислений (HPC) имел 64 ядра и TDP 280 Вт, то есть примерно 4.4 Вт/ ядро. Таким образом, хотя чип AMD потреблял больше мощности, энергетическая эффективность у него была значительно выше.

Видеокарты не отстают

Видеокарты (графические ускорители) – еще один вид серверных компонентов с растущими показателями TDP. Хотя мы обычно не отсылаем производителям результаты тестирования «железа» до их публикации, в этот раз мы решили убедиться в корректности наших многолетних данных об энергопотреблении видеокарт с сокетом SXM, поэтому сначала отослали диаграмму в NVIDIA и, получив положительный ответ, публикуем ее здесь. Видеокарты часто анонсируются и поступают в продажу в разных кварталах, а карты NVIDIA часто используют возможности настраиваемого TDP, поэтому мы хотели получить подтверждение, что на диаграмме все указано правильно.

3

Повышение уровня TDP с 300 до 700 Вт может выглядеть как соответствие аналогичной тенденции у CPU, но нужно еще учесть, что в системах SXM обычно используется восемь видеокарт. В 2016 году, когда NVIDIA переходила на сокет SXM, в типовой сервер для глубокого обучения устанавливалось восемь или десять видеокарт GeForce GTX 1080 Ti, пока изменения в пользовательском соглашении (EULA) NVIDIA и прогресс аппаратного обеспечения не продвинули рынок в направлении использования GPU для дата-центров. И эти системы обычно потребляли 2.4-3.1 кВт.

4

В более современных версиях этой конфигурации используются карты NVIDIA L40S.

Современный сервер для ИИ намного быстрее, но он может потреблять до 8 кВт. Это подвигает компании на апгрейд систем охлаждения серверов (с применением готовых жидкостных решений в целях снижения энергопотребления) и систем энергообеспечения стоек.

Мы ожидаем, что в 2025 году вышеупомянутые конфигурации будут потреблять заметно больше 10 кВт на стойку, так как TDP каждого ускорителя возьмет планку 1 кВт. В Северной Америке в эксплуатации находится еще довольно много 120-вольтовых стоек 15/ 20 A, которые не смогут поддерживать даже один блок питания большого современного сервера для ИИ.

Хотя мы часто говорим про TDP серверных процессоров и видеокарт, это далеко не единственный аспект проблемы роста энергопотребления серверов.

Расширение подсистемы памяти в серверах

Роясь в архивах STH, мы нашли пример двухсокетного сервера от Nehalem-EP и Westmere-EP (соответствует 2008-2010 году на диаграмме TDP процессоров Intel). Здесь вы можете видеть по три канала памяти на каждый процессор и по два DIMM-модуля на каждый канал, то есть по шесть DIMM на CPU, или, в общей сложности, 12 модулей памяти в двухсокетной системе при заполнении всех слотов DIMM.

5

Фрагмент платы Supermicro X8DTH-6F.

Современные серверы используют не просто более быстрые и емкие DIMM на большем количестве каналов памяти, но и большее число слотов DIMM. Один процессор AMD EPYC Genoa сегодня использует в четыре раза больше DIMM-модулей, чем Xeon 2008-2010 года, в три раза больше, чем Xeon 2011-2016 года, и в два раза больше, чем Xeon 2017-2020 года.

6

Сокет CPU с 24 DIMM-модулями по схеме 2DPC в сервере Supermicro AS 2015HS TNR.

В то время как мы обсуждаем TDP процессоров, использование всей поддерживаемой емкости памяти и пропускной способности современного сокета подразумевает также увеличение количества устройств памяти. Сегодня много говорят про технологию CXL, позволяющую подключать дополнительные устройства для еще большего расширения памяти. Каждый DIMM-модуль потребляет порядка 5 Вт, так что одна только память в современном сервере может потреблять большую мощность, чем весь сокет вместе с памятью в эпоху Xeon E5.

TDP – не единственный фактор

Глядя на приведенные выше диаграммы, можно справедливо заключить, что за обозначенное время производительность и энергопотребление одной серверной ноды существенно выросли. Однако было бы ошибкой заключить, что правильно эксплуатируемый современный сервер энергетически менее эффективен по сравнению с серверами предыдущих поколений.

7

288-ядерная платформа Supermicro SYS 222H TN Xeon 6 Birtch Stream.

Сегодня мы можем сделать больше на одной ноде, используя более мощные процессоры, видеокарты, сетевые карты и другие ускорители. Это значит, что для выполнения задачи нам нужно меньше нод. Каждая дополнительная нода требует дополнительных корпусов, блоков питания, материнских плат, загрузочных дисков, портов PDU, управляющих процессоров, портов сетевого управления, сетевых портов и т.д. В ходе уплотнения серверов до меньшего количества более производительных нод межнодовые коммуникации потребуют больших накладных расходов.

8

Интеграция максимально возможного количества вычислительных ресурсов и интерконнекта в одну стойку – сильный козырь системы NVIDIA GB200 NVL72. В то же время энергопотребление в диапазоне от 100 до 120 кВт делает проблематичным использование этой стойки в дата-центрах, не рассчитанных на такую плотность.

Мы заметили, что мощность, потребляемая стойкой GB200 NVL72, практически эквивалентна емкости батареи Tesla Cybertruck (в пересчете на час работы). Это позволяет довольно наглядно представить масштаб энергопотребления серверной стойки.

Заключение

В заключении отметим связь энергопотребления с инфраструктурой дата-центров. Тема жидкостного охлаждения не теряет своей актуальности, а проблемой номер один для дата-центров становится энергообеспечение. Если в прошлые годы компании пытались удержать серверы в определенных рамках энергопотребления и тепловыделения – таких, которые позволяли бы поддерживать существующую инфраструктуру стоек, то новейшая идеология отрасли ставит перед ними задачу обеспечения стоек большей мощностью.

Оставайтесь с нами, чтобы быть в курсе последних тенденций.

Источник: www.servethehome.com

подписаться   |   обсудить в ВК   |