Каталог
ZV
ездный б-р, 19
+7 (495) 974-3333 +7 (495) 974-3333 Выбрать город: Москва
Подождите...
Получить токен
Соединиться
X
Сюда
Туда
x
Не выбрано товаров для сравнения
x
Корзина пуста
Итого: 
Оформить заказ
Сохранить заказ
Открыть корзину
Калькуляция
Очистить корзину
x
Главная
Магазины
Каталог
Мои заказы
Корзина
Магазины Доставка по РФ
Город
Область
Ваш город - ?
От выбранного города зависят цены, наличие товара и
способы доставки

Четверг, 7 декабря 2023 09:16

NVIDIA L40S: выгодная альтернатива NVIDIA H100 в серверах для ИИ

короткая ссылка на новость:
На момент написания этой статьи 80-гигабайтный графический ускоритель NVIDIA H100 80GB PCIe стоил у онлайн-продавцов (таких как CDW) 32 тысячи долларов по предварительному заказу со сроком около полугода. Понятно, что цены на все (или почти все) топовые GPU от NVIDIA крайне высоки, в полном соответствии со спросом. В то же время NVIDIA предлагает альтернативное решение, которое устроит многих пользователей ИИ-приложений и смешанных облачных нагрузок корпоративного класса. NVIDIA L40S – это модификация графической карты L40, во многих случаях становящаяся палочкой-выручалочкой в сегменте ИИ. Давайте посмотрим, чем это обусловлено.

1

Но сначала мы хотим выразить благодарность Supermicro за предоставленный нам доступ к дефицитному оборудованию от NVIDIA, то есть, фактически, за спонсорскую поддержку данного обзора.

Графические компоненты NVIDIA A100, NVIDIA L40S и NVIDIA H100

Во-первых, отметим, что если вы планируете обучение базисных моделей ИИ, таких как ChatGPT, то наиболее подходящий для этого графический ускоритель – модуль NVIDIA H100 80GB SXM5. Однако, когда базисная модель уже обучена, использование результатов этого обучения (инференсов) или адаптация модели под более конкретную специфику обрабатываемых данных часто может осуществляться на значительно более дешевых и менее энергоемких аппаратных компонентах.

2

В настоящее время для запуска продвинутых инференсов используются в основном три GPU: NVIDIA A100, NVIDIA H100 и новая карта NVIDIA L40S. Мы не упоминаем здесь NVIDIA L4 24GB, поскольку это скорее карта для инференсов начального уровня.

3

Модели NVIDIA A100 и H100 базируются на флагманских GPU соответствующих поколений. Так как мы рассматриваем вариант под стандартный слот PCIe вместо модуля SXM, отметим два основных аспекта различий между этими форм-факторами: конфигурация NVLink и энергопотребление. Модули SXM рассчитаны на более высокое энергопотребление (примерно вдвое большее по сравнению со стандартными версиями PCIe) и используют NVLink (и часто NVSwitch) для соединения друг с другом нескольких GPU. Например, подобная схема используется в одной из самых высококлассных систем – сервере для ИИ Supermicro SYS-821GE-TNHR с восемью GPU NVIDIA H100.

Карта NVIDIA A100 PCIe вышла в 2020 году с 40 ГБ памяти, а в середине 2021 года компания выпустила модернизированную 80-гигабайтную версию A100 PCIe 80GB. И вот, через два с лишним года, эти карты расширения все еще популярны.

4

Мы впервые получили на руки модуль NVIDIA H100 SXM5 в начале 2022 года, но системы с этими модулями начали выходить в конце года, а процессоры с поддержкой PCIe Gen5 стали доступны только в начале следующего, 2023 года.

Карта NVIDIA H100 PCIe – это менее мощная версия H100, разработанная для массовых серверов. Можно сказать, что карта PCIe – это примерно такой же чип Hopper, но работающий на другой схеме управления напряжениями и частотами, которая рассчитана на несколько меньшую производительность и намного меньшее энергопотребление.

5

Таким образом, различия есть даже внутри линейки H100. Карта NVIDIA H100 PCIe – это тоже H100, но в стандартном форм-факторе PCIe, который подразумевает менее высокую производительность, сниженное энергопотребление, а также меньшие скорости NVLink.

6

L40S – это вообще-то из другой оперы. Взяв за основу модель L40, видеокарту для профессиональной визуализации на базе новейшей архитектуры Ada Lovelace, NVIDIA модифицировала эту модель, сместив фокус с визуализации на ИИ.

7

NVIDIA L40S – бесподобная видеокарта, сохранившая такие фишки L40, как ядра RT, выходы DisplayPort и кодек NVENC/NVDEC с поддержкой AV1. При этом NVIDIA перевела ее на более высокую мощность для обеспечения тактовых частот, необходимых для поддержки ИИ-функционала GPU.

8

Для наглядности мы приводим здесь сравнительную таблицу спецификаций GPU NVIDIA для обучения ИИ и запуска инференсов. Значения спецификаций иногда расходятся даже в официальных источниках от NVIDIA, здесь – самые точные данные, которые мы смогли найти. Кроме того, мы добавили сюда двойную конфигурацию H100 NVL, включающую в себя два усиленных чипа H100, соединенных между собой мостом NVLink, так что обратите внимание: цифры в последней графе относятся к двум GPU.

9

Здесь стоит выделить следующие пункты:

  • L40S – это усовершенствованная во многих аспектах по сравнению с L40 карта для обучения ИИ и запуска инференсов, но происхождение обеих карт от одной линейки легко прослеживается;
  • L40 и L40S – это не те карты, которые предлагают максимальную емкость и пропускную способность памяти или вычислительные мощности FP64; но с учетом того, что в наши дни ИИ-нагрузки частично покрывают традиционные области применения FP64, для многих пользователей это более чем выгодное предложение;
  • кто-то может заметить, что у L40S намного меньше памяти, чем у NVIDIA A100, и это действительно так, но физический объем памяти – это еще не все; NVIDIA L40S поддерживает движок NVIDIA Transformer Engine и FP8, а использование FP8 резко сокращает объем обрабатываемых данных – число в формате FP8 занимает меньше памяти и требует меньшей пропускной способности памяти при перемещении, чем число в формате FP16. NVIDIA продвигает Transformer Engine, поскольку H100 тоже его поддерживает и он позволяет снизить стоимость или повысить производительность компонентов NVIDIA для ИИ;
  • L40S предлагает более мощный функционал для визуализации с равноценной поддержкой кодирования и декодирования видео, тогда как H100 специализируется в основном на декодировании;
  • NVIDIA H100 быстрее, но и стоит намного дороже. Например, в прайс-листе CDW на текущий момент H100 стоит где-то в 2.6 раза больше, чем L40S;
  • еще один важный момент – доступность: получить заказ NVIDIA L40S сегодня можно намного быстрее, чем ждать в очереди за NVIDIA H100.

Идея нового прогрессивного подхода к аппаратному обеспечению ИИ – в том, чтобы в сценариях кастомизации моделей и использования инференсов обойтись без H100. А вместо этого вернуться к той концепции, которую мы открыли много лет назад, а именно – к серверу со стандартными подключениями PCIe высокой плотности. В 2017 году мы сделали сервер для глубокого обучения DeepLearning11 с однокорневым вводом/выводом, в который запихнули 10 видеокарт NVIDIA GTX 1080 Ti, и эту серверную архитектуру в свое время взяли на вооружение даже крупные компании, такие как некоторые региональные поисковые/веб-гиперскейлеры и компании, специализирующиеся на беспилотном автовождении.

10

Впоследствии NVIDIA изменила условия пользовательского соглашения (EULA), чтобы исключить подобные сборки, и в настоящее время перепрофилирует свое программное обеспечение под аппаратные компоненты для дата-центров, предназначенные для ускорения инференсов и обучения ИИ, так что теперь дело обстоит по-другому.

В 2023 году можно применить эту концепцию, но с картами NVIDIA L40S (и без «нестандартных» серверных сборок).

11

Купив сервер на L40S, то есть просто на более дешевых GPU, чем H100, можно получить близкий уровень производительности при меньшей стоимости системы.

Давайте рассмотрим это вопрос более подробно.

Видеокарты NVIDIA H100 и L40S в серверах Supermicro SYS-521GE-TNRT

Одна из отличительных особенностей наших сегодняшних систем – то, что они пятиюнитовые (5U). Потому что TDP каждой из опций GPU, H100 или L40S, составляет 350 Вт. Следовательно, суммарное энергопотребление восьми видеокарт будет около 2.8 кВт, а энергопотребление всей системы – в районе 4.3-5 кВт. Что соответствует уровню одного сервера под стойку 208 В/ 30 A (или нескольких серверов в более мощной стойке). Плотность – не самая большая проблема для современных серверов ИИ, более значимыми лимитирующими факторами часто оказываются потребляемая мощность и возможности охлаждения стоек.

12

Таким образом, дополнительный юнит пространства обеспечивает нам более благоприятные условия для охлаждения видеокарт. Карты NVIDIA H100 и L40S могут работать на своей максимальной мощности, но в среднем их энергопотребление обычно меньше этих цифр.

13

В части CPU Supermicro предлагает обе опции – и Intel Xeon, и AMD EPYC в одинаковых серверных корпусах. Мы будем использовать версию с Intel Xeon; один сервер укомплектован восемью видеокартами NVIDIA H100:

14

И другой такой же – восемью картами NVIDIA L40S:

15

Вы видите, что сейчас у нас только по восемь карт в каждой системе, но эти системы масштабируются до 10 GPU, как у нас было в DeepLearning11.

16

В серверах с видеокартами PCIe способ соединения видеокарт имеет значение для таких вещей, как одноранговые передачи (P2P) через переключатель PCIe без NVLink и качество работы библиотеки NVIDIA NCCL в режиме нагрузки. NCCL используется для распределения задач между несколькими GPU. Сервер Supermicro SYS-521GE-TNRT использует переключатели PCIe Gen5 в двухкорневой конфигурации. На плате для GPU под радиаторами можно видеть два переключателя PCIe, которые через эту плату подключены к CPU.

17

Карты NVIDIA H100 также могут устанавливаться в этот сервер, будучи попарно соединенными мостом NVLink. Что касается L40S, то каждая карта использует стандартное подключение PCIe.

Производительность

В качестве тестовой нагрузки мы запускали на этих GPU инференс LLaMA 7B. Времени на это у нас было мало, поэтому набор результатов тоже весьма ограничен. NVIDIA публикует много результатов тестов с ИИ, которые желающие могут посмотреть бесплатно.

18

Мы сравнили наши результаты с официальными результатами NVIDIA, хотя там использовалась версия H100 SXM5, а не PCIe; но мы ориентировались на то, что версия SXM5 в среднем на 25% быстрее PCIe (плюс-минус, в зависимости от нагрузки).

Итак, вопрос очевиден: почему L40S, если H100 быстрее? Во-первых, 48 ГБ памяти бывает достаточно, особенно если использовать FP8, что позволяет L40S успешно конкурировать с A100, даже с версией SXM, работающей с FP16. Во-вторых, хотя мы видим, что H100 PCIe в 2.0-2.7 раза быстрее L40S, не забываем, что H100 также в 2.6 раза дороже. Кроме того, заказанная партия L40S придет намного быстрее, чем H100, и это, с учетом цены, делает L40S вполне конкурентоспособным решением в сравнении даже с H100, и в ряде ситуаций L40S будет предпочтительнее.

19

Несколько замечаний. Если вы развертываете свыше 10000 GPU, то NVIDIA предлагает не только H100, но также H100 SXM5 в составе платформ Delta Next с поддержкой NVSwitch и других технологий. Если же вы развертываете систему «всего» на 4000 GPU (с вероятной стоимостью оборудования от 50 миллионов долларов), то в ответ на свой запрос мы получили от NVIDIA утвердительный ответ: да, L40S – именно то решение, которое вам нужно.

Другие аргументы в пользу NVIDIA L40S

Карта L40S представляет интерес еще в нескольких аспектах. Например, в аспекте программного обеспечения виртуализации, где NVIDIA также дифференцирует свои чипы для ИИ: L40S поддерживается в NVIDIA Virtual GPU vGPU 16.1, в то время как H100 – только в vGPU 15.

20

Тем, кто хочет развернуть как можно более универсальную графическую машину, также стоит обратить внимание на L40S. Эта карта, исходно предназначавшаяся для приложений визуализации, включает в себя аппаратные движки для кодирования видео с поддержкой AV1 и ядра RT.

Есть одна вещь, которую L40S не поддерживает, и это MIG (Multi Instance GPU). Эта технология позволяет, например, «разбить» карту H100 на семь «подкарт» различного размера. Эта функция наиболее полезна для открытых облачных сервисов, поскольку помогает распределить ресурсы GPU между клиентами. Для предприятий это не столь актуально.

21

Разделение NVIDIA A100 40GB на два MIG-инстанса.

Кроме того, развертывание систем L40S в буквальном смысле менее энергозатратно: они потребляют вдвое меньшую мощность по сравнению с аналогичными системами SXM5. Это очень привлекательный вариант для тех, кто планирует горизонтальное масштабирование серверов в условиях ограниченного бюджета энергообеспечения каждой стойки.

22

Итак, опция GPU L40S – не такая быстрая, как H100, но: предлагает поддержку FP8 и Transformer Engine от NVIDIA, более доступна и проста в развертывании, чем H100, и часто позволяет снизить стоимость системы.

Резюме

В сети довольно мало информации на тему возможного использования карты NVIDIA L40S в качестве альтернативы H100 PCIe. Надеемся, что наша статья хотя бы частично восполняет этот пробел. Мы не говорим, что L40S – абсолютно бюджетное решение, но шесть лет назад мы собрали сервер для ИИ как раз на видеокартах более бюджетной категории (игровых), которых было больше. Сегодня NVIDIA официально одобряет эту серверную архитектуру, которая может поддерживать до нескольких тысяч GPU, и рекомендует для нее L40S.

Еще раз благодарим Supermicro и NVIDIA за предоставленную поддержку. Карта L40S – хорошая альтернатива H100, тоже от NVIDIA, и это реальное решение для многих заказчиков.

Источник: www.servethehome.com

подписаться   |   обсудить в ВК   |