Семейство микросхем NVIDIA GH200 по сей день окутано облаком недопонимания, как ни одно другое семейство чипов. Похоже, настало время для общей ознакомительной статьи, где просто и понятно объясняется, что представляют собой эти чипы и как их можно использовать. Изначально мы собирались делать обзор системы на базе NVIDIA GH200. Однако, когда я просматривал черновой вариант этого обзора, параллельно вспоминая многочисленные комментарии, которые мы получили за последние несколько кварталов, я понял, что сначала нужно разложить по полочкам базовую информацию об этом суперклассном предложении от NVIDIA. При этом, когда мы говорим “GH200”, это может означать самые различные аппаратные модификации. Потому что, когда AMD или Intel представляют шесть или более товарных позиций (SKU), NVIDIA может представлять одну. Давайте в этом разберемся.

Если вы хотите центральный процессор Arm с памятью LPDDR5X и высокоскоростным интерконнектом, подключенным к графическому процессору Hopper, вам, вероятно, нужен суперчип NVIDIA GH200. Ниже приведена его блок-схема из официальной презентации NVIDIA.

Здесь NVIDIA предлагает две ключевые инновации, выделяющие их решение на фоне потенциальных аналогов. Во-первых, память LPDDR5X распаяна на корпусировке. Во-вторых, CPU и GPU соединяет высокоскоростной интерфейс NVLink-C2C. 72 ядра Arm v9 – это ядра с архитектурой Arm Neoverse V2 от 2022 года, так что они точно не несут в себе какие-то неизвестные новые технологии. NVIDIA, в отличие от Apple, Qualcomm Oryon и AmpereOne, не разрабатывает собственные ядра на основе Arm.

Что касается LPDDR5X, то большинство людей просто скажут, что чип GH200 содержит 480 ГБ памяти. В действительности дело обстоит несколько сложнее. Существует еще 120-гигабайтная версия, которая продается как оптимизированная по пропускной способности, а также 240-гигабайтная версия. Если вы посмотрите на спецификации NVIDIA, то для 480-гигабайтной версии указана пропускная способность памяти до 384 ГБ/с, а для 120- и 240-гигабайтной – до 512 ГБ/с.

Одна из главных инноваций здесь – размещение памяти в корпусировке чипа, благодаря чему NVIDIA не нужно вовлекать сюда материнскую плату и слоты DIMM. Это позволяет NVIDIA повышать производительность с меньшими энергетическими затратами. Это также подразумевает, что ресурс NVIDIA GH200 включает в себя системную память.

Часто можно встретить фото микросхем GH200 и Grace Superchip с верхней стороны, где видно восемь чипов памяти LPDDR5X на каждый 72-ядерный процессор Arm.

С нижней стороны находится по столько же чипов LPDDR5X на процессор, то есть в общей сложности мы получаем 16 чипов памяти на CPU.

В части CPU Grace схема GH200 предлагает 64 линии PCIe Gen5, которые сгруппированы в четыре рут-комплекса по 16 линий. Это намного меньше, чем в типовых серверных процессорах, но, поскольку GPU Hopper подключен к CPU через NVLink-C2C вместо PCIe, эту схему нельзя сравнивать напрямую с AMD EPYC, Intel Xeon или другими процессорами, которые используются в том числе для подключений к InfiniBand или Ethernet-адаптерам/ DPU. Системы GH200 не используют кучу PCIe-подключений в каком бы то ни было аспекте. Если у вас два загрузочных диска, они забирают восемь из 64 линий. Адаптер InfiniBand для горизонтального масштабирования и DPU BlueField-3 для сетей хранения данных заберут по 16 линий каждый, то есть всего половину от 64 линий. NVIDIA применяет здесь действительно изящное решение.

В части GPU, хотя мы и говорим “GH200”, это не обязательно означает, что в данной микросхеме используется графический чип именно H200. Здесь возможны два варианта – с 96 или со 144 ГБ памяти. Стандартная версия графического процессора NVIDIA H100 с PCIe использует 80 ГБ HBM2e, или – 80 ГБ HBM3 в версии SXM5. Даже в H100 конфигурации памяти различались, но многие ситуативно трактовали общее наименование в свою пользу. 80 ГБ памяти в стандартных чипах H100 скомпонованы в пять стеков по 16 ГБ каждый.

В 96-гигабайтной версии таких стеков шесть, и расположены они, как вы сами можете видеть, по краям графического чипа. Вы также можете встретить 94-гигабайтные версии, где, как нам сказали, некоторое количество памяти зарезервировано из практических соображений. По этой же причине встречаются 141-гигабайтные версии H200 с физическими 144 ГБ памяти на борту.

Итак, когда мы говорим «NVIDIA H100», мы можем иметь в виду 80- или 96-гигабайтную версию, и это может быть память HBM2e или HBM3. Когда мы говорим «NVIDIA H200», то имеем в виду 144 (141)-гигабайтный графический чип с памятью HBM3e. Когда мы говорим “GH200”, то в части Hopper там может быть или 96-гигабайтный GPU H100 с HBM3, или 144 (141)-гигабайтный GPU H200 с HBM3e. Меня поправили, когда я сказал, что GH200 – это более новый аналог GH100, потому что в обоих случаях используется наименование “GH200”, хотя бы вы и получили под этим наименованием в части GPU H100.

В этот момент вы можете подумать, что для трех конфигураций памяти LPDDR5X и двух конфигураций памяти HBM одного наименования – GH200 – как-то маловато. Вы были бы правы, но здесь есть один еще более вкусный параметр: мощность.

Мощность микросхемы NVIDIA GH200

NVIDIA GH200 может работать в диапазоне мощностей от 450 до 1000 Вт. На уровне 1 кВт в большинстве случаев используется водяное охлаждение. 450 Вт – это крайне низкий уровень мощности для микросхемы с CPU, GPU и памятью. NVIDIA продает свои GPU с широким диапазоном настройки TDP просто используя инструмент “nvidia-smi –power-limit=”. Зависимость средних тактовых частот от напряжения – нелинейная, но если вы сравните производительность конфигураций с TDP 500 Вт и 1000 Вт, разница будет большой.

Для тех, кто не знает: еще одна прикольная фишка GH200 – в том, что энергию эта микросхема получает непосредственно от блока питания через прямое подключение. В обычных серверах процессоры получают питание от материнской платы.

Резюме по NVIDIA GH200

Итак, когда кто-то упоминает название GH200, то помимо того факта, что это 72-ядерный процессор Arm Neoverse V2 плюс графический процессор NVIDIA Hopper, под этим названием может подразумеваться масса вариантов. Это может быть:

120-, 240- или 480-гигабайтная конфигурация памяти LPDDR5X в части CPU;
пропускная способность памяти LPDDR5X в части CPU может составлять 384 или 512 ГБ/с;
96-гигабайтная конфигурация памяти HBM3 или 144 (141)-гигабайтная конфигурация HBM3E в части GPU;
пропускная способность памяти в части GPU может составлять 4 ТБ/с (HBM3) или 4.9 ТБ/с (HBM3E);
широчайший диапазон производительности в зависимости от настройки TDP.

И всё это разнообразие называется “GH200”.

Заключение

Поскольку в роли GPU в GH200 может выступать как H100 SXM5, так и H200, а значения TDP могут различаться очень существенно, важно четко представлять себе, о какой версии NVIDIA Grace Hopper идет речь. Мы слышали, что некоторые поставщики пытаются убедить заказчиков, что в 96-гигабайтной версии GH200 используется H200, потому что это якобы указано в наименовании, но на самом деле это не так. Помимо емкости памяти в части CPU, при заказе системы GH200 уточните, что она предлагает в части GPU, а также поддерживаемый диапазон TDP. Если это система с воздушным охлаждением, вероятно, также стоит уточнить TDP для конкретной температуры окружающей среды.

Надеемся, что эта короткая статья поможет людям вести переговоры и принимать решения о покупке систем на базе NVIDIA GH200 более предметно. Это действительно очень хорошие компоненты, но их отличает очень большое разнообразие серийных модификаций.

Источник: www.servethehome.com

подписаться | обсудить в ВК |

Компьютеры НИКС

Ноутбуки цены

Моноблоки цены

Внешние жесткие диски цены

Флешки цены

Планшеты цены

Смартфоны цены

Электронные книги цены

Карты памяти цены

Мониторы цены

Принтеры цены

МФУ цены

Материнские платы цены

Процессоры цены

Видеокарты цены

SSD цены

Жесткие диски цены

Корпуса для компьютеров цены

Архив каталога описаний

Вторник, 10 сентября 2024 18:37

Краткое введение в тему NVIDIA GH200, или Grace Hopper

Мощность микросхемы NVIDIA GH200

Резюме по NVIDIA GH200

Заключение