Конференция Computex 2024 (г. Тайбэй) открылась на этой неделе программным докладом NVIDIA, в котором мы ожидали услышать много нового об ИИ и новых платформах, использующих графические ускорители этой компании. Я не смог поехать на конференцию лично (по семейным обстоятельствам), хотя наша команда делегировала туда своих представителей, и пишу статьи по онлайн-трансляциям с места событий.
Программный доклад начинается с обсуждения тезиса “Чем больше вы покупаете, тем больше вы экономите”. Эта идея прослеживается в большинстве докладов Дженсена (Дженсен Хуанг, гендиректор NVIDIA) уже не первый год, и, по-видимому, они собираются продолжать в том же духе.
Этот Computex посвящается эре «ПК с ИИ» (AI PC). NVIDIA представляет три ноутбука ASUS и один MSI, говоря, что это не просто персональные компьютеры для локального ИИ, но образцы ПК с ИИ на платформе CUDA, которая является базисной языковой платформой продвинутого генеративного ИИ.
Это заявление NVIDIA звучит даже несколько демонстративно, учитывая, что сегодня Intel, AMD, Qualcomm и другие заявляют, что у них есть альтернативные ускорители для ИИ.
Говоря об ускорителях Blackwell, Дженсен отметил, что среднее время наработки на отказ (MTBF) кластера из 10 тыс. GPU измеряется в часах, а кластера из 100 тыс. GPU – в минутах. Поэтому GB200 содержит специальный движок контроля надежности RAS Engine.
Вот так выглядит модуль на основе суперчипа Grace Blackwell GB200:
Ниже – очень прикольный график. Здесь NVIDIA показывает, сколько энергии затрачивается на обучение модели GPT-4 при использовании каждого следующего поколения графических ускорителей NVIDIA.
Далее – радиаторы на 15-киловаттных платах NVIDIA HGX B200 в руках у Дженсена.
И снова очень интересно: по-видимому, сервер GB200 NVL72 теперь потребляет 100 кВт на стойку вместо 120 кВт.
Ниже представлен коммутирующий чип NVLink Switch 5-го поколения, обеспечивающий внутренние коммуникации в GB200 NVL72.
Гендиректор NVIDIA продемонстрировал многострадальные «позвонки» NVLink. Даже если коннекторы выглядят как будто слегка не в форме, им придется найти в себе некоторый энтузиазм, необходимый для поддержки слепых соединений.
NVIDIA также рассмотрела возможности Spectrum-X в контексте эры скоростей 400GbE. Компания представила коммутатор NVIDIA Spectrum-X800 Ultra с пропускной способностью 51.2T для эры ConnectX-8. Далее у них в планах выпуск сетевой карты ConnectX-9 и коммутатора 102.4T для сетей со скоростями 1.6 Тбит/с.
Судя по всему, поддержка сетей 800 Гбит/с (которые требуют PCIe Gen6 для одного хоста) запланирована на 2025 год, а 1.6-терабитных – на 2026. И это косвенно указывает на то, что NVIDIA планирует также выпуск в 2026 году сетевых карт PCIe Gen7. Это солидный аргумент для дискуссий о темпах роста скоростей PCIe.
Следующим пунктом идет графический чип NVIDIA Rubin, который будет дополнен процессором NVIDIA Vera. По времени это совпадает с выпуском ConnectX-9, запланированным на 2026 год. Таким образом, мы получим Blackwell в 2024 году, Blackwell Ultra – в 2025, затем Rubin – в 2026, и Rubin Ultra – вероятно, в 2027.
Не секрет, что сервер NVIDIA DGX GB200 NVL72 не относится к категории общедоступного «железа», с учетом ценника в несколько миллионов долларов и бюджета мощности стойки 120 кВт. Поэтому NVIDIA продает блоки Grace Blackwell только с двумя GPU вместо 72-х – под названием NVL2.
У NVIDIA большие планы. И также становится очевидным, что, пока мы обсуждаем «железо» NVIDIA как основной источник доходов компании, NVIDIA затрачивает намного больше времени на программные разработки, даже на Тайване, где производится большая часть их полупроводниковых компонентов. Отсюда мегаинтригующий вопрос – как NVIDIA будет монетизировать свой софт.
Источник: www.servethehome.com