Каталог
ZV
ездный б-р, 19
+7 (495) 974-3333 +7 (495) 974-3333 Выбрать город: Москва
Подождите...
Получить токен
Соединиться
X
Сюда
Туда
x
Не выбрано товаров для сравнения
x
Корзина пуста
Итого: 
Оформить заказ
Сохранить заказ
Открыть корзину
Калькуляция
Очистить корзину
x
Главная
Магазины
Каталог
Мои заказы
Корзина
Магазины Доставка по РФ
Город
Область
Ваш город - ?
От выбранного города зависят цены, наличие товара и
способы доставки

Суббота, 19 октября 2024 10:18

768 потоков на один сервер AMD EPYC 9005 Turin выливаются в запредельную производительность

короткая ссылка на новость:
Серия AMD EPYC 9005 уже здесь. В пику чипам Intel Xeon 6900P, утверждающим возвращение Intel на лидирующие позиции в серверном сегменте, новая линейка AMD EPYC 9005 показала феноменальную, можно даже сказать – запредельную – производительность. Фактически, формула AMD проста: увеличение TDP на 25% и более при увеличении числа ядер на 50%. Новая серия базируется на новом техпроцессе и привносит в серверное портфолио AMD архитектуру Zen 5/ Zen 5c. Сочетание всего этого в новейших процессорах AMD EPYC преобразуется в исключительно высокие результаты.
1

AMD предоставила нам тестовое «железо», включая серверную платформу и три образца процессоров. Так что мы должны отметить, что данный обзор спонсирован AMD. При этом мы дополнили тестовую конфигурацию компонентами от Solidigm и Broadcom, которые они прислали нам для других обзоров, но мы посчитали возможным использовать их и здесь.

2

Один из важнейших пунктов, которые мы выявили в ходе тестирования: использование сравнительно медленных SSD и сетевых карт в таких системах приводит к заметным потерям в производительности, особенно на 192 ядрах.

3

Хотя ни одна из упомянутых двух компаний не снабжала нас этими компонентами специально для данного обзора, мы просто воспользовались тем обстоятельством, что они у нас уже были. Поэтому в качестве спонсоров обзора мы указываем также Solidigm и Broadcom. Теперь, после всех необходимых отступлений, переходим непосредственно к нашим процессорам.

Процессоры серии AMD EPYC 9005 “Turin”

Начнем с наиболее весомой модернизации: в серверных процессорах AMD EPYC “Turin” используется архитектура нового поколения Zen 5 и Zen 5c.

4

Поскольку модельный ряд, основные характеристики и цены также важны, мы приводим здесь эти данные.

таблица

AMD предлагает чипы Zen 5c с числом ядер от 96 до 192. И все это процессоры Turin, здесь нет веток Genoa/ Bergamo. Сначала, когда я только собирал нашу тестовую платформу и увидел чип AMD EPYC 9755, я подумал, что это процессор Zen 5c, по аналогии с EPYC 9754, который был из семейства Zen 4c.

6

Но я ошибался. AMD сделала мощный ход в плане унификации линейки, и это целесообразно. Intel представляет свои ядра P и E как различные архитектуры и, что важно, с поддержкой или без поддержки SMT. AMD говорит про свои процессоры, что они поддерживают один и тот же набор инструкций при различном числе ядер, тактовых частотах и размере кэшей. Действительно сильный ход.

специфика

В этой линейке есть два 500-ваттных процессора, которые требуют модернизации платформы в части цепей питания. Здесь у нас по-прежнему есть односокетные процессоры серии “P”, но с количеством ядер не более 96. То есть, в отличие от предыдущих поколений AMD, здесь мы не получаем компонентов серии P с максимальным числом ядер.

характиристики

Возможно, самый прикольный чип в новой линейке – AMD EPYC 9175F: предлагает 16 ядер для Microsoft и других схем поядерного лицензирования серверов, но с turbo-частотой 5 ГГц и кэшем L3 512 МБ (32 МБ на ядро). Это просто колоссальное предложение для тех, кто платит за лицензию по числу ядер.

9

Цены в перечне AMD выглядят довольно агрессивно по сравнению с тем, что мы видим в этом поколении у Intel. Прайс-лист Intel подразумевает перспективу скидок, но AMD, по-видимому, применяет другой подход.

график

В этом поколении мы не видим (пока) свежих аналогов Genoa-X. По словам AMD, платформа Genoa-X по-прежнему актуальна, и у нас нет карт выпуска ее обновлений. Хотя серия Turin позиционируется как массовый продукт, давайте смотреть на вещи реалистично. Если вы собираете, например, сервер хранения данных на 24 жестких диска или другую систему, не требующую всех 12 каналов сокета SP5, скоростей PCIe Gen5 и т.д., то вам, вероятно, лучше будет остановиться на серии AMD EPYC Siena, Milan или EPYC 4004.

график

Мы уже рассказывали обо всех инновациях архитектуры ядер Zen 5 и Zen 5c во многих статьях. В отличие от клиентских процессоров, серверные чипы этого поколения имеют однородную архитектуру, то есть содержат или ядра Zen 5, или Zen 5c, но не и те и другие вместе.

5th Gen AMD EPYC Generational Innovations

Если вы близко знакомы с SoC-системами AMD EPYC 4-го поколения, то следующий слайд содержит для вас много интересного. На нем показаны все отличительные особенности новых SoC и выделены основные отличия, как то – конфигурации ядер, 512-разрядный блок AVX-512, скорости памяти, поддержка CXL и др.

5th Gen AMD EPYC SoC

Тем не менее, обе архитектуры поддерживают одинаковый набор инструкций, поэтому, в отличие от модели Intel с разными ядрами P и E, правильно будет рассматривать новые ядра как отличающиеся друг от друга в части профилей частот, мощности, кэшей и плотности. Платформа в целом, однако, одна и та же, снова в отличие от концепции Intel с двумя платформами (Xeon 6700 и Xeon 6900). AMD вместо этого предлагает различные CCD и корпусировки с более высокой плотностью ядер Zen 5c или с большим кэшем и тактовыми частотами ядер Zen 5.

5th Gen AMD EPYC CPU Chiplet Architecture

Я спросил у AMD про поддержку 32x SATA, поскольку линии этого интерфейса сегодня используются не очень эффективно. В AMD согласились, что сегодня это не самая полезная опция, но она нужна для обеспечения совместимости платформы. Я думаю, что мы увидим сокращение поддержки SATA в ближайших поколениях, потому что это очень древний интерфейс, поддержку которого смогут обеспечить карты расширения – в тех областях, где это нужно.

15

AMD по-прежнему сохраняет возможность использования линий I/O как для межсокетных соединений, так и в качестве дополнительных линий PCIe в односокетных серверах. Один сокет AMD предлагает больше линий PCIe Gen5, чем Intel Xeon 6900P, но на грядущей односокетной платформе Intel R1S будет еще больше. В двухпроцессорных конфигурациях платформа Intel Xeon 6900P предлагает192 линии PCIe Gen5, тогда как платформа AMD – максимум 160 линий. Конкуренция – это хорошо!

5th Gen AMD EPYC SoC Platform Overview

Теперь давайте посмотрим на возможности памяти.

Поддержка памяти на платформе AMD EPYC 9005 Turin

Процессоры AMD EPYC “Turin” предлагают все те же 12 каналов DDR5. Поддерживаемые скорости – до DDR5-6000, но, по словам AMD, на определенных заказных платформах эта спецификация будет повышена до DDR5-6400. Это поколение AMD не поддерживает MCRDIMM/ MRDIMM. Тем не менее, применение MRDIMM рассматривается в перспективе, как только эти модули будут утверждены в качестве стандарта JEDEC.

5th Gen AMD EPYC CPU Memory Capabilities

Ниже представлены характеристики контроллеров памяти. Здесь мы видим немного больше, чем просто повышение пропускной способности на 25%.

5th Gen AMD EPYC CPU Memory Capabilities

AMD также поработала над модернизацией интерфейсов I/O, в частности, в направлении повышения производительности высокоскоростных сетевых подключений.

5th Gen AMD EPYC IO

Платформа AMD сегодня поддерживает CXL 2.0. В этом поколении AMD уделяет особое внимание поддержке устройств CXL Type-3, поскольку именно эта модель расширения памяти, по-видимому, будет доминировать в ближайшем цикле.

CXL Overview

Мы уже давно работаем с CXL. Память CXL или устройство Type-3 можно упрощенно представить как память, приделанную к контроллеру, и все это в виде карты расширения подключается к линии PCIe. Это, конечно, слишком упрощенная модель, но суть идеи в этом.

Workloads and Use Cases for CXL Memory

Платформа AMD не просто поддерживает устройства CXL 2.0; по словам компании, их производительность сегодня растет. Использование памяти, висящей на линиях с измененным назначением PCIe/ CXL, сопряжено с увеличением задержки, но это окупается более высокой производительностью и большей емкостью. Если вы читали, например, нашу статью про модуль расширения CXL Marvell Structera X, то могли убедиться, что возможности колоссальные. 12 DIMM-модулей DDR4 на одной карте CXL – это суперэкономичное решение.

CXL Performance

AMD также продолжает совершенствовать технологии безопасной виртуализации и расширяет границы безопасного подключения внешних устройств с Trusted I/O.

AMD Infinity Guard Journey

AMD также представляет новый набор функций RAS:

AMD EPYC RAS Features

А теперь давайте поговорим о возможных узких местах, которые мы выявили в ходе тестирования самых больших из этих новых процессоров.

Устранение узких мест в серверах с большими процессорами

Здесь мы должны отметить одну вещь, которую, вообще говоря, должны отмечать все обозреватели, делающие обзоры этой платформы. Мы нашли узкие места практически во всех подсистемах сервера, и возникают они в конфигурациях со 192 ядрами на сокет. Мы запускаем наши стандартные тестовые нагрузки так давно, что уже хорошо знаем, как они должны себя вести. На 128 и 192 ядрах мы начали замечать влияние смены наших обычных NVMe SSD с PCIe Gen4 на более новые диски поколения PCIe Gen5. У нас есть несколько новых дисков Solidigm D7-PS1010, и, поскольку они новые и быстрые, мы решили провести быстрое сравнительное тестирование с SSD двух поколений.

25

На 64 ядрах в nginx мы не увидели большого преимущества от новых дисков. Но на AMD EPYC 9965 мы получили на 8% большую производительность.

26

В сценарии анализа цен мы получили небольшую прибавку, более выраженную на 192 ядрах:

27

Может показаться, что это не много, но практически диски нового поколения дают прибавку, эквивалентную 5-19 дополнительным ядрам процессора. Это весомо.

28

Мы поставили эти диски, потому что знали, что они новые и очень быстрые. В то же время, в конфигурациях с супермногоядерными процессорами узкие места наблюдаются там, где мы их раньше не замечали.

Аналогичные вещи происходят и в части сетевых подключений. Результат замены накопителей навел нас на мысль, что новым быстрым 192-ядерным процессорам, возможно, нужны более быстрые сетевые подключения, чем один линк 100GbE на процессор. Поскольку у нас есть новые сетевые карты Broadcom 400GbE, мы установили их на серверную платформу AMD Volcano.

29

К сожалению, у нас было только по одной карте каждой модели, но мы все-таки смогли обеспечить общую пропускную способность 400 Гбит/с на каждый CPU (1x 400GbE и 2x 200GbE.) Не идеально, но это максимум, чем мы располагали.

30

Как мы и думали, бенчмарк STH nginx CDN в соответствии с нашими условиями SLA (соглашение об уровне сервиса) с более быстрыми картами пошел быстрее.

31

В сценарии с аналитикой цен влияние сетевых карт было менее выраженным.

32

Эти сетевые карты, кроме того, являются относительно малопотребляющими и энергетически эффективными (в пикоджоулях на бит, pJ/bit), чем наши карты ConnectX-6 100GbE, которые мы обычно используем.

33

Здорово, что мы все это заметили, хотя эти открытия нельзя назвать однозначно приятными, поскольку они добавили трудоемкости и удлинили весь процесс, а у нас было не так много времени на тестирование конфигураций с образцами трех моделей чипов. С другой стороны, эти открытия действительно имеют ценность – в качестве примечания к месседжу “больше ядер – больше производительность”, который мы изначально собирались вложить в этот обзор.

Теперь давайте перейдем собственно к производительности.

Производительность платформы 5-го поколения AMD EPYC 9005

Для этого обзора нам предоставили двухсокетную платформу AMD Volcano с тремя комплектами процессоров и дали около недели на всё про всё.

Это сурово. Тем не менее, вот выходные данные самого большого чипа, AMD EPYC 9965:

выходные данные самого большого чипа, AMD EPYC 9965

Топология 768-поточной 1.5-терабайтной конфигурации ядер:

Топология 768-поточной 1.5-терабайтной конфигурации ядер

А это – AMD EPYC 9755:

AMD EPYC 9755

Топология 512-поточной платформы:

Топология 512-поточной платформы

Наконец, AMD EPYC 9575F:

AMD EPYC 9575F

Топология 128-ядерной/ 256-поточной конфигурации с двумя высокочастотными процессорами AMD EPYC 9575F:

Топология 128-ядерной/ 256-поточной конфигурации с двумя

Мы вступили в эру, когда у нас просто много потоков и кэш.

Компиляция ядра Linux 4.4.2 в Python

Это один из самых запрашиваемых бенчмарков на протяжении последних нескольких лет. Задача простая – мы берем стандартный конфигурационный файл Linux 4.4.2 kernel с сайта kernel.org и запускаем процесс автоконфигурации с задействованием всех потоков системы. Результаты выражены в единицах компиляции в час.

Linux kernel 4.4.2 Compile
Compiles per hour (higher is better)
Dual EPYC 9965 (8x 96T Instances)
Dual EPYC 9755 (8x 64T Instances)
Dual Xeon 6980P (8x 64T Instances)
Dual EPYC 9654 (2x 192T Instances)
Dual EPYC 9754 (4x 128T Instances)
Dual Xeon 6780E (8x 36T)
Dual EPYC 9754 (2x 256T Instances)
Dual Xeon 6766E (8x 36T)
Dual Platinum 8592+
Dual Platinum 8490H
Dual EPYC 7763
Dual Platinum 8480
Dual EPYC 7742
Dual Platinum 8380
Dual Platinum 8280
Dual E5 – 2699 V4
Dual Gold 6252
Dual EPYC 7601

Нам пришлось разделить компиляционные бенчмарки по виртуальным машинам, поскольку короткие однопоточные включения слишком сильно затемняют картину общей производительности. Мы стали распределять эту нагрузку по нескольким инстансам в 2023 году и в скором времени собираемся переходить на тайловую структуру нагрузки.

Бенчмарк c-ray

Бенчмарк c-ray мы используем уже давно. Эта программа осуществляет рейтрейсинг, который является традиционным «лакмусом» для оценки производительности процессоров под многопоточной нагрузкой. Мы предлагаем вашему вниманию результаты, полученные на разрешении 8K.

c-ray 1.1 8K
Time (lower is better)
Dual EPYC 9965 (2x 384T)
Dual EPYC 9755
Dual Xeon 6890P
Dual EPYC 9754
Dual EPYC 9654
Dual Xeon 6780E
Dual Xeon 6766E
Dual EPYC 9575F
Dual Platinum 8592+
Dual Gold 6252

Этот тест мы включили в обзор больше для прикола. Мы разработали этот бенчмарк много лет назад, и тогда он загружал 4-сокетный сервер Xeon E5 так надолго, что за время выполнения этого сценария мы успевали попить кофе. Теперь нам приходится его как-то масштабировать. И пока у нас нет решения по данному вопросу. Этот тест, аналогичный Cinebench для настольных ПК, просто отлично идет на мощных кэшах AMD Zen.

Резюме здесь такое, что для тестирования современных процессоров нужны намного большие нагрузки, особенно если пытаться запустить их сразу на всех доступных ядрах CPU. Сегодня мы располагаем 768 потоками в одном сервере, и вряд ли эта тенденция изменится. К тому же эти нагрузки менее чувствительны к другим компонентам платформы, которые, как мы сегодня убедились, приобретают все большее значение.

Производительность в сетях дистрибуции контента STH Nginx CDN

В тесте Nginx CDN мы используем старый снапшот и шаблон доступа с сайта STH, с отключенным DRAM-кэшированием, чтобы проиллюстрировать производительность в аспекте передачи данных с дисковых накопителей. Для этого требуется низкая задержка операций Nginx, а также низкая задержка на дополнительном шаге доступа к интерфейсу I/O, что делает задачу интересной на уровне сервера. Вот как выглядит скорость дистрибуции:

STH nginx CDN Performance
Requests/sec under SLA (Higher is better) Normalized to Xeon Gold 6252 as 1.0
2P AMD EPYC 9965
2P AMD EPYC 9755
2P Intel Xeon 6980P
2P AMD EPYC 9754
2P AMD EPYC 9654
2P Intel Xeon 6780E
2P Intel Xeon 6766E
2P AMD EPYC 9575F
1P AmpereOne A192-32X
1P AMD EPYC 9754
2P Intel Xeon Platinum 8568Y+
1P Ampere Altra Max M128-30
2P Intel Xeon 6252

AMD здесь лидирует в части чистой производительности CPU. Мы должны отметить, что здесь мы не используем ускорители Intel QAT для OpenSSL, что повлияло бы на результат. Это тест чисто на производительность CPU. Кроме того, он показывает заметное улучшение результатов при использовании более быстрых SSD и очень заметное – при использовании более быстрых сетевых карт. Это важно с практической точки зрения, поскольку успешное выполнение условий SLA во многом зависит от пропускной способности. В то же время, прогресс от перехода к коэффициенту консолидации 9:1 по сравнению с традиционными платформами 2-го поколения Xeon Scalable огромен. Сегодня один сервер, вероятно, уже может обслуживать весь трафик любого веб-сайта, не считая крупнейших топ-10000 во всемирной паутине.

Анализ ценообразования в MariaDB

Эта задача очень интересна лично мне. Этот тест создан на базе нагрузки, представляющей собой приложение для анализа аспектов ценообразования на основе анонимизированных данных одного из ведущих ЦОД OEM. Приложение фактически анализирует в реальном времени многопараметрические тенденции в ценообразовании по данным продуктовых линеек, регионов и каналов поставок и определяет выгодность или невыгодность конкретных BOM-спецификаций (перечней элементов) устройств. Если эта задача представляется вам слишком специфической, то разница между ней и тем, что считают крупные производители, заключается в конкретных данных, используемых для анализа. Приложение такого типа можно перевести на методологию машинного обучения, но само по себе оно представляет наглядный пример сценария, который реальные предприятия могут запускать в облаке.

Maria DB Pricing Analytics
Analyties runs/hour (Higher is better) Normalized to Xeon Gold 6252 as 1.0
2P AMD EPYC 9965
2P AMD EPYC 9755
2P Intel Xeon 6980P
2P AMD EPYC 9654
2P AMD EPYC 9754
2P AMD EPYC 9575F
2P Intel Xeon 6780E
2P Intel Xeon 6766E
2P Intel Xeon Platinum 8568Y+
1P AmpereOne A192-32X
1P AMD EPYC 9754
1P Ampere Altra Max M128-30
2P Intel Xeon 6252

43

С этой нагрузкой платформа AMD справляется очень хорошо. И снова мы отмечаем влияние SSD и сетевых карт. Также здесь интересен результат AMD EPYC 9575F, который за счет высокой частоты своих 64 ядер хотя и проиграл заметно 144-ядерному Sierra Forest, но расположился неожиданно близко к супермногоядерным чипам поколения Zen 4.

Виртуализация в среде STH STFB KVM

Еще один пример, который мы хотели бы здесь привести, – из практики одного из клиентов нашей лаборатории DemoEval, который разрешил нам опубликовать результаты, хотя само тестируемое приложение относится к закрытым источникам. Рабочий сценарий использует систему виртуализации KVM (Kernel-based Virtual Machine), а задача заключается в том, чтобы выяснить, сколько виртуальных машин могут параллельно работать онлайн в течение времени, требующегося для выполнения работ в соответствии с условиями SLA (соглашения об уровне сервиса). Каждая виртуальная машина работает независимо от остальных. В части решаемых задач это очень похоже на VMware VMark, просто сценарий с использованием KVM более общий.

график

Здесь преимущество многих ядер очевидно, но этот сценарий также чувствителен к тактовым частотам и пропускной способности (и емкости) памяти. Чип AMD EPYC 9965 – это тот процессор, который вам нужен, если вы работаете с современными платформами виртуализации с открытым исходным кодом. Он предлагает колоссальные возможности для консолидации.

Также важно отметить, что если вы платите за лицензирование 16 или 32 ядер на сокет, то этот уровень консолидации будет стоить довольно. Для этого сегмента рынка AMD предлагает процессоры, оптимизированные по частоте, но люди при расчете окупаемости инвестиций (ROI) все равно будут склоняться к открытой виртуализации, если это позволяет шестикратно повысить плотность сокета.

Дополнительные слайды от AMD

Три комплекта процессоров, трудоемкие бенчмарки и всего недельный срок – это авральный режим. При этом у нас есть несколько уникальных авторских тестов, на которых мы в этот раз не могли не сконцентрироваться, поскольку они действительно дают новую актуальную информацию. Тем не менее, нельзя объять необъятное. Поэтому мы включили в этот обзор несколько слайдов от AMD, в том числе показатели производительности ИИ на новой платформе (обратите внимание, что здесь результат обычно сильно зависит от тестовой системной конфигурации).

график 1

Результаты тестов с нагрузками HPC (высокопроизводительные вычисления) с открытым исходным кодом:

график 2

Результаты тестов с лицензируемыми нагрузками HPC корпоративного класса:

график 3

Платформа AMD, конечно, проявляет себя отлично во многих аспектах. Вместе с тем, нужно учесть, что на слайдах компании, как обычно в подобных случаях, представлены наиболее выигрышные позиции.

Теперь давайте поговорим о поддерживаемых скоростях памяти.

Замечания по скоростям памяти DDR5

Изначально AMD заявила, что платформа будет поддерживать DDR5-6000.

5th Gen AMD EPYC CPU Memory Capabilities

И действительно, когда мы получили платформу AMD Volcano, мы нашли там модули RDIMM DDR5-6400, работающие со скоростью 6000 MT/с.

платформа AMD Volcano, мы нашли там модули RDIMM DDR5-6400

Позднее AMD заявила, что будет отдельно утверждать поддержку DDR5-6400 на платформах заказчиков. По-видимому, на этот шаг AMD подвигнул выпуск серии Intel Xeon 6900P. Лучший совет, который мы можем дать пользователям, – проверять свои платформы, но при этом DDR5-6000 считается стандартной опцией, а поддержка DDR5-6400 утверждается для отдельных платформ по согласованию с заказчиком.

На всех процессорах мы запускали тест GCC STREAM – в однопоточном режиме и в режиме всех доступных ядер сокета. Это компилятор из набора GCC, который мы использовали и на других платформах, включая NVIDIA GH200. В своих аналогичных тестах AMD может получать лучшие результаты, используя свой компилятор AOCC, а мы приводим здесь дополнительные данные, полученные при гораздо меньшем уровне оптимизации компилятора. Итак, результат AMD EPYC 9965 в режиме одного ядра:

50

Тот же тест на всех 192 ядрах AMD EPYC 9965:

51

Теперь AMD EPYC 9755 в режиме одного ядра:

52

Все 128 ядер AMD EPYC 9755:

53

Одно ядро AMD EPYC 9575F:

54

Все 64 ядра AMD EPYC 9575F:

55

Результаты хорошие на всех трех процессорах. Чип AMD EPYC 9575F имеет не просто высокую тактовую частоту – до 5 ГГц, но также высокую пропускную способность памяти на ядро. Не всем нужны сверхвысокие показатели производительности на ядро CPU.

Энергопотребление платформы AMD EPYC 9005 Turin

500-ваттные чипы точно потребляют 500 Вт каждый. Вместе с 24 модулями DIMM, сетевыми картами, SSD и кулерами энергопотребление одного двухсокетного сервера составляет 1.5-1.7 кВт.

56

С платформами от OEM, которые будут выходить в ближайшее время, выбор расширится. Обычно платформы от разработчика потребляют больше, чем предложения OEM. С другой стороны, платформа AMD производит впечатление более отлаженной, чем Intel Xeon 6900P, которую мы тестировали несколько недель назад.

Тем не менее, посыл в части энергопотребления прост и понятен. Обеспечение питания через стандартную сеть 120 В (актуально только для США) становится непосильной задачей для блоков питания, обычно рассчитанных на выходную мощность в районе 1.2 кВт от одного БП. С топовыми процессорами нового поколения приходит конец 120-вольтовых цепей питания стоек, которые сегодня следует отнести к техническим узким местам, наряду с NVMe SSD поколения PCIe Gen4 и сетевыми картами 100GbE.

Но, конечно, остается вариант использования менее мощных платформ или односокетных платформ.

Итак, переходим к основным выводам.

Вывод № 1: обострение конкуренции с Intel

Что касается прямой конкуренции с Intel в части топовых сокетов, соперничающих за топовые ноды для ИИ, то ситуация не так проста, как может показаться. В супермногоядерном сегменте 192-ядерный чип AMD EPYC 9965 Zen 5c представляет собой отличное решение с точки зрения пропускной способности. Это лучший вариант для виртуализации и облачных нагрузок. В то же время на уровне 128 ядер, где AMD EPYC 9755 конкурирует с Intel Granite Rapids-AP, лидерство AMD уже не выглядит таким безоговорочным, как раньше. Или, точнее сказать, AMD больше не соревнуется в этом топовом сегменте с самой собой.

Intel предлагает больше линий PCIe Gen5 (192 против 160 у AMD), поддержку более быстрой памяти (DDR5-6400 против DDR5-6000) и опцию MCRDIMM/ MRDIMM 8000 MT/с. Кроме того, у Intel есть такие фишки, как AMX для ИИ и другие ускорители, например, QAT. В части чистой производительности CPU AMD по-прежнему лидирует. Но в контексте всей серверной платформы Intel, как минимум, снова предлагает конкурентоспособные решения самого высокого уровня.

57

Процессор AMD EPYC 9965 действительно впечатляет. Возможно, он не превосходит чипы Zen 5 с полноразмерным кэшем L3 или компоненты Granite Rapids-AP в части производительности одного ядра, но его преимущество в другом. С одной стороны, вроде бы справедливо замечание, что AMD EPYC 9965 со своими 192 ядрами и 384 потоками конкурирует с Intel Xeon 6780E и Xeon 6766E, которые со 144 ядрами вписываются в рамки TDP 250-330 Вт. На практике же чип AMD конкурирует с еще не вышедшим процессором Sierra Forest-AP с 288 ядрами, но без SMT. И мы предполагаем, что чип AMD по чистой производительности будет превосходить Sierra Forest-AP с 288 ядрами E. Для примера, два 144-ядерных процессора Intel Xeon 6780E Sierra Forest в двухсокетной конфигурации набирают в SPECrate2017_int_base около 1410 баллов (на каждого). Допустим, что при таком же числе ядер, но с другой конфигурацией I/O, 288-ядерный чип Sierra Forest-AP (серия 6900E) наберет в этом же тесте 2820 баллов плюс-минус 10%. Это оптимистичная оценка, и это не очень далеко от результата AMD EPYC 9965 – 3000 баллов. Конечно, здесь может сыграть и тот фактор, что облачные провайдеры захотят продавать виртуальные машины с одним виртуальным процессором; тогда Sierra Forest-AP будет обеспечивать большую плотность, используя физические ядра.

58

В 2019 году, когда мы написали статью «Серия AMD EPYC 7002 Rome наносит нокаутирующий удар», это именно так и было. Intel потратила последние 4 года на то, чтобы вернуться на высокие позиции. Они могут конкурировать на уровне 128 ядер, выставив гомогенные чипы только с ядрами P, а Intel Xeon 6766E – действительно удачный 144-ядерный компонент, но прямого соперника у EPYC 9965 все еще нет, по крайней мере, пока не выйдет серия 6900E.

59

Давайте быстро взглянем на цены. У Intel должно произойти значительное снижение цен на чипы серии Sierra Forest Xeon 6700E. Если сравнивать текущие цены на AMD EPYC 9965 ($14813) и Intel Xeon 6780E ($11350), то это очевидно не вариант для компонентов, предлагающих примерно половину производительности по сравнению с конкурирующими чипами AMD.

Чипы Intel Xeon 6980P по цене $17800 могут конкурировать с AMD EPYC 9755 ($12984), но сложно воспринимать их показатели производительности на фоне 37%-ной разнице в цене не в пользу Intel.

Мы ожидаем, что после применения скидок цены более-менее выровняются. Тем не менее, Intel нужно пересмотреть свою ценовую политику в сегменте не для гиперскейлеров, потому что их текущая концепция ценообразования себя вряд ли оправдывает. Даже просто странно видеть такие цены.

Конкуренция в отрасли – это хорошо, и мы рады, что она снова появилась.

Вывод № 2: обострение конкуренции с Arm

Однако у нас есть темная лошадка: это Arm. Если вы занимаетесь корпоративными закупками «железа», то практически ваш выбор составляют процессоры Ampere Altra (Max) и AmpereOne в части энергетически эффективных ядер E, а также суперчипы NVIDIA Grace Superchip/ Grace Hopper в части высокопроизводительных ядер P.

60

AMD предприняла значительные шаги против Ampere. Мы делали обзор системы Supermicro MegaDC ARS-211M-NR на базе AmpereOne A192-32X. И сегодня AMD предлагает весьма конкурентоспособные альтернативы A192-32X как в части производительности, так и энергетической эффективности. Цены на чипы Ampere намного ниже, но процессоры x86 в диапазоне от Intel Xeon 6780E/ 6766E и AMD EPYC 9965 ликвидировали отставание в части эффективности. Ampere Altra Max – это вообще другая лига с меньшей себестоимостью, меньшим энергопотреблением и меньшим набором функций. Для некоторых приложений, таких как виртуализация на базе Arm, процессоры Ampere весьма целесообразны. Ampere может успешно играть на этом поле, но в данный момент им нужно переиграть AMD и Intel на скидках, что входит в намерения компании.

Интересная позиция у NVIDIA. Мы делали обзор платформы NVIDIA GH200 и можем сказать, что с точки зрения чистой производительности CPU платформа EPYC быстрее, а новые скорости DDR5-6000 помогают сравнять счет в части пропускной способности памяти. 144-ядерный NVIDIA Grace Superchip – это фактически два CPU в одном модуле. С точки зрения масштабируемости AMD может достичь более высокой производительности, числа ядер и емкости памяти на систему, чем предлагает NVIDIA. Довольно сложно представить, чтобы сегодня кто-то предпочел NVIDIA Grace вместо x86, если только вы не любите Arm, или ваши GPU не привязаны к конфигурации Grace.

61

Более неоднозначная ситуация у гиперскейлеров, потому что в основном они продвигают Arm в облачный сегмент. 192 ядра/ 384 потока солидного процессора Zen 5c должны привлечь внимание заказчиков. В то же время, если гиперскейлер является религиозным приверженцем кастомных процессоров Arm, то большой вопрос, достаточно ли мощности у чипов AMD, чтобы убедить потенциального заказчика сменить религию.

Заключение

Подводя итоги этого обзора, нужно отметить ключевой ход AMD. Ранее у нас были линейки Zen 4 и Zen 4c – соответственно Genoa и Bergamo. Теперь одна линейка Turin объединяет оба варианта поколения Zen 5: одни процессоры предлагают более высокие частоты и больший кэш, но меньше ядер, другие – больше ядер и оптимизацию под соответствующие нагрузки. Это работает и в корне отличается от концепции Intel с гибридной архитектурой P/ E.

62

Что, однако, еще сильнее закручивает интригу – это то, насколько двухсокетные серверы на 768 потоков повысят общий уровень требований современных серверных платформ. Мы видели заметные преимущества от использования более быстрых SSD и сетевых карт, особенно на платформе EPYC 9965. Высококлассные 500-ватные процессоры также заставляют пересмотреть традиционные схемы питания стоек от сетей 120 В (для США) со стандартными БП. Выход на пределы возможностей сопрягаемых устройств в трех фундаментальных аспектах масштабирования в ходе тестирования нового серверного процессора – это реально круто. Это также подразумевает, что заказчики многоядерных платформ должны держать в уме производительность всей системы, а не только процессоров.

Источник: www.servethehome.com

подписаться   |   обсудить в ВК   |