За последние месяцы интерес к рынку профессиональных графических карт заметно вырос, поэтому сейчас самое время посмотреть на характеристики текущих моделей. Имея в своем распоряжении 12 видеокарт, одну системную конфигурацию под несколько видеокарт, текущие версии драйверов и набор тестов для испытаний, давайте определим, какие карты заслуживают вашего внимания.

AMD Radeon Pro vs. NVIDIA Quadro – свежий взгляд на производительность видеокарт для рабочих станций

     Не так давно мы делали обзор характеристик целого ряда профессиональных видеокарт, имеющихся в продаже на сегодняшний день. Последнее обновление данного обзора, в котором мы исследовали профессиональные возможности графических карт любого уровня, было опубликовано вслед за выпуском серии AMD Radeon RX Vega, и мы выяснили, что Vega не вполне подходит для профессиональных вычислений. Там же была рассмотрена карта RX 580, показавшая нам производительность не-профессиональной архитектуры Polaris, а также карты NVIDIA: топовая игровая GeForce GTX 1080 Ti и TITAN Xp (x2).

     Из действительно профессиональных видеокарт у нас есть Quadro P2000, P4000, P5000, P6000, а также Radeon Pro WX 3100, WX 4100, WX 5100 и WX 7100.

     В данный список мы не включили такие графические карты, как AMD Frontier Edition и WX 9100, а также NVIDIA Quadro GV100 и TITAN V. Больше всего стоит пожалеть об отсутствии TITAN V и WX 9100, но я еще поговорю о возможностях этих карт дальше по ходу статьи.

Как обычно, тесты, которые мы выбрали для наших видеокарт, включают множество разнообразных задач: рендеринг изображений, шифрование данных, криптографию и другие математические задачи, интерактивную визуализацию моделей объектов, а также немного игровых задач. Кроме того, мы рассмотрим и специальные тесты: в этой статье будут представлены наши первые бенчмарки глубокого обучения, которые подготовят почву для более фундаментальных исследований в будущем.

Видеокарты AMD Radeon и Radeon Pro

Прежде чем двигаться дальше, давайте посмотрим на текущую продукцию в арсенале AMD и NVIDIA. Начнем с AMD.

Графическая карта	Количество ядер	Базовая тактовая частота, МГц	Максимальная мощность вычислений FP32, TFLOPS	Память, ГБ	Пропускная способность, ГБ/с	TDP, Вт	Цена (SRP), $
RX Vega 64	4096	1247	12.6	8 ²	483.8	295	499
RX 580	2304	1257	6.2	8 ¹	256	185	229
Frontier	4096	1382	13.1	16 ²	484	300	999
WX 9100	4096	1200	12.3	16 ³	484	250	2199
WX 7100	2304	900	5.73	8 ¹	224	130	799
WX 5100	1792	926	3.89	8 ¹	160	75	499
WX 4100	1024	925	2.46	4 ¹	96	50	399
WX 3100	512	1219	1.25	4 ¹	96	50	200
WX 2100	512	1219	1.25	2 ¹	48	35	200

¹ -- GDDR5; ² -- HBM2; ³ -- HBM2 + ECC

Курсивом выделены наименования карт, которые не тестировались для данного обзора.

     Хотя мы и не располагаем в данный момент этой картой, я думаю, что Frontier Edition в линейке AMD по совокупности характеристик могла бы стать лучшим выбором для тех, кто хочет видеть производительность топ-уровня в широком диапазоне задач. Я не вполне уверен, что она по всем показателям превосходит RX Vega, но, принимая во внимание текущие цены на видеокарты, когда Frontier Edition чаще всего можно приобрести за $900, эта карта окажется не намного дороже, чем Vega 64 по майнинговой цене.

     Я готов поспорить, что для рабочей нагрузки самого высокого уровня карта WX 9100 подходит больше, чем Frontier Edition, но об этом сложно рассуждать, не имея под рукой самой карты. Эта карта – очевидный выбор для тех, кто работает с критическими нагрузками, поскольку память HBM2 поддерживает ECC.

     В задачах общих вычислений, где не требуется оптимизация под тот или иной сценарий, RX Vega 64 является безоговорочным лидером среди карт AMD. Далее по ходу статьи вы сможете убедиться в ее высочайшей производительности, особенно когда мы дойдем до рендеринга на OpenCL и криптографии. И, если говорить о рекомендуемой розничной цене, то карта Vega 64 являет собой здоровый пример соотношения цены и производительности.

Карты NVIDIA GeForce, Quadro и TITAN

Линейка карт NVIDIA включает в себя немного больше наименований, чем у AMD, особенно в верхней своей части, где располагаются две карты Volta.

Графическая карта	Количество ядер	Базовая тактовая частота, МГц	Максимальная мощность вычислений FP32, TFLOPS	Память, ГБ	Пропускная способность, ГБ/с	TDP, Вт	Цена (SRP), $
TITAN V	5120	1200	14.9	12 ²	653	250	3000
TITAN Xp	3840	1405	12.1	12 ⁴	548	250	1199
GTX 1080 Ti	3584	1480	11.8	11 ⁴	484	250	649
GV100	5120	1200	14.9	32 ³	870	250	8999
P6000	3840	1417	11.8	24 ⁵	432	250	4999
P5000	2560	1607	8.9	16 ⁵	288	180	1999
P4000	1792	1227	5.3	8 ⁴	243	105	799
P2000	1024	1370	3.0	5 ⁴	140	75	399
P1000	640	1354	1.9	4 ⁴	80	47	299
P620	512	1354	1.4	2 ⁴	80	40	199
P600	384	1354	1.2	2 ⁴	64	40	179
P400	256	1070	0.6	2 ⁴	32	30	139

¹ -- GDDR5; ² -- HBM2; ³ -- HBM2 + ECC; ⁴ -- GDDR5X; ⁵ -- GDDR5X + ECC

Курсивом выделены наименования карт, которые не тестировались для данного обзора.

Такие карты, как TITAN V с ценником $3000, сложно причислить к престижным игрушкам, на которые приятно тратить деньги, но, по общему признанию, это самая эффективная карта из всех, включая GV100. Безусловно, 32 ГБ памяти с ECC – это хорошо, но с учетом того, что производительность на уровне Quadro в большинстве случаев обеспечивается картой TITAN Xp, можно сказать, что модель TITAN V предлагает производительность, которая порой превосходит даже уровень P6000. Не говоря уже о том, что TITAN V включает в себя ядра Tensor, которые применяются в суперкомпьютере NVIDIA DGX-1 для решения задач шумоподавления с использованием алгоритмов машинного обучения (и это только одна из бесчисленных возможностей их применения).

Карта TITAN Xp отличается более приемлемой ценой – $1200, что имеет существенное значение для тех, кто работает с такой серьезной нагрузкой, как, например, CATIA и Siemens NX (в последней программе карта демонстрирует 20-кратное увеличение производительности по сравнению с GTX 1080 Ti). Для достаточно грубых вычислений очевидный выбор – 1080 Ti, особенно с учетом большого объема памяти GDDR5X – 11 ГБ. При такой сравнительно небольшой разнице в производительности между картами 1080 Ti и TITAN Xp удивляет только одно – зачем в NVIDIA использовали некоторые оптимизационные решения из Quadro в видеокарте более высокого класса.

Тестовая конфигурация ПК и набор тестов

В следующих разделах будут рассмотрены результаты тестирования профессиональных видеокарт, которое мы проводили с помощью нашей подборки испытательных тестов. Как уже было сказано, этот набор тестов охватывает широкий диапазон задач – от рендеринга до вычислений – и включает в себя как синтетические бенчмарки, так и работу с реальными приложениями Adobe и Autodesk.

Для этого обзора мы взяли 12 видеокарт, причем, поскольку в нашем распоряжении был второй экземпляр TITAN Xp, здесь также будут представлены результаты всех тестов для комбинации из двух видеокарт TITAN Xp. Если в какой-то итоговой таблице нет результата для двойной конфигурации GPU, это значит, что в данном тесте этот результат по масштабу не соответствует остальным.

Тестовая конфигурация

Процессор	Intel Core i9-7980XE (18-core; 2.6GHz)
Материнская плата	ASUS ROG STRIX X299-E GAMING
Память	HyperX FURY (4x16GB; DDR4-2666 16-18-18)
Графика	AMD Radeon RX Vega 64 8GB (Radeon 18.3.3) AMD Radeon RX 580 8GB (Radeon 18.3.3) AMD Radeon Pro WX 7100 8GB (Radeon Pro 18.Q1) AMD Radeon Pro WX 5100 8GB (Radeon Pro 18.Q1) AMD Radeon Pro WX 4100 4GB (Radeon Pro 18.Q1) AMD Radeon Pro WX 3100 4GB (Radeon Pro 18.Q1) NVIDIA TITAN Xp 12GB (GeForce 391.01) NVIDIA GeForce GTX 1080 Ti 11GB (GeForce 391.01) NVIDIA Quadro P6000 24GB (Quadro 391.03) NVIDIA Quadro P5000 16GB (Quadro 391.03) NVIDIA Quadro P4000 8GB (Quadro 391.03) NVIDIA Quadro P2000 4GB (Quadro 391.03)
Аудиосистема	Встроенная
Накопитель	Kingston KC1000 960GB M.2 SSD
Блок питания	Corsair 80 Plus Gold AX1200
Корпус	Corsair Carbide 600C Inverted Full-Tower
Охлаждение	NZXT Kraken X62 AIO Liquid Cooler
Операционная система	Windows 10 Pro build 16299 Ubuntu 16.04 (4.13 kernel)

     Результаты тестов будут представлены в пяти разделах. В первом разделе рассмотрены бенчмарки ProRender от AMD и V-Ray от Chaos Group, которые запускались в Autodesk 3ds Max, а также Cadalyst, который запускался в AutoCAD. Второй раздел посвящен нашим шифровальным тестам, а также синтетическим бенчмаркам с рендерингом изображений, которые вы сами можете запустить дома – для сравнения.

     Компания SPEC выпускает так много бенчмарков, достойных включения в нашу программу тестирования профессиональных графических карт, что они заслуживают отдельного раздела. Итак, в третьем разделе: тест SPECviewperf помогает нам объективно оценить производительность видеокарт при визуализации объектов моделирования в восьми различных приложениях; тесты SPECapc 3ds Max 2015 и Maya 2017 дают оценку производительности при интенсивной работе с одноименными продуктами Autodesk.

     Как и SPEC, Sandra предлагает достаточно большой набор тестов, и четвертый раздел посвящен трем из них: Cryptography (криптография), Financial Analysis (финансовые расчеты) и Scientific Analysis (научные расчеты). А в пятом разделе, после ряда испытаний и доработок, мы готовы представить вашему вниманию нашу самую первую серию бенчмарков с алгоритмами глубокого обучения.

     Следующий раздел – шестой – посвящен простым и быстрым игровым бенчмаркам: 3DMark и VRMark от UL и Superposition от Unigine. И, наконец, последние разделы включают в себя результаты измерений энергопотребления видеокарт и заключительные выводы.

     Итак, поехали.

Рендеринг: ProRender и V-Ray в Autodesk 3ds Max, Cadalyst в AutoCAD

Одной из самых ярких точек приложения возможностей GPU в рендеринге является усовершенствование эффектов освещения изображаемых сцен, что, в частности, можно делать с помощью множества программ, использующих метод рейтрейсинга, в том числе ProRender от AMD и V-Ray от Chaos Group.

ProRender может работать и на «железе» NVIDIA (хотя и с пометкой “warning”), и, кроме того, карты AMD могут работать с V-Ray – хотя я до сих пор работаю над поиском оптимального программного решения для рендеринга, которое одинаково хорошо пойдет и на GeForce, и на Radeon.

Тест AMD Radeon ProRender

Для начала запустим тест ProRender в программе Autodesk 3ds Max 2017. Версия 2018 официально поддерживается AMD, даже если информацию об этом сложно найти на их официальном сайте. Я еще ничего не слышал о поддержке версии 2019, но, поскольку разработка ProRender идет полным ходом, я был бы рад убедиться также и в скорой поддержке новейшей версии Autodesk 3ds Max.

Тестовая сцена, показанная на рисунке ниже, была воспроизведена за 250 итераций на разрешении 1080p. Итоговое изображение получилось бы лучше при числе итераций порядка 2500, но 250 тоже вполне достаточно для того, чтобы в графических тестах отличать мужчин от мальчиков.

     Удивляет, что карты AMD здесь проявляют себя хорошо? И даже очень хорошо? По всем признакам, ProRender “не любит” «железо» AMD – в том смысле, что графический тест может запускаться на одной архитектуре хуже, чем на другой. ProRender работает полностью на OpenCL, поэтому чем лучше «подогнано» аппаратное обеспечение, тем лучше производительность.

     В нашем случае усиленная OpenCL производительность карт AMD способствует тому, что Vega 64 оказывается в верхней части турнирной таблицы, пропуская вперед только TITAN Xp. И с другой стороны: Vega 64 ведет себя лучше, чем более дорогая GTX 1080 Ti. Неслабый результат.

     Как вы сами можете убедиться, посмотрев на верхнюю часть таблицы результатов, двойная конфигурация GPU обеспечивает производительность не самую высокую. Основываясь на своем опыте тестирования, могу заметить, что конфигурации из нескольких видеокарт работают хорошо, если это карты Radeon, и я не знаю, что за проблема стала причиной снижения производительности комбинации двух «зеленых» карт по сравнению с одной.

Тест Chaos Group V-Ray 4.0 (Beta 3)

Для теста V-Ray в качестве базовой среды использовалась Autodesk 3ds Max 2019. В то время как тест AMD Radeon ProRender поддерживает ограниченное число версий 3ds Max, Chaos поддерживает все версии начиная с 2013, и с того момента, когда они начали поддерживать версию 2019, можно с уверенностью сказать, что разработчики Chaos подтверждают свой высокий статус.

В качестве тестовой сцены мы взяли общедоступную композицию «Teaset» и провели рендеринг на разрешении 1080p. В настройках были отключены опции ограничения времени рендеринга и количества сэмплов и установлен максимальный уровень шума 0.25, чтобы процесс рендеринга мог продолжаться настолько долго, насколько это необходимо для получения значимых результатов. Остальные настройки были установлены по умолчанию.

     Прежде чем представлять результаты V-Ray для карт Radeon, мне нужно провести больше тестов с V-Ray на «железе» AMD, но имеющийся опыт уже говорит о том, что эта специфическая программа подходит не для всех видеокарт. На «железе» AMD элементы сцены воспроизводятся не вполне корректно, из-за чего наблюдается ряд ненужных шероховатостей. V-Ray поддерживает OpenCL просто прекрасно, и в конце концов я хотел бы найти программу, которая одинаково хорошо осуществляет рендеринг и с CUDA, и с OpenCL. Как только я найду такую программу, я представлю соответствующие результаты карт AMD.

     При этом, хотя я знаю, что эта статья посвящена графическим картам, но ведь и CPU вносит большой вклад в производительность при рендеринге с рейтрейсингом – по крайней мере, в данном конкретном случае. Как-нибудь я проведу тестирование комбинации CPU+GPU в рендеринге с использованием нескольких различных программ, чтобы получить в итоге более полное представление о положении дел в этой области.

     Очевидно, что чем быстрее GPU, тем быстрее осуществляется рендеринг (по крайней мере в этом тесте), но также очевидно, что было бы глупо запускать топовую видеокарту на слабом процессоре, если оба компонента могут хорошо дополнять друг друга.

Тест Cadalyst 2015 5.5b в Autodesk AutoCAD 2016

Некоторые бенчмарки от SPEC, которые будут рассмотрены в следующем разделе, дают представление о производительности графики в программах CAD, но AutoCAD остается в стороне. Поэтому мы протестировали производительность в 3D-приложениях с помощью бенчмарка Cadalyst (наряду со скоростью I/O и CPU, но здесь это не важно).

Не слишком часто мы наблюдаем столь явную разницу между продукцией AMD и NVIDIA, как в этом тесте, где карты AMD в результате оказались четко отделенными от карт NVIDIA. Я никогда не слышал, чтобы в AMD говорили об AutoCAD, и теперь понятно, почему. Результат AMD нельзя назвать «слабым», но если вы регулярно работаете с AutoCAD, производительность карт NVIDIA тут явно выглядит предпочтительнее.

Кодирование и рендеринг: Adobe Premiere Pro, Cinebench, LuxMark, OctaneBench и V-Ray (синтетический бенчмарк)

Adobe Premiere Pro CC 2018

Для проверки возможностей видеокарт в части ускоренного кодирования мы использовали программный пакет Adobe Premiere Pro 2018. В этом приложении для оценки производительности GPU наиболее показательными являются задачи наложения на изображение бесчисленного множества фильтров или быстрый переход на более низкое разрешение. Перевод видео целиком из разрешения 1080p в какое-либо другое, возможно, не очень показателен с точки зрения оценки скорости GPU, но переход с 4K на 1080p может давать видимый эффект.

Здесь видеокарты оценивались по трем бенчмаркам. Music Video – продукт NVIDIA, поэтому эта программа, ясное дело, оптимизирована под CUDA, но хорошо работает и на OpenCL. Файлы RED с разрешением 4K (~300 Мбит/с) и 8K (~1,1 Гбит/с) были подвергнуты быстрому перекодированию в более низкое разрешение.

Снижая требования к эффектам рендеринга, AMD прокладывает свой путь к вершине, опережая все карты NVIDIA на целую секунду (или даже на две). Понятно, что разница в одну секунду для большой схемы – это достаточно мало, даже если вы держите в уме весь проект, но при работе с разрешениями 4K и 8K вы определенно захотите подняться выше уровня карт серии WX 5100.

Синтетические бенчмарки

В тестах Cinebench AMD может обогнать Intel в части производительности CPU, но в части производительности GPU быстро уступает NVIDIA. Но то же самое происходит и с собственной линейкой NVIDIA GeForce, которая заметно уступает картам Quadro, и, как ни странно, картам AMD WX 7100, RX 580 и Vega 64. Итоговые результаты показывают, что NVIDIA здесь является безоговорочным лидером: даже карта P2000 по производительности превосходит топовые предложения AMD.

Этот бенчмарк V-Ray отличается от того реального графического приложения, которое мы рассматривали в предыдущем разделе. Этот тест можно загрузить совершенно бесплатно, при этом он использует CUDA для NVIDIA и OpenCL для AMD. К последнему из этих двух пунктов у меня возникли вопросы по поводу точности, и приведенные здесь результаты показывают, почему.

     Очевидное несоответствие – карта WX 7100 оказывается позади всех остальных карт WX более низкого уровня. Кроме того, я часто получаю очень разные результаты при повторных запусках теста на одной и той же карте Radeon, причем это характерно для всех карт Radeon в целом, в то время как с картами NVIDIA подобных проблем не наблюдается. Например, один прогон теста может занимать 4 минуты, а второй – 3 минуты (или наоборот).

     Таким образом, на результаты карт AMD следует смотреть скептически. Я гонял этот тест на всех картах AMD столько раз, сколько было необходимо для получения статистически достоверного результата, но что касается WX 7100, то многократные повторные измерения на результат не повлияли. Это уже не первый случай проблем с этим бенчмарком, и, к сожалению, в этот раз новые проблемы заменили собой старые. Если вам доводилось запускать этот тест на картах AMD и вы не наблюдали указанных проблем (в частности, с картой WX 7100), пожалуйста, оставьте комментарий.

     Бенчмарк OctaneBench – только для CUDA, следовательно, результатов «красной команды» здесь нет совсем. Имеющиеся результаты практически соответствуют ожиданиям, особенно потому, что карты Quadro не имеют здесь явного преимущества; чем быстрее «железо», тем лучше производительность. Особенно если вы нагружаете дополнительные GPU.

В тесте LuxMark мы снова видим, как OpenCL усиливает производительность карт AMD, обеспечивая высокие результаты – RX Vega 64 оказывается сразу за картами NVIDIA TITAN Xp. Странно, что Quadro P5000 прошла тест хуже, чем P4000, причем сразу в двух номинациях. Я не могу это объяснить, хотя уже встречался с таким результатом. В любом случае, эта разница вызвана более сложной причиной, чем проблема с драйверами.

Бенчмарки SPEC: 3ds Max 2015, Maya 2017, SPECviewperf

Когда речь заходит о серьезном тестировании профессионального компьютерного «железа», нет ничего лучше бенчмарков SPEC. Я окрестил ребят из этой фирмы “мастерами бенчмаркинга”, так как любой из инструментов SPEC разрабатывается с профессиональной тщательностью, что позволяет получать максимально достоверные и точные результаты – а это цель любого тестировщика.

Для этого обзора мы взяли три тестовых пакета SPEC, и начнем мы со SPECviewperf, где проверяется производительность видеокарт при динамической визуализации объектов моделирования в девяти различных приложениях. Затем мы рассмотрим результаты, полученные в SPECapc 3ds Max 2015 и Maya 2017, которые помогут нам оценить производительность видеокарт в соответствующих приложениях Autodesk. Мы также используем SPECwpc, но этот пакет гораздо больше подходит для тестирования систем в целом, а не отдельных компонентов.

SPECviewperf 12.1

Результаты SPEC для 3ds Max могут показаться излишними, так как мы уже приводили результаты реального тестирования карт в этом приложении, но здесь важно отметить разницу между этими тестами: наши тесты показывают производительность видеокарт при рендеринге изображения, в то время как тесты SPECviewperf показывают производительность при визуализации объекта в окне приложения – в том самом большом окне, где происходит магия. Если видеокарта A и видеокарта B имеют одинаковый результат по времени рендеринга, они в то же время могут различаться по скорости визуализации операций с объектом – это зависит от оптимизации драйверов (одна из основных причин дороговизны профессиональных видеокарт по сравнению с остальными).

Приведенные выше результаты показывают, что у карт Quadro нет преимущества перед GeForce, но преимущество Radeon Pro перед Radeon могло бы быть, если сопоставить результаты карт WX 7100 и Vega 64 в тесте Maya. Карта 1080 Ti выглядит здесь лучшей бюджетной картой, почти догнав по производительности своего большого брата TITAN Xp (который стоит вдвое дороже), и показывает заметно лучший результат по сравнению с более медленной P6000.

В предыдущей тестовой комбинации карта P6000 получила щелчок от 1080 Ti, но она как следует дает сдачи в тестовых задачах для медицинских и энергетических приложений. С учетом выполняемых сценариев, я предположил бы, что причина этого заключается в 24 ГБ памяти, но промежуточные отметки показывают, что на протяжении всего теста в любой момент времени использовалось не более 3,5 ГБ видеопамяти… поэтому я отношу этот результат на счет общей оптимизации драйверов Quadro.

Это представляется тем более вероятным, если вы посмотрите, насколько P5000 опередила карту Vega 64, даже при том, что в игровом тестировании последняя обошла бы первую на 5-10%. Здесь видно, на что именно была потрачена часть тех долларов, которые NVIDIA вкладывает в разработку драйверов.

Siemens NX является одним из CAD-приложений самого высокого класса, поэтому неудивительно, что здесь у NVIDIA есть масса точек приложения усилий по оптимизации производительности своих карт для этого программного продукта. Это выглядит так, как будто средства рендеринга SNX по умолчанию настроены на технологию NVIDIA Iray на базе CUDA: можно было ожидать некоторого увеличения производительности, но здесь разница между самым высоким и самым низким результатом крайне велика.

Прежде чем двигаться дальше, обратим внимание на унылую позицию 1080 Ti в самом низу турнирной таблицы. GeForce абсолютно не подходит для Siemens NX, зато TITAN подходит как для SNX, так и для CREO – но не настолько хорошо, как Quadro, поскольку мы видим, что более медленная P6000 превосходит TITAN Xp.

Как и NX от Siemens, пакеты CATIA и SolidWorks от Dassault являются профессиональными CAD-приложениями высокого класса, и здесь мы снова можем наблюдать явное преимущество, которое получают пользователи видеокарт Quadro. Хотя в SNX карта TITAN Xp значительно опередила P6000, в SolidWorks она продемонстрировала вдвое меньшую производительность. В CATIA результат менее диссонирующий, но интересно, что P5000 демонстрирует практически такую же производительность, как у TITAN Xp, хотя в SolidWorks она, как и P6000, предлагает потрясающий выигрыш в производительности по сравнению с TITAN Xp.

SPECapc 3ds Max 2015

Если бы не результаты RX 580, помещенные здесь, я бы так и не узнал о том, что регулярные карты Radeon не были оптимизированы для 3ds Max. Хотя в AMD явно проделали некоторую работу по оптимизации, поскольку более медленная карта WX 7100 здесь показывает себя лучше, чем топовая карта Polaris. А Vega 64 подходит очень близко к WX 7100 благодаря своим дополнительным возможностям.

На разрешении 1080p карты AMD и NVIDIA опять четко разделились, но при этом на соседних позициях оказались Vega 64 и… скромная P2000. NVIDIA здесь имеет явное преимущество, причем P6000 опять превосходит более быструю карту TITAN Xp.

SPECapc Maya 2017

В тесте SPEC Maya мы видим картину подобную той, которую наблюдали в 3ds Max, но здесь AMD занимает несколько неожиданно высоких мест. Карта WX 7100 превосходит все остальные карты Radeon, и это наводит меня на мысль, что карта уровня WX 9100 могла бы здесь потягаться с топовыми предложениями NVIDIA. А на разрешении 4K среди карт AMD первенствует Vega 64.

В общем и целом, здесь лидируют карты NVIDIA, причем не только Quadro, но также TITAN и GeForce. Оптимизация в этом лагере означает, что вы получаете большие преимущества и с такими видеокартами, как GTX 1080 Ti, и с массовыми картами Quadro, такими как P4000. Но и AMD предлагает неплохую производительность примерно того же уровня, а иногда даже лучше. В тесте с параметром 4xAA выше только карты 1080 Ti, TITAN Xp и P5000+.

Тесты SiSoftware Sandra: Cryptography, Financial & Scientific Analysis

В предыдущем разделе я отметил SPEC как организацию, которая разрабатывает самые лучшие комплексные тесты, и в этом же ключе я могу похвалить SiSoftware. Это компания, которая строит свой бизнес на тестировании новых технологий, поэтому их тестовый пакет Sandra может показаться слишком насыщенным очень разными тестами, но в то же время эти тесты являются общепризнанными, выверенными и дают высокую точность (малый разброс) результатов при многократных прогонах.

Хотя Sandra предлагает множество бенчмарков, в том числе для GPU, здесь будут рассмотрены только три: Cryptography (шифрование данных), Financial Analysis (экономико-статистические расчеты) и Scientific Analysis (физико-математические расчеты). Некоторые результаты оказались слишком сложными для графического представления, поэтому они представлены в виде таблиц.

Тест Cryptography

Первое, что обращает на себя внимание в этих результатах, – верхняя часть таблицы: Vega 64 способна соревноваться со SLI-конфигурацией из двух TITAN Xp (которая собрана абсолютно правильно) в обоих направлениях шифрования/дешифрования, обходит единичную карту TITAN Xp в криптографии и близка к этому в хэшировании. Там, где криптографии и хэшированию уделяется особое внимание, позиции двойной конфигурации GPU непоколебимы, но это может удивить тех, кто не занимается майнингом на видеокартах.

В задачах криптографии AMD здесь легко побеждает. Компания наверняка уделяет криптографии большое внимание, потому что мы видели подобный прогресс и со стороны процессоров Ryzen. Просто для интереса, сравните результаты WX 3100 и Vega 64. Разница порядка 1:10, но, конечно, эти карты ориентированы на очень разные сегменты рынка. Все-таки здесь мы видим достоинства карт Vega.

Тест Financial Analysis

Sandra 2017 – Financial Analysis (FP32)

Графическая карта	Black-Scholes	Binomial	Monte Carlo
NVIDIA TITAN Xp x 2	26 G/s	4.4 M/s	11.1 M/s
NVIDIA TITAN Xp	14 G/s	2.3 M/s	5.7 M/s
NVIDIA GeForce GTX 1080 Ti	11.6 G/s	2.1 M/s	5.38 M/s
NVIDIA Quadro P6000	11.6 G/s	2.2 M/s	5.9 M/s
AMD Radeon RX Vega 64	9.3 G/s	2.7 M/s	4.2 M/s
NVIDIA Quadro P5000	7.8 G/s	1.7 M/s	4.2 M/s
NVIDIA Quadro P4000	6.6 G/s	845.6 k/s	2.2 M/s
AMD Radeon RX 580	5.8 G/s	1.5 M/s	2.3 M/s
AMD Radeon Pro WX 7100	5.3 G/s	1.3 M/s	1.9 M/s
NVIDIA Quadro P2000	3.8 G/s	653.7 k/s	1.6 M/s
AMD Radeon Pro WX 5100	3.7 G/s	530.3 k/s	736.2 k/s
AMD Radeon Pro WX 4100	2.2 G/s	497.8 k/s	728 k/s
AMD Radeon Pro WX 3100	2.5 G/s	320.6 k/s	467.4 k/s

Sandra 2017 – Financial Analysis (FP64)

Графическая карта	Black-Scholes	Binomial	Monte Carlo
NVIDIA TITAN Xp x 2	2.7 G/s	274 k/s	554 k/s
AMD Radeon RX Vega 64	2.1 G/s	181 k/s	515.1 k/s
NVIDIA TITAN Xp	1.5 G/s	143.4 k/s	297.2 k/s
NVIDIA GeForce GTX 1080 Ti	1.4 G/s	135.4 k/s	265.8 k/s
NVIDIA Quadro P6000	1.3 G/s	131.3 k/s	271.3 k/s
AMD Radeon RX 580	1.1 G/s	90.1 k/s	280.4 k/s
NVIDIA Quadro P5000	908.7 M/s	91.7 k/s	188.4 k/s
AMD Radeon Pro WX 7100	962.6 M/s	81.27 k/s	239.2 k/s
NVIDIA Quadro P4000	565.9 M/s	55.5 k/s	110.7 k/s
AMD Radeon Pro WX 5100	456.2 M/s	52.7 k/s	108.8 k/s
AMD Radeon Pro WX 4100	384 M/s	34 k/s	95.2 k/s
NVIDIA Quadro P2000	359.6 M/s	36 k/s	74.8 k/s
AMD Radeon Pro WX 3100	219.1 M/s	17.9 k/s	54.8 k/s

Результаты указаны в опциях в секунду: 1 GOPS = 1000 MOPS; 1 MOPS = 1000 kOPS

Ни одна из представленных здесь видеокарт не обеспечивает той производительности для двойной точности вычислений, которую дали бы, например, Radeon Instinct, NVIDIA Tesla или Quadro GP100/GV100, поэтому все результаты из первой таблицы не имеют большого смысла, так как все приложения работают в основном с двойной точностью. При этом, если мы сравним Vega 64 и 1080 Ti, некоторое преимущество явно остается за «красной командой».

В тестах с одинарной точностью итоговое место для большинства участников практически полностью определяется чисто технической производительностью, поэтому NVIDIA TITAN Xp сохраняет за собой верхнюю позицию. Остальные карты располагаются примерно там, где можно было ожидать. Ни один вендор скорей всего не будет заниматься оптимизацией видеокарт для этих вычислений, но вообще говоря, Vega 64 опять показывает очень высокую производительность для своей цены (SRP).

Тест Scientific Analysis

Sandra 2017 – Scientific Analysis (FP32)

Графическая карта	GEMM	FFT	N-Body
NVIDIA TITAN Xp x 2	13 TFLOPS	503.2 GFLOPS	10.2 TFLOPS
NVIDIA TITAN Xp	6.8 TFLOPS	257.5 GFLOPS	5.2 TFLOPS
NVIDIA Quadro P6000	6.6 TFLOPS	157.2 GFLOPS	5.08 TFLOPS
NVIDIA GeForce GTX 1080 Ti	6 TFLOPS	216.3 GFLOPS	5 TFLOPS
AMD Radeon RX Vega 64	6 TFLOPS	326.9 GFLOPS	4.8 TFLOPS
NVIDIA Quadro P5000	4.6 TFLOPS	106.7 GFLOPS	3.5 TFLOPS
NVIDIA Quadro P4000	3.1 TFLOPS	128.8 GFLOPS	1.8 TFLOPS
AMD Radeon RX 580	3.5 TFLOPS	227.6 GFLOPS	3.2 TFLOPS
AMD Radeon Pro WX 7100	2.8 TFLOPS	205 GFLOPS	2.2 TFLOPS
NVIDIA Quadro P2000	1.9 TFLOPS	86 GFLOPS	1.6 TFLOPS
AMD Radeon Pro WX 5100	1.1 TFLOPS	143.2 GFLOPS	860.8 GFLOPS
AMD Radeon Pro WX 4100	1.1 TFLOPS	83 GFLOPS	875.3 GFLOPS
AMD Radeon Pro WX 3100	750.6 GFLOPS	69.5 GFLOPS	646.4 GFLOPS

Sandra 2017 – Scientific Analysis (FP64)

Графическая карта	GEMM	FFT	N-Body
NVIDIA TITAN Xp x 2	661.8 GFLOPS	365.5 GFLOPS	482.4 GFLOPS
AMD Radeon RX Vega 64	608.6 GFLOPS	154.8 GFLOPS	460.3 GFLOPS
NVIDIA TITAN Xp	357.2 GFLOPS	198.2 GFLOPS	279.3 GFLOPS
AMD Radeon RX 580	342.3 GFLOPS	88.7 GFLOPS	223.9 GFLOPS
NVIDIA GeForce GTX 1080 Ti	336.8 GFLOPS	166.5 GFLOPS	266.4 GFLOPS
NVIDIA Quadro P6000	322.7 GFLOPS	133.4 GFLOPS	252.6 GFLOPS
AMD Radeon Pro WX 7100	299.6 GFLOPS	81.7 GFLOPS	201.6 GFLOPS
NVIDIA Quadro P5000	225.5 GFLOPS	84.8 GFLOPS	180.8 GFLOPS
AMD Radeon Pro WX 5100	148.7 GFLOPS	58.9 GFLOPS	114.9 GFLOPS
NVIDIA Quadro P4000	133.7 GFLOPS	87 GFLOPS	113.9 GFLOPS
AMD Radeon Pro WX 4100	113.6 GFLOPS	33.2 GFLOPS	84.6 GFLOPS
NVIDIA Quadro P2000	89.1 GFLOPS	54.3 GFLOPS	83.7 GFLOPS
AMD Radeon Pro WX 3100	66.4 GFLOPS	33.4 GFLOPS	50.1 GFLOPS

GEMM – перемножение матриц; FFT – быстрое преобразование Фурье; N-Body – моделирование гравитационной задачи N тел

И снова Vega 64 подтверждает, что является одной из наиболее эффективных видеокарт для вычислений с двойной точностью, при этом она ведет красивую борьбу с технически более быстрой GTX 1080 Ti. Для одинарной точности лучше всего подходят карты TITAN Xp, и чем их больше, тем выше результат: коэффициент пропорциональности здесь просто фантастический.

Алгоритмы глубокого обучения: GEMM, Caffe2 ResNet-50

     В последние годы возобновился интерес к алгоритмам глубокого обучения, и они уже становятся одним из наиболее важных аспектов современных машинных вычислений. Для решения сложных задач требуется серьезное аппаратное обеспечение, и во многих случаях одной видеокарты будет недостаточно.

     Для чего бы мы ни использовали наши процессоры – для решения сложных задач биологии, для быстрого распознавания образов или чьих-либо эмоций – одним из специфических аспектов глубокого обучения является адекватное задание границ вычислений. Наши тесты запускались на одном или на двух GPU, но если бы их была тысяча, мы все еще ждали бы результатов.

     В данный обзор мы включили пока только два теста с алгоритмами глубокого обучения для решения задач GEMM и FFT (см. предыдущий раздел), и оба они основаны на CUDA. Когда мы сможем найти реальные тесты с глубоким обучением, которые будут одинаково хорошо работать на картах и AMD, и NVIDIA, мы их рассмотрим. Мы еще только начинаем заниматься этим видом тестирования.

Тест GEMM (General Matrix Multiply)

Приведенные ниже результаты могут показаться простыми, но они крайне важны для многих задач глубокого обучения. В данном случае операция GEMM (обычное перемножение матриц) производится ускоренно за счет использования библиотеки CUDA cuBLAS, которая позволяет значительно повысить производительность – настолько, что CPU выглядят неуместными для этого вида нагрузки (размеры которой могут очень сильно варьироваться).

Технология CUDA позволяет перемножать матрицы с половинной, одинарной и двойной точностью, и это означает, что любая видеокарта, поддерживающая FP16 или FP64, может дать огромный прирост производительности. К сожалению, ни одна из наших видеокарт не поддерживает ни то ни другое, поэтому в результаты этого теста (а также и Caffe2) я включил NVIDIA TITAN V просто для получения более полной картины. Насколько это актуально, судите сами.

Ясно, что любая карта, которая поддерживает половинную или двойную точность, может ударить по любой, которая их не поддерживает, но если речь идет об одинарной точности, то понятно, что TITAN V со своей огромной производительностью выносит всех. Карта TITAN V рассчитана на 25 TFLOPS половинной точности, но когда в дело вступают ядра Tensor, производительность повышается выше крыши.

Стоит заметить, что AMD RX Vega тоже предлагает очень хорошую производительность с половинной точностью: около 20 TFLOPS у Vega 64 (или 25 TFLOPS с разгоном). С учетом различий в архитектуре с Tensor представляется очевидным, что AMD могла бы с успехом пойти по пути NVIDIA в плане развития своих видеокарт Instinct.

Тест Caffe2 ResNet-50

Выше мы видели, что графические карты с ядрами Tensor имеют значительное преимущество при работе с алгоритмами глубокого обучения. При этом результаты предыдущего теста показывают просто величину производительности (хотя это длительный энергозатратный тест), в то время как тест Caffe2 дает лучшее представление о преимуществах использования одной или нескольких видеокарт, помогая принять верное решение относительно их покупки – в том случае, если у вас имеются сотни тысяч или миллионы образов для алгоритмов распознавания с глубоким обучением.

Для этой специальной задачи большое значение имеет память GPU: чем больше объем памяти, тем больше могут быть размеры пакетов обрабатываемых данных (образов). Использование пакетов размером 32, что подразумевает передачу в нейросеть 32 образов за каждую итерацию, задействует около 8,6 ГБ видеопамяти. Это значит, что карты Quadro P2000 или P4000 не подходят для нашего базового теста.

Чем больше объем VRAM для соответствующих вычислений, тем больше образов может быть обработано в одном пакете. Если размер пакета удваивается до 64, требуемый объем VRAM возрастает примерно до 14,5 ГБ. И наконец, для пакетов размером 96 требуется около 20 ГБ. Приняв это все к сведению, смотрим на результаты.

     Результаты выглядят предельно просто, однако в них содержится очень много информации, которую здесь стоит обсудить. Давайте начнем с P6000, поскольку она имеет наибольшее количество памяти (24 ГБ). К моему удивлению, карта P6000 вполне успешно сумела дотянуться до пакетов размером 96 – благодаря большому объему VRAM. Как показывают результаты выше, каждое увеличение размера пакета (32, 64, 96) требует все больше и больше памяти, и только карта P6000 способна справиться с размером пакета 96 своими средствами (без использования ядер Tensor).

     Переходим к TITAN Xp. Когда используется одиночная карта, следует в обязательном порядке применять размер пакета 32 (потому что 14,5 ГБ – это слишком много для буфера 12 ГБ). Однако, поскольку здесь мы имеем дело с вычислениями, а не с графикой, комбинирование двух карт TITAN Xp позволяет нам пользоваться пакетами и больших размеров – GPU просто делят нагрузку между собой.

     Далее идет карта TITAN V. Благодаря ядрам Tensor ее 12-гигабайтный буфер избежал участи превращения в «узкое место»; когда Tensor работает совместно с регулярными ядрами CUDA, нагрузка на память снижается. Не знаю, насколько именно она снижается, но тест, который требует 20 ГБ от одного GPU и при этом может запускаться на 12 ГБ памяти TITAN V, – это довольно впечатляющее блюдо.

     Судя по результатам теста Caffe2, с высокой вероятностью можно предположить, что такие видеокарты, как Quadro GV100, могут значительно превзойти TITAN V благодаря увеличенному объему памяти (с 12 ГБ до 32 ГБ).

Игровое тестирование: UL 3DMark, VRMark, Unigine Superposition

     Игровая производительность обычно не находится в фокусе основного внимания производителей профессиональных видеокарт, но важно то, что играть на них тоже можно. Это особенно касается карт топ-уровня, поскольку они обычно проявляют себя в играх почти так же, как их собратья из игровых серий.

     Если говорить об AMD, то пользователи карт Radeon Pro в дополнение к стандартному драйверу RPro могут использовать игровой драйвер Radeon Adrenaline. Это значит, что все игровые оптимизации AMD для карт Radeon также могут применяться и к Radeon Pro – если вы параллельно используете игровой драйвер. Однако не стоит рассчитывать на то, что этот драйвер будет часто обновляться; на момент написания данной статью самое последнее обновление датировалось декабрем прошлого года.

     Заодно я узнал, что профессиональные драйверы NVIDIA не содержат тех титульных игровых оптимизаций, которые входят в состав драйверов для GeForces, поэтому производительность в играх может быть несколько снижена, но не слишком.

     Карты GeForce, TITAN и Radeon здесь тестировались с соответствующими игровыми драйверами, в то время как профессиональные карты тестировались со своими основными драйверами (Enterprise для Radeon Pro и последняя версия WHQL для Quadro).

     Для быстрой оценки игровой производительности нашей подборки профессиональных видеокарт мы использовали следующие бенчмарки: UL (бывш. Futuremark) 3DMark и Unigine Superposition.

Тесты UL 3DMark и VRMark

Конфигурация из нескольких GPU эффективна не в каждой игре, но в тех случаях, когда дополнительная рабочая лошадка действительно дает преимущество, прогресс в результатах бывает самый очевидный. Среди одиночных видеокарт доминирует TITAN Xp, что неудивительно, если сравнить ее спецификации с остальными. 1080 Ti отстает от нее не слишком сильно, сохраняя при этом комфортное преимущество перед Vega 64.

В играх Quadro не является предпочтительным вариантом по сравнению с GeForce, так что здесь подобных результатов следовало ожидать. В тесте Time Spy с DX12 карты P6000 и 1080 Ti показали практически равный результат, но в Fire Strike с DX11 карта Ti превосходит P6000.

Замечание: эти результаты относятся к играм, и не дают представления о производительности видеокарт в профессиональных приложениях для создания виртуальной реальности (VR).

«Оранжевый» тест VRMark (Orange Room) отражает текущий уровень развития технологий VR, или, может быть, уровень годичной давности. Любая видеокарта, располагающаяся выше Vega 64 и P5000, обеспечит высокую производительность при воспроизведении современного VR-контента, тогда как P4000 и RX 580 урежут его до минимума. И ни один из тестируемых здесь GPU не обеспечивает производительность, соответствующую более продвинутому уровню «синего» теста (Blue Room).

Поскольку конфигурации из нескольких GPU для VR пока виртуальны (эх…), т.е. в настоящий момент не существуют, даже VRMark не показывает преимуществ использования дополнительной видеокарты (по этой причине здесь отсутствуют результаты нашей SLI-конфигурации).

Тест Unigine Superposition

Как и VRMark, тест Superposition смотрится великолепно, но не поддерживает конфигурации из нескольких видеокарт. Однако, мы все-таки получили по крайней мере один интересный результат: карта P5000 превосходит Vega 64 во всем, кроме самого тяжелого теста (1080p Extreme). Этак карта является профессиональным аналогом GTX 1080, но с более скромными значениями тактовой частоты, и несмотря на это она проявляет себя отлично в сравнении с ближайшим родственником из линейки GeForce.

Энергопотребление

Для проверки энергопотребления нашей подборки графических карт для рабочих станций мы использовали сочетание тестового программного и аппаратного обеспечения, а именно: измеритель мощности Kill-a-Watt (который работает от обычной розетки) и тест GP Processing из программного пакета SiSoftware Sandra, с помощью которого GPU выводится на максимальный режим работы.

Тестовая программа загружается на рабочий стол и ничего не делает до тех пор, пока CPU и память не перейдут в установившийся режим простоя. В этот момент значение мощности регистрируется прибором Kill-a-Watt, после чего программа GP Processing начинает нагружать GPU, который в течение 30 – 60 секунд выходит на максимальную мощность, измеряемую Kill-a-Watt.

Приведенные выше результаты показывают, что карта WX 4100 в данном тесте фактически потребляет меньше энергии, чем WX 3100. Карты 1080 Ti и TITAN Xp по энергопотреблению практически равны, несмотря на то, что TITAN Xp имеет дополнительные ядра. Самой «прожорливой» оказалась карта AMD RX Vega 64, потребляющая заметно больше мощности по сравнению с P5000 – аналогом GTX 1080 для рабочих станций.

Между тем карты класса WX 7100 и P4000 (и ниже) по сравнению с более мощными просто потягивают энергию из розетки. В общем, тут получившиеся результаты практически не расходятся с ожидаемыми.

Заключение

Оценивать производительность профессиональных графических карт в целом намного сложнее, чем игровых. Характеристики игровых видеокарт обычно раскрываются достаточно предсказуемо от игры к игре, но в профессиональном сегменте рынка многое зависит от оптимизации под определенную нагрузку – карта с более низкой производительностью при правильной оптимизации может превзойти более высококлассный аналог. То есть я хочу сказать, что покупать карту надо с учетом предполагаемой нагрузки.

И AMD, и NVIDIA предлагают множество сильных решений, и, чтобы упростить задачу, давайте рассмотрим их здесь.

     Видеокарты AMD, особенно Vega, обеспечивают взрывную производительность в задачах криптографии – почти на уровне архитектуры Zen (процессор AMD Threadripper – реальный зверь в криптографии). Карты Vega также демонстрируют высокую производительность в рейтрейсинге.

     Карты NVIDIA в целом предлагают более высокую производительность по сравнению с AMD, во многом благодаря обширным инвестициям компании в разработку драйверов. В ряде случаев видеокарты Quadro за счет оптимизации на порядок превосходят карты GeForce – в таких приложениях, как Siemens NX, где по сравнению с GTX 1080 Ti карта TITAN Xp демонстрирует в 22 раза, а Quadro P6000 – в 25 раз более высокую производительность.

     Программы Autodesk 3ds Max и Maya в целом лучше работают на видеокартах NVIDIA, но во многих случаях карта AMD Radeon RX Vega 64 подходит к конкурентам очень близко. И в то же время оптимизационные решения позволяют картам Quadro более низкого класса (например, P4000) демонстрировать производительность выше, чем у технически более продвинутой Vega 64. Опять же, все зависит от вида нагрузки.

     В задачах с глубоким обучением мы видели, что можно сделать с помощью ядер Tensor, и, хотя данный раздел был посвящен нашим обучающим тестам, эти ядра также могут использоваться в рендеринге с шумоподавлением с применением алгоритмов машинного обучения. В NVIDIA много говорили об этой технологии ИИ, и недавно многие разработчики ПО, например, Chaos Group, объявили о планах по внедрению ее поддержки в своих приложениях для рендеринга изображений. Как и в тестах с технологиями глубокого обучения/ искусственного интеллекта, в рендеринге с шумоподавлением ядра Tensor могут повысить производительность по меньшей мере в пять раз; это действительно впечатляет.

     В конечном счете, на рынке графических карт для рабочих станций нет единого универсального решения на все случаи жизни. В некоторых случаях карты AMD работают эффективнее, чем NVIDIA, и наоборот. С точки зрения общей производительности NVIDIA предлагает самую быструю в мире видеокарту – TITAN V за $3000, которая будет на 20-25% быстрее, чем модель TITAN Xp за $1200 при вычислительной нагрузке одинарной точности, поэтому, если вы не ограничены в деньгах, то я беру свои предыдущие слова обратно.

     Что касается AMD, то, хотя у нас и не было ни одного экземпляра для тестирования, но карта Frontier Edition ценой около $900 выглядит наиболее оптимальным решением для пользователей рабочих станций. По эффективности она эквивалентна карте Vega 64, но с удвоенным объемом памяти (16 ГБ), который, как мы выяснили на примерах тестов с глубоким обучением, является важным параметром для этого вида нагрузки. И поскольку Vega обладает очень высокой производительностью в вычислениях с половинной точностью (хотя и без ядер Tensor), это очень привлекательный вариант (особенно с учетом текущего завышения цен на Vega 64, которое делает карту FE практически очевидным выбором).

Источник: techgage.com

подписаться | обсудить в ВК |

Комментарии к статье из сети в Вконтакте

открыть страницу обсуждения

Иван Разборов

Отличный обзор. Этой карты у нас нету, этой тоже, но мы готовы поспорить. Ещё и верстка сайта из 99 года. На мобильном тупо под экрана не видно. Позорище.                                                                                        

24-05-2018 18:06 ответить

Серега Найденов

Иван, мобилы для ньюфагов,комп для поцанов :)                                                                                        

24-05-2018 18:31 ответить

Иван Разборов

Серега, ну тащи с собой комп на улицу, чё                                                                                        

24-05-2018 19:34 ответить