Каталог
ZV
ездный б-р, 19
+7 (495) 974-3333 +7 (495) 974-3333 Выбрать город: Москва
Подождите...
Получить токен
Соединиться
X
Сюда
Туда
x
Не выбрано товаров для сравнения
x
Корзина пуста
Итого: 
Оформить заказ
Сохранить заказ
Открыть корзину
Калькуляция
Очистить корзину
x
Главная
Магазины
Каталог
Мои заказы
Корзина
Магазины Доставка по РФ
Город
Область
Ваш город - ?
От выбранного города зависят цены, наличие товара и
способы доставки

Суббота, 29 апреля 2023 09:36

Обзор видеокарты NVIDIA RTX A4500 20GB

короткая ссылка на новость:
Видеокарта NVIDIA RTX A4500 с объемом памяти 20 ГБ была выпущена в 2021 году без особого шума. Эта профессиональная видеокарта средней ценовой категории относится к продуктовой линейке, ранее выпускавшейся под маркой NVIDIA Quadro. В обзоре участвует экземпляр от PNY. Хотя у NVIDIA есть свое производство видеокарт, PNY является основным партнером-дистрибьютором NVIDIA в сегменте профессиональных видеокарт.

1

Аппаратная часть видеокарты NVIDIA RTX A4500 20GB

Эта видеокарта является двухслотовой (при установке в компьютер закроет два слота). Среди других особенностей карты стоит отметить собственное активное воздушное охлаждение. Некоторые видеокарты, например, NVIDIA A40, не имеют вентилятора и требуют применения мощной корпусной системы охлаждения. Наличие у карты собственного вентилятора упрощает ее интеграцию в систему рабочей станции.

Графический процессор карты содержит 7168 ядер CUDA поколения Ampere и использует 20 ГБ видеопамяти GDDR6 с функцией коррекции ошибок ECC.

2

На верхней длинной кромке карты RTX A4500 имеется коннектор NVLink, а также порт поддержки систем стереоизображения и порт синхронизации NVIDIA Quadro Sync II для графических мультиконфигураций. На видеокартах GeForce порты стерео и синхронизации, как правило, отсутствуют.

3

На торцевой кромке (со стороны логотипа NVIDIA) имеется 8-пиновый коннектор питания. Некоторые более мощные профессиональные видеокарты оснащаются коннектором питания для графических ускорителей дата-центров, но эта карта использует коннектор питания пользовательского класса, благодаря чему может работать с широким диапазоном компьютерных блоков питания.

4

Тыльная сторона платы видеокарты большей частью открыта. Здесь была бы весьма уместна сплошная подложка. На фоне общей стоимости карты стоимость защитной подложки тем более окупается. Кроме того, это придало бы карте более эстетичный вид.

5

На планке входных/выходных портов мы видим четыре порта DisplayPort 1.4a.

6

И, наконец, на нижней длинной кромке мы находим коннектор PCIe Gen4 x16.

7

На случай, если нужен интерфейс HDMI, в комплекте имеется переходной адаптер DisplayPort => HDMI.

8

А мы переходим к спецификациям и показателям производительности нашей видеокарты. Но сначала, по просьбе нашего редактора, коротко сравним дизайн карт RTX A4500 и RTX A6000, которая у нас тоже случайно нашлась.

Дизайн профессиональных видеокарт: NVIDIA RTX A4500 vs. RTX A6000

Сразу бросается в глаза то, что NVIDIA потратила больше времени на эстетическую проработку дизайна карты RTX A6000.

9

В частности, RTX A6000 сверкает полированным кожухом, который украшен позолоченным колечком вокруг вентилятора. Кроме того, для верхних коннекторов предусмотрены заглушки.

10

Видно также, что кулер и радиатор у RTX A6000 более основательные. Что обусловлено более высоким TDP – 300 Вт у RTX A6000 против 200 Вт у RTX A4500.

11

В части подложки мы видим, что у A6000 она закрывает всю площадь карты, при этом в месте проекции вентилятора дизайн подложки обеспечивает эффективное прохождение воздушного потока. Такого же типа подложку было бы желательно сделать и на A4500.

12

Дизайн видеокарт чаще всего говорит сам за себя; мы просто выделили здесь основные моменты, на которые стоит обратить внимание.

Ключевые спецификации видеокарты NVIDIA RTX A4500

Спецификация Значение
Видеопамять 20 ГБ GDDR6
Интерфейс памяти 320 бит
Пропускная способность памяти 640 ГБ/с
Коррекция ошибок ECC Есть
Кол-во ядер CUDA (поколение Ampere) 7168
Кол-во ядер Tensor (3-е поколение) 224
Кол-во ядер RT (2-е поколение) 56
Вычислительная мощность в режиме одинарной точности 23.7 TFLOPS
Вычислительная мощность ядер RT 46.2 TFLOPS
Вычислительная мощность ядер Tensor 189.2 TFLOPS
Интерфейс NVLink Низкопрофильный мост для соединения двух видеокарт А4500
Пропускная способность NVLink 112.5 ГБ/с (дуплекс)
Системный интерфейс PCI Express 4.0 x16
Энергопотребление 200 Вт (TBP)
Охлаждение Активное
Форм-фактор Двухслотовая полноразмерная карта 4.4" х 10.5"
Дисплейные коннекторы 4х DisplayPort 1.4
Максимальные мультидисплейные конфигурации 4х 4096 х 2160 @ 120 Гц
4х 5120 х 2880 @ 60 Гц
2х 7680 х 4320 @ 60 Гц
Коннектор питания 1x 8-pin PCIe
Кодер/ Декодер 1х Кодер
1х Декодер (в т.ч. AV1)
Поддержка виртуальной реальности Есть
Графические API DirectX 12.07
Shader Model 5.17
OpenGL 4.68
Vulkan 1.2
Вычислительные API CUDA
DirectCompute
OpenCL
Выбирая между видеокартами данного семейства, нужно в первую очередь обращать внимание на такие спецификации, как количество ядер CUDA, объем видеопамяти и мощность TBP (численно равную TDP).
Модель Кол-во ядер CUDA Объем видеопамяти TDP
А4000 6144 16 ГБ 140 Вт
А4500 7168 20 ГБ 200 Вт
А5000 8192 24 ГБ 230 Вт
А5500 10240 24 ГБ 230 Вт
А6000 10752 48 ГБ 300 Вт

По числу ядер CUDA, если сравнивать с пользовательским сегментом, наша видеокарта с 7168 ядрами CUDA находится между GeForce RTX 3070 Ti (6144 ядра CUDA) и модификациями RTX 3080 (8960/ 8704 ядра CUDA). И в то же время 20 ГБ памяти с ECC ставят ее на совершенно другой уровень относительно этих карт.

Карта NVIDIA RTX A4500 поддерживает мультидисплейные технологии Quadro Sync II и NVIDIA Mosaic. Это, наряду с 20 ГБ видеопамяти, ставит одну карту A4500 ступенькой выше конфигурации из двух карт T1000 8GB, а аналогичную двойную конфигурацию A4500 – ступенькой ниже одной карты A6000. Хотя все эти модели поддерживают конфигурации с числом карт до восьми, поддержка указанных технологий является мощным дифференцирующим фактором.

Энергопотребление

Остановимся вкратце на вопросе энергопотребления. Результаты выполнения команды nvidia-smi для этой карты под полной нагрузкой регулярно показывают фактически достигаемый лимит мощности 200 Вт, что соответствует спецификациям. Во многих графических сценариях, где ресурс карты задействуется не полностью, энергопотребление варьируется в диапазоне от 140 до 180 Вт.

В этом аспекте профессиональные видеокарты, как правило, отличаются большей надежностью в сравнении с пользовательскими. Пользовательские видеокарты фактически часто превышают номинальные лимиты, указанные в спецификациях. Вероятно, использование видеокарт с более строго определенными лимитами мощности несколько ограничивает производительность системы, но зато вносит большую определенность в аспект выбора блока питания. В этом отношении видеокарты для рабочих станций стоят ближе к графическим ускорителям NVIDIA для дата-центров.

Производительность видеокарты NVIDIA RTX A4500 20GB

В настоящее время мы заняты, в числе прочего, модернизацией набора тестов для видеокарт. В нашем архиве накопились десятки и сотни страниц результатов. И, поскольку производители видеокарт выпускают все новые и новые продуктовые поколения, мы тоже решили обновить свой набор графических бенчмарков. Как обычно, мы в большей мере фокусируемся на графических вычислениях, чем на гейминге. Также мы используем ряд проверенных тестов для базовой оценки производительности новейших видеокарт в типовых сценариях. Этот обзор относится к переходному этапу. Кроме того, старые бенчмарки позволяют сравнить новейшие карты со старшими моделями.

Redshift v3.0.31

Redshift – профессиональное приложение для рендеринга с высоким качеством изображения, задействующее вычислительные ресурсы видеокарт.

13

Как мы видим, производительность A4500 здесь очень высокая – результат этой карты перекрывает результаты всей линейки предыдущего поколения

Классификация изображений нейросетью ResNet-50 в TensorRT с использованием ядер Tensor

База данных для классификации изображений ImageNet была разработана в 2007 году и предназначена для исследования аспектов визуального распознавания образов. Каждый узел (или семантический граф, соответствующий структуре электронного словаря WordNet) представлен сотнями примеров изображений.

Этот тест мы планируем поэтапно совершенствовать в будущих обзорах новейших видеокарт.

В классификационных тестах с ИИ мы используем модель нейросети ResNet-50, предварительно обученную на фреймворке Caffe, которая запускается согласно следующему однострочному скрипту:

nvidia-docker run --shm-size=1g --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 --rm -v ~/Downloads/models/:/models -w /opt/tensorrt/bin nvcr.io/nvidia/tensorrt:20.11-py3 trtexec --deploy=/models/ResNet-50-deploy.prototxt --model=/models/ResNet-50-model.caffemodel --output=prob --batch=16 --iterations=500 --fp16

Здесь:
-- deploy – путь к шпаргалочному файлу Caffe (.prototxt), который использовался для обучения модели;
-- model – путь к файлу модели (.caffemodel);
-- output – вывод имени блоба;
-- batch – размер пакета классифицируемых образов;
-- iterations – количество выполняемых итераций;
-- int8 – использовать точность INT8;
-- fp16 – использовать точность FP16 (для видеокарт Volta и Turing).

Мы можем изменять размер пакета (доступные опции – 16, 32, 64 и 128 примеров) и точность вычислений (INT8, FP16 или and FP32).

В части производительности видеокарты результатом теста является величина задержки (время, затраченное на классификацию). Или, с учетом размера пакета, отношение размера пакета к величине задержки, т.е. количество образов, обрабатываемое графическим процессором за секунду, которое и представлено на графиках ниже.

Как мы выяснили, этот бенчмарк не работает с двумя и более видеокартами, только с одной.

Можно, однако, запускать на каждой видеокарте различные варианты задачи, используя следующий блок команд:

“`NV_GPUS=0 nvidia-docker run … &
NV_GPUS=1 nvidia-docker run … &“`

Таким образом можно распределить составную нагрузку из нескольких примеров между несколькими видеокартами.

Также можно использовать команду device=0,1,2,3,4,… для выбора видеокарты для данной задачи, о чем еще будет сказано ниже.

Мы начнем с различных режимов точности: INT8, FP16 и FP32. Приводимые здесь результаты тестов получены при максимальном доступном размере пакета.

14

У поколения A4500 мы видим колоссальный прогресс в производительности по сравнению со старшими картами RTX 5000 и RTX 6000 поколения Turing. Что тем более подтверждают блестящие результаты топовой 48-гигабайтной карты NVIDIA RTX A6000, демонстрируемые во всех тестах.

Обучение нейросети ResNet-50 с использованием ядер Tensor

Мы также решили потренировать древнюю нейросеть ResNet-50 с помощью библиотеки для машинного обучения TensorFlow. В ходе обучения нейросеть изучает возможные отличительные особенности изображений (это могут быть различные объекты, животные и т.д.) и определяет, которые из них важны. Периодически (через каждую 1000 итераций) нейросеть выполняет самопроверку, сопоставляя свои выводы с контрольным набором ответов для выявления возможных ошибок, по которым оценивается точность обучения. Точность обучения можно повысить путем повторения эпох.

Мы будем использовать следующий скрипт:

nvidia-docker run --shm-size=1g --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 -v ~/Downloads/imagenet12tf:/imagenet --rm -w /workspace/nvidia-examples/cnn/ nvcr.io/nvidia/tensorflow:20.11-tf2-py3 python resnet.py --data_dir=/imagenet --batch_size=128 --iter_unit=batch --num_iter=500 --display_every=20 --precision=fp16

Параметры, применяемые для resnet.py:
-- layers – количество используемых слоев нейросети, т.е. 50;
-- batch_size (или -b) – количество примеров изображений из ImageNet, используемых для обучения нейросети в каждой итерации; увеличение параметра batch_size обычно повышает эффективность обучения;
-- iter_unit (или -u) – определяет итерационную единицу – пакет или эпоха;
-- num_iter (или -i) – количество итераций (в данном случае пакетов), т.е. 500;
-- display_every: определяет частоту отслеживания эффективности обучения, т.е. через каждые 20 пакетов;
-- precision: определяет точность вычислений, FP32 или FP16 (позволяет использовать математику TensorCore на картах Volta, Turing и Ampere).

Этот скрипт TensorFlow не определяет, какую конкретно видеокарту использовать, но последовательность использования видеокарт можно задать с помощью команды экспорта CUDA_VISIBLE_DEVICES= 0,1,2,3 (номера карт через запятую) в рабочем пространстве контейнера Docker.

Мы будем использовать размеры пакетов 16, 32, 64, 128 и точность FP16 и FP32.

Некоторые видеокарты начального уровня не могут обрабатывать все указанные размеры пакетов. Например – карта NVIDIA RTX 4000 в режиме точности FP32, так как у нее для этого недостаточно памяти.

15

Итак, более старая карта RTX 4000 не справляется с этим тестом в режиме FP32 при размере пакета 128, так как у нее только 8 ГБ видеопамяти. Этот результат актуален для тех, кто выбирает между картами предыдущего поколения, RTX 4000 и RTX 5000, тогда как A4500 – очевидно выигрышное решение.

Обучение машинного переводчика GNMT с помощью OpenSeq2Seq

Сеть ResNet-50 относится к классу свёрточных нейросетей (Convolutional Neural Network, CNN), которые обычно используются для классификации образов. Для машинного перевода в реальном времени используются рекуррентные нейросети (Recurrent Neural Network, RNN), к которым относится переводчик Google GNMT (Google Neural Machine Translation).

Для GNMT будем использовать следующий скрипт OpenSeq2Seq:

nvidia-docker run -it --shm-size=1g --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 -v ~/Downloads/OpenSeq2Seq/wmt16_de_en:/opt/tensorflow/nvidia-examples/OpenSeq2Seq/wmt16_de_en -w /workspace/nvidia-examples/OpenSeq2Seq/ nvcr.io/nvidia/tensorflow:20.11-tf2-py3

Открываем проект en_de_gnmt-like-4GPUs.py (example_configs/text2text/en-de/en-de-gnmt-like-4GPUs.py) и редактируем переменные.

Сначала указываем в значении переменной data_root следующий путь:
data_root = “/opt/tensorflow/nvidia-examples/OpenSeq2Seq/wmt16_de_en/”

Далее, в определении словаря base_params редактируем параметры num_gpus, max_steps и batch_size_per_gpu, чтобы задать количество видеокарт (GPU), количество шагов в бенчмарке (в нашем случае 500) и размер пакета:

base_params = {
...
"num_gpus": 1,
"max_steps": 500,
"batch_size_per_gpu": 128,
...
},

Далее редактируем строку 44, чтобы установить точность FP16:
#”dtype”: tf.float32, #
Чтобы задать смешанную точность, нужно закомментировать эту строку и раскомментировать две следующие:
“dtype”: “mixed”,
“loss_scaling”: “Backoff”,

После этого запускаем бенчмарк:

python run.py –config_file example_configs/text2text/en-de/en-de-gnmt-like-4GPUs.py –mode train

Результат здесь выражается средним числом выученных объектов в секунду.

16

Отметим, что карта NVIDIA Quadro RTX 4000 не справляется с этими размерами пакетов, поэтому результаты этой карты на диаграммах отсутствуют.

И снова мы видим очень приличную производительность у RTX A4500 – где-то на уровне между RTX 5000 и RTX 6000, а иногда даже чуть выше RTX 6000. Это определенно заслуживающий внимания результат, на который мы сначала даже не рассчитывали. RTX A6000 – безоговорочный лидер, но не забывайте, что эта карта стоит втрое дороже.

Теперь давайте обсудим позиции этих карт на рынке.

NVIDIA RTX A4500 20GB на рынке видеокарт для рабочих станций

Видеокарта NVIDIA RTX A4500 занимает действительно интересное положение на рынке. И, возможно, наиболее важным здесь является тот факт, что для своих профессиональных видеокарт NVIDIA выпускает сертифицированные драйвера, гарантирующие надежную работу со многими популярными коммерческими приложениями (см. рисунок ниже). Это ключевое преимущество профессиональных карт NVIDIA перед картами GeForce.

17

Еще один плюс – возможность приобрести профессиональную видеокарту уже в составе готовой рабочей станции. Например, Supermicro выпускает модель AS-5014A-TT на базе AMD Ryzen Threadripper Pro как раз с видеокартой RTX A4500.

18

Эту карту можно найти в составе профессиональных решений и от других производителей, например, Lenovo предлагает рабочую станцию ThinkStation P620 Threadripper Pro также с RTX A4500:

19

Образец карты A4500 для данного обзора нам одолжила компания PNY, являющаяся основным дистрибьютором карт NVIDIA. Если вам собирают рабочую станцию с RTX A4500 по индивидуальному заказу, то эта видеокарта с наибольшей вероятностью будет от PNY.

Заключение

Карта NVIDIA RTX A4500 – это предложение, заслуживающее внимания. С одной стороны, тем, кто работает с мощной графикой и использует самое дорогое программное обеспечение за десятки тысяч долларов, сложно рекомендовать эту карту на фоне A6000. Разница в цене между этими видеокартами огромна, но разница в совокупной стоимости владения системой (TCO) в данном контексте получается не столь существенной.

20

С другой стороны, ряд компаний заинтересован в профессиональных видеокартах для таких приложений, как Adobe Creative Cloud и т.п. В этой ситуации определяющее значение имеют такие вещи, как достаточный объем видеопамяти, фирменная поддержка драйверов и сбалансированные по стоимости опции рабочих станций. Также необходимо обратить внимание на предлагаемую A4500 встроенную поддержку ECC, что требуется в некоторых областях.

21

Учитывая солидный (а не премиальный, как у RTX A6000) современный уровень производительности видеокарты RTX A4500, мы считаем, что это предложение может быть востребовано во многих сегментах рынка профессиональных видеокарт.


Источник: www.servethehome.com

подписаться   |   обсудить в ВК   |