Каталог
Вычислительные способностиПеред тем, как перейти к самим тестам, необходимо сделать довольно значимую оговорку. Оказывается, в GTX 400 производительность FP64 операций искусственно занижена относительно аппаратных возможностей GPU (1/2 скорости FP32), и составляет 1/8 (12.5%). Это было сделано по маркетинговым соображениям для сегментации рынка. Как и ECC, быстрые расчеты FP64 доступны только в Tesla. На наших тестах это обстоятельство не сказывается, так как все они основаны на расчетах с FP32 точностью. Продолжая исследование возможностей неграфических вычислений GF100, перейдем к более общим GPGPU задачам. Известно, что современные видеокарты с унифицированными шейдерными процессорами, обладая намного более простым устройством самих ядер по сравнению с CPU, могут значительно превосходить ЦП в хорошо распараллеливаемых задачах, где большое количество одновременно исполняемых потоков играет решающую роль. Серия GTX 400, будучи основанной на архитектуре Fermi, должна показывать прекрасную производительность в программах такого типа. Но не стоит переоценивать важность данных расчетов. Хотя в специализированных задачах GPU с 480 потоковыми процессорами может показать себя настоящим монстром, существует не так много реальных домашних неигровых применений GF100. Безусловно, доступны кодировщики видео на CUDA, ПО для обработки фотографий и т.д., но, хотя прошло уже много времени с момента анонса технологии, этот сектор рынка развивается не очень динамично. Причем, виной тому и разрозненные несовместимые API. OpenCL и DirectCompute призваны решить данную проблему, но пока что стоит рассматривать GPGPU как приятное дополнение к впечатляющей графической производительности. Когда OpenCL был представлен в прошлом году, мы надеялись, что к моменту запуска Fermi появятся подходящие для конечного пользователя приложения, которые помогут сравнить эффективность решений AMD и NVIDIA. К сожалению, этого не произошло, и в нашем распоряжении имеются лишь синтетические тесты для формального сравнения GPU. Мы зафиксировали результаты карт в паре таких бенчмарков, но эти показатели стоит воспринимать реалистично — они недостаточно точно показывают скорость работы плат GeForce и Radeon, давая лишь условный ориентир. Начнем мы с OpenCL реализации N-Queens, разработанной PCChen с форумов Beyond3D. Этот бенчмарк использует инструменты OpenCL для нахождения решений известной шахматной задачи для доски заданного размера. Замеряется время проведения расчетов в секундах. В данном случае мы установили условный размер доски в 17x17 клеток и подождали, пока не будут найдены все доступные решения. Этот тест отдает предпочтение GPU NVIDIA, карты серии GTX не просто оказываются в лидерах — GTX 285 даже победил с весомым преимуществом Radeon 5870. Из-за существенной разницы в организации шейдерных процессоров AMD и NVIDIA, даже с условно-унифицированным API вроде OpenCL от алгоритма запускаемой программы очень сильно зависит производительность. Поэтому, в зависимости от оптимизаций под конкретную архитектуру, можно добиться диаметрально-противоположных результатов. В любом случае, GTX 480 оказывается самым быстрым GPU из всех протестированных, вполовину опережая GTX 285, и в целых пять раз Radeon 5870. Вторым тестом был выбран пост-процессиноговый бенчмарк из утилиты GPU Caps Viewer. В ней силами OpenGL сначала рисуется тор, а затем на него накладываются различные эффекты с помощью OpenCL. На графике — фреймрейт данного процесса. Перейдем от бенчмарков, запускающихся на всех GPU, к заточенным под CUDA. Эта технология присутствует на рынке больше времени, и, как следствие, лучше изучена разработчиками. Под данную платформу даже написаны некоторые реально-используемые GPGPU программы. Но, так как CUDA работоспособна лишь на картах NVIDIA, сравнение с Radeon провести не получится. Зато будет интересно посмотреть, насколько GTX 480 быстрее GTX 285. Мы начнем с Badaboom — известного кодировщика видео, написанного Elemental Technologies специально для CUDA. С его помощью сжимался двухминутный 1080i ролик. Единицей измерения же служит количество обрабатываемых в секунду кадров. Разница в производительности в Badaboom впечатляет, но не является чем-то удивительным. Ведь у GTX 480 в распоряжении вдове больше потоковых процессоров, работающих на примерно тех же самых частотах, что и GTX 285. Как следствие, пропорционально возрастает и производительность. Следующим тестом стала специализированная версия Folding@Home для измерения производительности GPU, в которую как раз добавили совместимость с Fermi. Folding@Home — всемирный проект Стэндфордского Университета, направленный на изучение процессов синтеза белка. Вычисления носят характер распределенных, а поддержка видеокарт была добавлена еще в 2006 году в серии ATI X1K. В нашем случае замерялось полное время окончания расчетов над отдельно взятой задачей. Это позволило рассчитать, сколько пакетов задач (nodes) удастся выполнить за целый день работы Folding@Home. Пожалуй, Folding@Home является первым бенчмарком, в котором мы можем наблюдать весь потенциал вычислительной мощности Fermi. В отличие от предыдущих тестов, где в лучшем случае достигался двукратный прирост производительности относительно GTX 285, в F@H новый чип был в несколько раз быстрее. За одно и тоже время GF100 способен выполнить до 3.5 раз больше работы, чем GT200. И, хотя Folding@Home является скорее научным приложением, не приносящим реальной пользы обычным домашним пользователям (не затрагивая медицинское применение результатов, конечно), оно дает представление о реальных способностях Fermi в вычислениях. Наконец, задействуем еще одну техническую демонстрацию NVIDIA, носящую название Design Garage. Это одно из немногих доступных сегодня реально работающих приложений, которые строят изображение методом трассировки лучей. Именно его показывали ранее на CES. Последнее время о ray-tracing технологиях говорят все больше, и не последнюю роль в их популяризации сыграла Intel со своим проектом Larrabee. Но пока что все остается на стадии концептуального применения, и скорости прорисовки графики в реальном времени даже у GTX 480 не хватает. Для обеспечения привычной по современному 3D детализации с приемлемой скоростью потребуется еще несколько лет. Хотя определенные сдвиги в данном направлении происходят. В Design Garage создаются и красиво подсвечиваются модели автомобилей. Детализация находится на достаточно высоком уровне. Но, как видите, даже GF100 способен создавать лишь несколько кадров в секунду. С другой стороны, довольно интересно, что NVIDIA вообще приняла решения ввязаться в гонку с Intel за первенство в освоении новой сферы. Видимо, компания считает данное направление перспективным, иначе ресурсы не тратились бы понапрасну. Как и Folding@Home, DG показывает GTX 480 с лучшей стороны. По сравнению с GTX 285, GF100 оказывается в восемь раз быстрее! Такой впечатляющий отрыв возник в первую очередь благодаря новой структуре кэш-памяти чипа, так как для трассировки лучей критически важно наличие в кэше требуемых данных без необходимости обращений в видеопамять. Очевидно, прикладные программы, зависимые от конкурентных операций, быстрого переключения задач и скорости кэша могут выполняться на Fermi чуть ли не на порядок эффективнее, чем на GT200. [N10-Качество изображения и AA] Когда речь заходит о качестве изображения, то наиболее важные усовершенствования, произведенные NVIDIA в Fermi, касаются сглаживания сложных поверхностей, которые изображают ненастоящую геометрию. Речь идет о таких объектах, как сетчатый забор или колючая проволока. Для того чтобы справляться с антиалиасингом подобных конструкций, в арсенале Fermi присутствует несколько новых инструментов. Первый из них — возможность использования дополнительных выборок покрытия пикселя CSAA, что в паре с методом alpha-to-coverage позволяет очень качественно сглаживать текстуры. С дополнительными выборками, которые обеспечиваются CSAA в этом режиме, Fermi способен создавать большее число уровней полупрозрачности, чем решения прошлых поколений. Это должно значительно улучшать внешний вид создаваемых градиентных переходов. Вторым является новый тип CSAA сглаживания, названный 32x. Такое число получается из суммы 8 полноценных мультисемплинговых выборок и 24 выборок покрытия пикселей. Все вместе это дает до 63 возможных уровней прозрачности при сглаживании "ненастоящей" геометрии с использованием alpha-to-coverage. Однако на практике эти изменения не принесли ожидаемого эффекта. По полученной на CES информации можно было решить, что NVIDIA действительно значительно улучшила возможности антиалисинга текстур, имитирующих геометрические поверхности, причем новые техники еще должны были быть и несильно требовательны к ресурсам. Но в реальности лишь немногие игры действительно получают какие-то преимущества от данных нововведений; среди них можно назвать Age of Conan. Лучшим решением было бы массовое использование разработчиками DX10+ приложений самого метода alpha-to-coverage, чтобы все владельцы GPU, способных производить обычное сглаживание MSAA, получили возможность любоваться сглаженными текстурами. Но пока до этого еще далеко. Это подводит нас к третьему, и самому интересному новшеству. Инженеры NVIDIA добавили новый режим Transparency Supersampling (TrSS) в Fermi (и, что довольно неожиданно, в GT240), который работоспособен там, где прошлую реализацию использовать было нельзя. Предыдущий TrSS работал только в играх с DX9 движком, а в DX10 выбор техник сглаживания текстур был невелик. Новый TrSS теперь поддерживает и DirectX 10. Почему это так важно? Дело в том, что у многих DX10 игр большие сложности со сглаживанием "ненастоящих" геометрических поверхностей, причем этим страдают и популярные хиты. Например, в DX10 режиме Crysis сейчас не поддается сглаживанию листва, и даже в совсем новых играх вроде Battlefield: Bad Company 2 возникают схожие проблемы. Реализация TrSS GF100 полностью устраняет все эти недостатки.
Плохие новости заключаются в том, что этот режим пока еще не полнофункционален. Как вы можете видеть на представленных скриншотах, качество не вызывает никаких нареканий, но вот потеря производительности существенна. NVIDIA обещает, что уже в следующем месяце ситуация будет исправлена, и падение скорости будет сопоставимо с прошлой реализацией TrSS под DX9. Мы решили не ждать новых версий драйверов, и показать, как обстоит дело на текущий момент. Но помните, что, согласно обещаниям NV, уже совсем скоро производительность должна улучшиться. Для просмотра полного скриншота нажмите на картинку.
За исключением нового режима NVIDIA TrSS, изменилось не слишком многое. В DX10 все карты показывают примерно одинаковый уровень качества. Более того, при достижении уровня MSAA 4x, любая из испытуемых плат выдает практически идеальную картинку. На этом фоне несколько выделяется лишь DX10 TrSS. Хотя в наборе наших бенчмарков остается все меньше и меньше DX9 игр, для сравнения в таблицу были включены снимки экрана и в таком режиме. Это позволяет сопоставить DX9 TrSS от NVIDIA и Adaptive AA c Super-Sample AA разработки AMD. Обратите внимание на то, насколько качественную работу по сглаживанию листвы проделывают как TrSS, так и AAA. Можно только пожаловаться на то, что ранее эти техники антиалиасинга были недоступны в DirectX 10. Провал в производительности GTX 480 при использовании TrSS в DX10 особенно обращает на себя внимание. Если NVIDIA в действительности сможет дотянуть скорость работы TrSS до схожего с DX9 уровня, тогда у владельцев карт на базе GF100 появится очень интересный вариант AA. Наконец, упомянем и не менее важную анизотропную фильтрацию. В Radeon HD 5870 AMD реализовала новый алгоритм анизотропии, полностью независимый от углов наклона текстур. Естественно, было интересно увидеть ответную реакцию NVIDIA. Однако ее не последовало: качество AF в GF100 осталось на прежнем с серией GTX 200 уровне. Не стоит воспринимать это как недостаток. У NVIDIA и без того была прекрасно реализованная анизотропная фильтрация, хотя и зависимая от углов наклона поверхности. К тому же в реальности, чтобы найти игру, в которой бы разница между решениями NV и AMD бросалась в глаза, еще надо постараться — качество на глаз идентично.
Для плат AMD использовались драйверы Catalyst 10.3a с последними обновлениями. GTX 400 тестировались со специальным драйвером ForceWare 197.17, работоспособным исключительно на этой серии. Все прочие карты NVIDIA работали с драйверами 197.13.
По неизвестной нам причине, карты AMD заметно отстают по минимальному фреймрейту от новинок NVIDIA даже в низких разрешениях. Очевидно, что когда тестирование проводится в 2560x1600, 1 Гб VRAM просто перестает хватать, но почему такая картина наблюдается, скажем, в 1680x1050, сказать сложно. Наконец, оценим производительность в SLI/CF. Похоже, что негативное влияние недостатка памяти 5000 серии в CrossFire только усиливается. В результате GTX 480 SLI существенно обгоняет 5870 CF. Даже в низких разрешениях SLI масштабируется лучше CF. [N13-Тестирование — BattleForge: DX10] Далее по списку — онлайн RTS от Electronic Arts, BattleForge. Хотя это не слишком типично для жанра, эта игра может быть очень требовательна даже в DX10. В любом случае, вряд ли на практике будет заметно хоть какое-то различие между соперниками, а L4D — явно не такая игра, где проиграть было бы стыдно. Даже GTX 275 способен рисовать более 60 кадров в секунду в 2560x1600, так что победа AMD здесь не так весома, как, скажем, превосходство GTX 400 в минимальных FPS Crysis. [N17-Тестирование — Battlefield: Bad Company 2] Последняя игра серии Battlefield, Bad Company 2, еще одна DX11 новинка нашего тестового пакета. Выбор был обусловлен не только привлекательной графической составляющей игры и современным технологичным движком, но и успехом и популярностью данной игры. К тому же в некоторых локациях BC2 становится даже более требовательной, чем Crysis! К сожалению, встроенного бенчмарка у игры нет, поэтому пришлось использовать FRAPS в эпизоде преследования на джипе из первой части игры. Была получена как достаточная повторяемость результатов, так и необходимый уровень визуальной сложности. Для того чтобы более точно измерить минимальный уровень FPS в BC2, нам пришлось потрудиться. Дело в том, что в первой сцене стабильны были лишь показатели средних FPS, а для минимальных пришлось подобрать другой уровень. В конце концов, было решено остановиться на третьем акте, в котором сцена с водопадом приводила к серьезным потерям производительности даже на самых мощных системах. Зато был стабилен и близок к показателям в многопользовательских баталиях минимальный фреймрейт. Удивительно, что полученные результаты разнятся так сильно. Проиграв Radeon 5000 в количестве средних FPS, GTX 400 превзошли изделия AMD в минимальных FPS. Оценивая значимость этих локальных побед, мы все же отдадим свое предпочтение GF100 — минимальный фреймрейт намного более важен для восприятия игры, чем более высокая средняя величина FPS. [N18-Тестирование — S.T.A.L.K.E.R.: Call of Pripyat] С третьей игрой серии S.T.A.L.K.E.R. GSC Game World продолжает развивать свой X-Ray Engine. В последней версии были добавлены некоторые новшества: DX11, тесселяция, и прочее. Все это делает Зов Припяти одной из самых сложных игр марафона. Похоже, что серия GTX 400 состоит в эксклюзивном клубе высоких температур — в Crysis единственным другим одночиповым GPU, который нагревался сильнее 90 градусов, стал 3870. А комбинация GTX 480 SLI, похоже, заслужила право называться не только самой быстрой связкой из всех существующих видеокарт, но и самой горячей. На самом деле, тот факт, что в Crysis разброс температур более значителен, чем в FurMark, выделяет платы GTX 400 только сильнее. Раз уж мы говорим о температурах, стоит обратить внимание потенциальных покупателей Fermi на одну особенность. Дело в том, что NVIDIA изменила способ управления вентилятором новых видеокарт, и теперь на повышение температуры GTX 400 реагируют не молниеносно, а с некоторой задержкой. Поэтому в реальных условиях при мониторинге можно будет увидеть температуры более высокие, нежели представлены на графиках. Так что не стоит пугаться, когда при запуске FurMark цифры поползут вверх до 98 градусов на GTX 480 — вентилятор отреагирует через несколько секунд, опасаться за сохранность видеокарты не стоит. Далее перейдем к энергопотреблению. Как уже было упомянуто ранее, NVIDIA заявляет об энергопотреблении в 47 Вт и 33 Вт в покое для GeForce GTX 480 и 470 соответственно, что делает эти платы одними из наименее требовательных high-end решений. Тем не менее, далее вы сможете убедиться, что 1200 Вт БП для SLI конфигурации GF100 лишним точно не будет. В зависимости от того, с какой точки зрения посмотреть, можно считать аппетит GTX 400 либо приемлемым, либо все-таки чрезмерным. GTX 480 сравним в покое с Radeon 4000 серии, которые не являются примером экономичности. 5000 же серия Radeon вообще несравнима с Fermi по данному показателю. В свою очередь, GTX 470 так сильно не выделяется, находясь на уровне плат GTX 200. Наконец, эффективные энергосберегающие алгоритмы AMD работают в CF ничуть не хуже, чем на одиночных платах, так что система с GTX 480 SLI остается в гордом одиночестве с 260 Вт энергопотребления в покое. В FurMark результаты меняются не слишком сильно. GTX 480 удается несколько умерить свои запросы примерно до уровня GTX 295, а GTX 470 и вовсе прикинуться скромным GPU с энергопотреблением на уровне GTX 200. Безусловно, хочется отдельно выделить абсолютную величину в 851 Вт потребляемой мощности под нагрузкой парой GTX 480; нередко можно увидеть системы, которым действительно необходимы блоки питания на киловатт. Шум карт без нагрузки давно перестал быть параметром, в котором платы с активным охлаждением кардинально разнились бы. Принципиально схожая конструкция современных систем охлаждения обладает средним уровнем эффективности, не меняющимся от модели к модели. Можно констатировать, что GTX 400 оказались на небольшую толику громче общего фонового шума ПК. А вот под нагрузкой ситуация меняется. Неудивительно, что карты с горячими и требовательными чипами зачастую оказываются громкими. Остается лишь охарактеризовать, насколько приемлем уровень создаваемого шума. Так, при 70 дБ GTX 480 SLI являются парой самых громких карт, которые мы когда-либо тестировали. То же справедливо и в отношении 64.1 дБ для GTX 480 среди одночиповых карт. Это даже больше неоправданно громкой 4890. GTX 470 не выделяется так сильно с 61.5 дБ, но, в любом случае, эта карта принадлежит к самым громким и горячим. Похоже, что без применения концептуально новых СО в новом поколении графических ускорителей не обойтись. Уже сейчас GTX 480 работает под нагрузкой слишком громко, при этом при длительной игре чип разогревается до 94 градусов, что вызывает некоторые опасения. При очередном удвоении числа транзисторов более тонкий технологический процесс производства уже не спасет NVIDIA. Что касается температуры работы, то, по словам представителей компании, в лабораториях платы прошли все тесты, работая без сбоев даже на приближающихся к 105 градусам температурах (момент включения троттлинга). К тому же, GTX 295 в свое время были не менее горячими, но с течением времени температурных проблем выявлено не было. У нас нет причин не доверять NVIDIA, однако в любом случае следует обеспечить качественную циркуляцию воздуха в системном блоке, в который планируется установить видеокарту на базе GF100. На пути воздушных потоков не должно находиться препятствий в виде незакрепленных проводов и т.п., а установленные платы расширения следует по возможности передвинуть подальше от GTX 400. [N23-Заключение] Итак, масштабное тестирование нового GPU от NVIDIA и первых карт на его основе, GeForce GTX 480 и GTX 470, завершено. Какие же выводы мы можем сделать из всего обилия информации? Начнем с очевидного: NVIDIA вернула себе корону производителя самых быстрых одночиповых GPU. GTX 480 стабильно опережает Radeon HD 5870 на 10-15% в зависимости от игры и разрешения. Даже принимая во внимание выпуск в скором времени 2 Гб версии AMD Radeon 5870, мы ожидаем, что GTX 480 останется картой номер один. Тестирование показало, что 1 Гб 5870 местами не хватает локальной видеопамяти, но вряд ли этот вопрос стоит настолько остро, что дополнительный объем VRAM сможет переломить ситуацию. Так что если GTX 480 после выхода 2 Гб Cypress перестанет быть самой быстрой платой с одним GPU на борту, мы будем удивлены. Примите во внимание и то, что пока о полноценной доступности серии GTX 400 говорить не приходится. Возможно, к моменту выхода 2 Гб версии 5870 GTX 480 как раз станет возможным купить за приемлемые деньги, а тогда уже выйдут и обновленные драйверы... Словом, потребуется некоторое обновление данных тестирования. В более долгосрочной перспективе говорить о том, сколько сможет удерживать лидерство GTX 480, непросто. Если 2 Гб вариант Cypress не изменит положение дел, что будет с выходом высокочастотных версий 5800? У AMD было полгода, чтобы оптимизировать производство кристаллов, сменить несколько ревизий чипа, и сегодня многие производители уже выпускают штатно разогнанные до 900 МГц по чипу видеокарты. Слишком рано сбрасывать AMD со счетов, компания вполне в состоянии выпустить потенциальный Radeon HD 5880, который перекроет 10-15% преимущество GF100. В то же время нельзя забывать и о прочих важных факторах: цена, энергопотребление и уровень шума. Если говорить об относительном позиционировании карт на рынке США, за свои $500 GTX 480 хоть и является самой быстрой одночиповой картой, но это выбор энтузиастов скорости; ни о каком удачном соотношении цены и качества речи не идет. Разница в цене между 5870 и GTX 480 явно больше, чем разница в производительности. К тому же из-за большей площади кристалла Fermi горячее, потребляет существенно больше энергии и шумит. И все это за 10-15% превосходство в скорости. Решение напрашивается само собой — если стоит цель приобрести бескомпромиссное решение с максимальной производительностью, GTX 480 даже в сегодняшнем состоянии вне конкуренции. Если же такой задачи не стоит, лучше тщательно взвесить все "за" и "против". Ведь даже в такой ситуации кого-то больше обрадует более высокий минимальный фреймрейт GF100, а кто-то не представит своей жизни без вывода DTS-HD MA на ресивер по HDMI; принять окончательное решение может только покупатель. Второй представленной картой стал GTX 470. Это не флагман NVIDIA, поэтому легко запутаться с позиционированием и результатами платы. На самом деле GTX 470 — намного менее спорное предложение, чем GTX 480. Ценник этой видеокарты находится между 5850 и 5870, а производительность точно соответствует такому раскладу. В среднем младший GF100 на 5-10% медленнее 5870, так что за 87% цены покупатель получить 90-95% скорости. Возможно, это и не самое выгодное предложение за всю историю рынка видеокарт, но оно соответствует действительности. Опять же GTX 470 будет более горячим и шумным, чем любая из плат серии 5800, но в этом случае данные недостатки выражены не столь ярко. После первого близкого знакомства можно сделать некоторые выводы и по самой архитектуре Fermi. При разработке данного проекта особое внимание уделялось вычислительным возможностям, особенно тщательно прорабатывался вопрос тесселяции. К сожалению, на текущий момент эти возможности, которые отняли у NVIDIA немало столь ценного времени, остаются невостребованными при домашнем использовании карт на базе GF100. Безусловно, существуют полезные CUDA приложения, а технологические демонстрации показывают всю мощь тесселяции, но это дело будущего. С серией GTX 400 NVIDIA сделала ставку на будущее. Насколько это было оправдано, покажет лишь время, делать прогнозы — занятие неблагодарное. Пока же можно отметить, что внедрение всех новшеств потребовало у NVIDIA очень много ресурсов, в результате чего Fermi задержался. Что касается общей экосистемы NVIDIA, немногое изменилось по сравнению с 2009 годом. Продукты компании поддерживают интересные технологии, такие как PhysX, 3D Vision и CUDA; со временем каждая из них становится все более отлаженной и распространенной, но вряд ли можно говорить, что только из-за них кто-то остановит свой выбор именно на GeForce. Все они хороши как дополнение к высокопроизводительным GPU NVIDIA, но сам факт внедрения поддержки DX11 и перехода на новую архитектуру они вряд ли затмят. Наконец, мы можем ответить на вопрос, вынесенный в заголовок статьи. Пожалуй, нет. 15% превосходство нового GPU над имеющимися решениями AMD не впечатляет так, чтобы оправдать шестимесячную задержку. Но ничего страшного в этом нет. Мы наконец-то снова можем наблюдать полноценную конкуренцию между гигантами графической индустрии, ждать снижения цен, оптимизированных драйверов, следить за покорениями вершин 3DMark... Словом, сделать еще один шаг вперед. |
Источник: www.anandtech.com/