Каталог
ZV
ездный б-р, 19
+7 (495) 974-3333 +7 (495) 974-3333 Выбрать город: Москва
Подождите...
Получить токен
Соединиться
X
Сюда
Туда
x
Не выбрано товаров для сравнения
x
Корзина пуста
Итого: 
Оформить заказ
Сохранить заказ
Открыть корзину
Калькуляция
Очистить корзину
x
Главная
Магазины
Каталог
Мои заказы
Корзина
Магазины Доставка по РФ
Город
Область
Ваш город - ?
От выбранного города зависят цены, наличие товара и
способы доставки

Четверг, 22 апреля 2010 16:32

NVIDIA GeForce GTX 480 и GTX 470: были ли 6 месяцев оправданы?

короткая ссылка на новость:

Нити и планирование задач



   Тогда как NVIDIA G80 мог выполнять общие вычисления вследствие своей скалярной архитектуры, и это рассматривалась как дополнительный вариант применения GPU, GF100/Fermi проектировался с оглядкой на иные приоритеты. Реализации прошлых архитектур предполагали, что все SM чипа должны работать над одной и той же задачей (функцией, программой, циклом) в определенный момент времени. Если задача была недостаточно хорошо распараллеливаема, чтобы загрузить работой все имеющиеся в наличии ядра, то они банально простаивали, а эффективность чипа в результате падала. Так что говорить о высоком КПД унифицированной архитектуры возможно было лишь при условии работы с соответствующим ПО.

   В новом поколении своей архитектуры, NVIDIA наделила планировщик задач новой функциональностью: теперь стало возможным параллельное исполнение нитей из разных задач. Это один из ключевых факторов, благодаря которым NV смогла увеличить количество SP в GF100, как минимум, без снижения эффективности их работы.
GT200 (слева) против GF100 (справа)

   Было на порядок уменьшено время переключения контекста между режимами GPU и CUDA. Теперь эта задержка настолько незначительна, что возможно многократное переключение даже в пределах одного кадра. Это должно позволить более широко использовать PhysX.

   С точки зрения работы с нитями, GT200 был настоящим монстром, способным на лету поддерживать до 30 000 потоков. Оказывается, данные показатели были даже избыточны. Бутылочным горлышком служила ПСП, а не возможность одновременного поддержания в работе такого количества нитей, так что в GF100 это число даже снизили до 24 тысяч.

  GF100 GT200 G80
Количество одновременно поддерживаемых нитей 24576 30720 12288

   NVIDIA совмещает 32 нити в одну группу, называемую "варпом" (warp). В GT200 и G80 половина подготовленного варпа передается в SM на каждый такт. То есть для передачи в SM всего набора из 32 нитей требуется два такта.

   В прошлых архитектурах логика диспетчера SM была тесно связана с исполняющими модулями. Если какие-либо инструкции передавались на исполнение в SFU, весь SM ожидал окончания операции и не мог перейти к обработке следующих позиций в нитях. При этом если выполнение определенных команд предполагало использование одних только SFU, подавляющее большинство возможностей SM в GT200/G80 просто не использовались. Ясно, что это негативно влияло на общую эффективность.

   В Fermi этот недостаток устранили. Теперь в чипе присутствует два независимых диспетчера на каждый SM. Эти блоки уже не связаны так тесно с внутренней структурой SM. Каждый из этих двух модулей может выбирать и отсылать на исполнение половину варпа за такт. При этом нити могут принадлежать различным варпам для как можно большего параллелизма и нахождения независимых операций. Логика распределения задач представлена двумя независимыми модулями одного уровня, они равноправно распоряжаются ресурсами внутри SM.

   Недостаток решения NVIDIA состоит в том, что каждая нить в варпе должна исполнять одинаковую инструкцию в одно время. Если так происходит, то достигается полное использование ресурсов. Если нет, то некоторые модули простаивают.

   Один SM может выполнять:

GF100 FP32 FP64 INT SFU LD/ST
Операций за такт 32 16 32 4 16

   Если на исполнение запускается инструкция FP64, то весь SM может производить 16 операций за такт. Одновременное исполнение операций FP64 и SFU невозможно.

   Хорошие новости состоят в том, что SFU теперь не привязан полностью ко всему SM. Один диспетчер может с легкостью послать 16 нитей соответствующему массиву ядер, тогда как второй — 16 нитей на SFU. По прошествии двух тактов диспетчеры могут вновь отправлять половины варпов. Сравните это с существовавшей ранее необходимостью ожидания всем SM полных 8 тактов после отправки нитей на SFU. Чувствуется, что на каждом уровне Fermi была проделана качественная работа по максимальному "развязыванию" и дроблению блоков. Остается проверить одно — как эта гибкость поможет GF100 в реальных приложениях. [N7-Некоторые особенности: ECC и отсутствие NVIDIA Surround]    Еще один из моментов, о которых рассказывала NVIDIA на предварительных мероприятиях, посвященных выпуску Fermi, — поддержка режима коррекции ошибок ECC. Fermi предлагает ECC для своего регистрового файла, кэшей первого и второго уровней, а также набортной видеопамяти. Последнее особенно интересно в свете того, что при обычных обстоятельствах внедрение ECC сопряжено с необходимостью организации более широкой шины и установки дополнительных чипов памяти. Хотя в игровой серии GTX 400 данная технология и отключена, мы расскажем, как работает ECC на Fermi, так как подход NVIDIA интересен.

   Так, для того чтобы организовать ECC на обычных модулях PC DIMM, необходимо 9 чипов на один канал (9 бит на байт), подключенных к 72-битной шине, вместо стандартных 8 чипов и 64-битного канала. Тем не менее, у NVIDIA не было ни желания, ни возможности добавить еще больше разрядности шине памяти и установить больше чипов GDDR5, не говоря уже о том, что 8 не делится без остатка на 10/12 каналов памяти. Так как же инженеры смогли воплотить ECC на имеющейся конфигурации?

   На самом деле, принцип здесь довольно прост. Когда пользователь хочет активировать ECC, карта резервирует часть набортной памяти под контрольные суммы ECC. Таким образом, VRAM просто уменьшается на 1/8 (для имитации работы девятого бита), и данные ECC располагаются в этой зарезервированной области. Поэтому прочие дополнительные затраты не требуются. Согласитесь, изящный путь решения поставленной задачи с минимальными потерями!

   С технической стороны, несмотря на нестандартную реализацию, NVIDIA использует обычные алгоритмы одинарной и двойной коррекции ошибок Single Error Correction / Double Error Detection (SECDED), поэтому вопрос о надежности технологии не стоит. При этом потеря производительности минимальна, даже ниже ожидаемых 12.5%. Каким образом удалось при фактическом сокращении пропускной способности добиться таких результатов, NV не говорит, ссылаясь на специфические методы собственной разработки.

   Переходя к более интересным для простого пользователя технологиям, упомянем о 3D Vision Surround, конкуренте Eyefinity, который демонстрировался NVIDIA на CES. На тот момент утверждалось, что эта дополнительная возможность будет доступна одновременно с запуском серии GTX 400, но, как и многое другое, связанное с Fermi, 3D Vision Surround запаздывает.
3D Vision
   В последней доступной на момент тестирования версии драйверов не было никакого упоминания ни о 3D Vision Surround, ни о простом Surround. Ожидается, что эти возможности будут добавлены в 256 линейке ForceWare, выходящей в апреле. Но на сегодняшний день никаких комментариев по поводу качества работы данных технологий в реальных условиях мы дать не можем. [N8-Тесселяция и PhysX]    Детальное изучение производительности серии GTX 400 мы начнем с тесселяции и PhysX. Эти возможности у NVIDIA на особом счету. Именно из-за желания компании достичь высокой скорости аппаратной тесселяции было принято решение о создании выделенных PolyMorph Engine.
   Соответствие DirectX 11 предполагает жесткие рамки реализуемых технологий, и NVIDIA стремилась превзойти AMD, не выходя за стандарты Microsoft. Тесселяция — один из моментов, в которых свободы действий было достаточно для этого. Чтобы достичь заметного преимущества, NVIDIA потребовалось реструктуризировать вычислительные блоки Fermi. В конечном счете, в чипе оказалось 14/15/16 тесселяторов (в зависимости от версии карты и числа активных SM), включенных в состав движков PME. В теории, обладая большей производительностью тесселяции, карты NVIDIA могут прорисовывать картинку более качественную, чем Radeon HD 5000, при этом от разработчиков требуется не слишком много для реализации потенциала GF100.

   В качестве первого теста на производительность тесселяции был выбран Unigine Heaven 2.0, выпущенный всего пару недель назад. Во второй версии бенчмарка была добавлена возможность выбора уровней качества тесселяции (UH 1.0 заслужил славу чрезмерно нагружающего видеокарты), что позволит нам более полно оценить картину производительности при более и менее активном использовании тесселяции. Если способности GTX 480 в действительности настолько превосходят Radeon HD 5870, как утверждает NV, GF100 должен лучше справляться со сложными режимами UH 2.0.

   Так как Heaven, по сути, является синтетическим тестом (на данный момент полноценных DX11 игр не существует), мы будем говорить об относительной производительности тестируемых плат, а не о полученных абсолютных показателях и количестве кадров в секунду.
Низкий (сверху), и максимальный (снизу) уровни тесселяции

   Heaven предоставляет выбор между четырьмя уровнями тесселяции: выключена, низкая, средняя, максимальная. Чтобы показать разницу в качестве, мы провели тесты с низкой и максимальной детализацией. На диаграммах — процентные показатели скорости карт, работающих с максимальной тесселяцией, относительно более низкой планки.
   Если говорить о средних величинах, GTX 480 удается сохранить 79% производительности при переходе от низкой детализации к максимальной. Падение скорости на Radeon 5870 более выражено и составляет целых 42%, т.е. остается лишь 58% от производительности в простом режиме.

   Минимальный фреймрейт еще более показателен. Тогда как новинка NVIDIA теряет 26%, Radeon HD 5870 показывает на 69% худшие результаты. Отчетливо видно, что со сложной тесселяцией GTX 480 справляется существенно лучше 5870.

   Вторым бенчмарком тесселяции выступила одна из демонстрационных программ Microsoft набора DX11: Detail Tessellation. Это сцена, в которой используется тесселяция и карты смещения, чтобы превратить плоскую текстуру скалы в реалистичную, сложную геометрически, модель. Здесь замерялось и сравнивалось между собой среднее количество кадров в секунду при двух уровнях качества (т.н. коэффициенты 7 и 11).
   Полученные результаты только подтверждают увиденное нами ранее в Unigine. GTX 480 сохраняет 65% производительности при усложнении тесселяции, тогда как Radeon 5870 замедляется до 38%. Очевидно, что Fermi подвержен потери скорости от более сложных расчетов геометрии в куда меньшей степени, чем представитель линейки AMD Evergreen. Как показывают тесты, подход NVIDIA к организации тесселятора оказался более удачным, этот модуль заметно выигрывает в скорости работы у Cypress.

   Однако сама по себе более мощная реализация аппаратной тесселяции ничего не означает. Применение данной технологии как таковой целиком и полностью зависит от разработчиков игр, в их же власти дать пользователям вручную выбирать и уровни качества тесселяции. На сегодня все игры, в той или иной мере использующие DX11, используют тесселяцию довольно ограниченно, поэтому дополнительные способности GTX 400 просто не используются. Конечно, это не означает, что так будет продолжаться всегда, но полагаться на только ожидаемые изменения в будущем — всегда рискованно.

   Превосходные возможности тесселятора NVIDIA требуют от разработчиков внедрения нескольких уровней качества тесселяции. Ведь необходимо обеспечить высокую производительность не только на GF100, но и на менее скоростных решениях AMD ценой некоторого упрощения геометрии. Как было отмечено выше, данные нововведения не слишком сложны и не меняют процесс разработки кардинально. Тем не менее, пока невозможно однозначно утверждать, будет ли производительность при тесселяции настоящим преимуществом GTX 400 в конкурентной борьбе с Radeon HD 5800, или же станет формальностью вроде DirectX 10.1 для HD 3800, удачной для рекламы, но малополезной в реальных приложениях. На сегодня мы не беремся рекомендовать GTX 480/470 к покупке исключительно из-за лучшей производительности новинок NVIDIA при тесселяции.

   Следующей технологией, требующей отдельного рассмотрения, является PhysX. В 2008 году NVIDIA купила разработчика AGEIA вместе со всеми программными и аппаратными технологиями, воплотив физический движок PhysX в качестве CUDA приложения для запуска на своих GPU. Тем самым, отпала необходимость в покупке специализированной платы. С того момента компания различными способами убеждала пользователей и разработчиков в преимуществах данной технологии, однако успех этого продвижения вряд ли можно было назвать однозначным. Пожалуй, "звездный час" для PhysX настал лишь в прошлом году с выходом игры Batman: Arkham Asylum, превосходно оцененной прессой и игроками.

   С заметно усовершенствованными вычислительными способностями Fermi, NVIDIA получила возможность говорить о лучшей производительности PhysX на новых картах, а, значит, и о потенциально более полном и частом использовании технологии для имитации сложных и реалистичных физических эффектов. К тому же, благодаря быстрому переключению контекста и поддержке конкурентных программ, накладные расходы PhysX на Fermi должны оказаться меньше, чем на GT200/G80.

   Чтобы проверить эти теоретические выкладки на практике, мы замерили производительность Batman: Arkham Asylum на картах разных поколений. Если PhysX на Fermi в действительности работает быстрее, чем на GT200, значит, количество кадров в секунду с включенным ускорением физики по сравнению с выключенным должно быть больше, чем на GTX 285. Тест был проведен в разрешении 2560x1600 при полностью отключенном PhysX, и установленном на высоком уровне качестве.
   Если PhysX и работает на Fermi быстрее, чем на архитектурах-предшественницах, то Batman явно не из тех игр, где эта разница заметна. На обеих GTX 480 и GTX 285 относительное падение производительности при включении PhysX составило приблизительно 47%. Естественно, в абсолютных величинах GF100 оказался быстрее, но само замедление от активации аппаратного ускорения физики оказалось таким же, как и на флагмане предыдущего поколения. В SLI конфигурации плат дела также обстоят неважно: теряется порядка 60% скорости при включении PhysX на любой из пар карт.

   Без сомнений, текущая реализация PhysX на GTX 480 требует таких же затрат, как и на GTX 285. Если и стоит ожидать каких-то серьезных улучшений, то либо от совершенно новой версии PhysX 3, либо от одной из обновленных веток PhysX 2.x. На имеющихся сегодня играх плюсов GF100 не замечено.

   Второй тест призван дать более общее представление об уровне производительности PhysX. Мы использовали техническую демонстрацию NVIDIA Raging Rapids, которая изображает поток воды, а физика используется для реалистичного создания волн, водопадов и прочих явлений природы. На графике представлено количество FPS.
   Полученные в Raging Rapids результаты оказались неоднозначными. С одной стороны, этот бенчмарк входит в число наиболее удачных для GTX 480; в нем виден существенный скачок в производительности по сравнению с GTX 285. По чистой скорости PhysX GF100 опережает GT200 более чем в два раза! С другой, если компенсировать увеличенное количество шейдерных процессоров Fermi более сложной симуляцией воды, преимущество составит лишь около 10% вместо линейного двукратного прироста. Это говорит об отличной масштабируемости, но превосходство GF100 обусловлено количественными характеристиками, а не качественными. Само по себе наличие удвоенного массива шейдерных процессоров однозначно положительно сказывается на производительности, но на архитектурном уровне вряд ли GTX 480 заметно превосходит GTX 285 в PhysX по удельной эффективности. [N9-Вычислительные способности]    Перед тем, как перейти к самим тестам, необходимо сделать довольно значимую оговорку. Оказывается, в GTX 400 производительность FP64 операций искусственно занижена относительно аппаратных возможностей GPU (1/2 скорости FP32), и составляет 1/8 (12.5%). Это было сделано по маркетинговым соображениям для сегментации рынка. Как и ECC, быстрые расчеты FP64 доступны только в Tesla. На наших тестах это обстоятельство не сказывается, так как все они основаны на расчетах с FP32 точностью.

   Продолжая исследование возможностей неграфических вычислений GF100, перейдем к более общим GPGPU задачам. Известно, что современные видеокарты с унифицированными шейдерными процессорами, обладая намного более простым устройством самих ядер по сравнению с CPU, могут значительно превосходить ЦП в хорошо распараллеливаемых задачах, где большое количество одновременно исполняемых потоков играет решающую роль. Серия GTX 400, будучи основанной на архитектуре Fermi, должна показывать прекрасную производительность в программах такого типа.

   Но не стоит переоценивать важность данных расчетов. Хотя в специализированных задачах GPU с 480 потоковыми процессорами может показать себя настоящим монстром, существует не так много реальных домашних неигровых применений GF100. Безусловно, доступны кодировщики видео на CUDA, ПО для обработки фотографий и т.д., но, хотя прошло уже много времени с момента анонса технологии, этот сектор рынка развивается не очень динамично. Причем, виной тому и разрозненные несовместимые API. OpenCL и DirectCompute призваны решить данную проблему, но пока что стоит рассматривать GPGPU как приятное дополнение к впечатляющей графической производительности.

   Когда OpenCL был представлен в прошлом году, мы надеялись, что к моменту запуска Fermi появятся подходящие для конечного пользователя приложения, которые помогут сравнить эффективность решений AMD и NVIDIA. К сожалению, этого не произошло, и в нашем распоряжении имеются лишь синтетические тесты для формального сравнения GPU. Мы зафиксировали результаты карт в паре таких бенчмарков, но эти показатели стоит воспринимать реалистично — они недостаточно точно показывают скорость работы плат GeForce и Radeon, давая лишь условный ориентир.

   Начнем мы с OpenCL реализации N-Queens, разработанной PCChen с форумов Beyond3D. Этот бенчмарк использует инструменты OpenCL для нахождения решений известной шахматной задачи для доски заданного размера. Замеряется время проведения расчетов в секундах. В данном случае мы установили условный размер доски в 17x17 клеток и подождали, пока не будут найдены все доступные решения.
   Этот тест отдает предпочтение GPU NVIDIA, карты серии GTX не просто оказываются в лидерах — GTX 285 даже победил с весомым преимуществом Radeon 5870. Из-за существенной разницы в организации шейдерных процессоров AMD и NVIDIA, даже с условно-унифицированным API вроде OpenCL от алгоритма запускаемой программы очень сильно зависит производительность. Поэтому, в зависимости от оптимизаций под конкретную архитектуру, можно добиться диаметрально-противоположных результатов. В любом случае, GTX 480 оказывается самым быстрым GPU из всех протестированных, вполовину опережая GTX 285, и в целых пять раз Radeon 5870.

   Вторым тестом был выбран пост-процессиноговый бенчмарк из утилиты GPU Caps Viewer. В ней силами OpenGL сначала рисуется тор, а затем на него накладываются различные эффекты с помощью OpenCL. На графике — фреймрейт данного процесса.
   И снова изделия NVIDIA показали себя на высоте. Без сомнений, GTX 480 является победителем, а GTX 285 снова удается взять верх над обеими картами Radeon. Возможно, дело здесь вновь в оптимизациях алгоритма под архитектуру NVIDIA, хотя повторяемость результатов может указывать на то, что GeForce в действительности настолько превосходят Radeon HD в OpenCL. Но, пока реальных приложений, написанных на OpenCL нет, можно выстраивать сколько угодно догадок.

   Перейдем от бенчмарков, запускающихся на всех GPU, к заточенным под CUDA. Эта технология присутствует на рынке больше времени, и, как следствие, лучше изучена разработчиками. Под данную платформу даже написаны некоторые реально-используемые GPGPU программы. Но, так как CUDA работоспособна лишь на картах NVIDIA, сравнение с Radeon провести не получится. Зато будет интересно посмотреть, насколько GTX 480 быстрее GTX 285.

   Мы начнем с Badaboom — известного кодировщика видео, написанного Elemental Technologies специально для CUDA. С его помощью сжимался двухминутный 1080i ролик. Единицей измерения же служит количество обрабатываемых в секунду кадров.
   Разница в производительности в Badaboom впечатляет, но не является чем-то удивительным. Ведь у GTX 480 в распоряжении вдове больше потоковых процессоров, работающих на примерно тех же самых частотах, что и GTX 285. Как следствие, пропорционально возрастает и производительность.

   Следующим тестом стала специализированная версия Folding@Home для измерения производительности GPU, в которую как раз добавили совместимость с Fermi. Folding@Home — всемирный проект Стэндфордского Университета, направленный на изучение процессов синтеза белка. Вычисления носят характер распределенных, а поддержка видеокарт была добавлена еще в 2006 году в серии ATI X1K. В нашем случае замерялось полное время окончания расчетов над отдельно взятой задачей. Это позволило рассчитать, сколько пакетов задач (nodes) удастся выполнить за целый день работы Folding@Home.
   Пожалуй, Folding@Home является первым бенчмарком, в котором мы можем наблюдать весь потенциал вычислительной мощности Fermi. В отличие от предыдущих тестов, где в лучшем случае достигался двукратный прирост производительности относительно GTX 285, в F@H новый чип был в несколько раз быстрее. За одно и тоже время GF100 способен выполнить до 3.5 раз больше работы, чем GT200. И, хотя Folding@Home является скорее научным приложением, не приносящим реальной пользы обычным домашним пользователям (не затрагивая медицинское применение результатов, конечно), оно дает представление о реальных способностях Fermi в вычислениях.

   Наконец, задействуем еще одну техническую демонстрацию NVIDIA, носящую название Design Garage. Это одно из немногих доступных сегодня реально работающих приложений, которые строят изображение методом трассировки лучей. Именно его показывали ранее на CES. Последнее время о ray-tracing технологиях говорят все больше, и не последнюю роль в их популяризации сыграла Intel со своим проектом Larrabee. Но пока что все остается на стадии концептуального применения, и скорости прорисовки графики в реальном времени даже у GTX 480 не хватает. Для обеспечения привычной по современному 3D детализации с приемлемой скоростью потребуется еще несколько лет. Хотя определенные сдвиги в данном направлении происходят.
   В Design Garage создаются и красиво подсвечиваются модели автомобилей. Детализация находится на достаточно высоком уровне. Но, как видите, даже GF100 способен создавать лишь несколько кадров в секунду.

   С другой стороны, довольно интересно, что NVIDIA вообще приняла решения ввязаться в гонку с Intel за первенство в освоении новой сферы. Видимо, компания считает данное направление перспективным, иначе ресурсы не тратились бы понапрасну.


   Как и Folding@Home, DG показывает GTX 480 с лучшей стороны. По сравнению с GTX 285, GF100 оказывается в восемь раз быстрее! Такой впечатляющий отрыв возник в первую очередь благодаря новой структуре кэш-памяти чипа, так как для трассировки лучей критически важно наличие в кэше требуемых данных без необходимости обращений в видеопамять. Очевидно, прикладные программы, зависимые от конкурентных операций, быстрого переключения задач и скорости кэша могут выполняться на Fermi чуть ли не на порядок эффективнее, чем на GT200. [N10-Качество изображения и AA]    Когда речь заходит о качестве изображения, то наиболее важные усовершенствования, произведенные NVIDIA в Fermi, касаются сглаживания сложных поверхностей, которые изображают ненастоящую геометрию. Речь идет о таких объектах, как сетчатый забор или колючая проволока. Для того чтобы справляться с антиалиасингом подобных конструкций, в арсенале Fermi присутствует несколько новых инструментов.

   Первый из них — возможность использования дополнительных выборок покрытия пикселя CSAA, что в паре с методом alpha-to-coverage позволяет очень качественно сглаживать текстуры. С дополнительными выборками, которые обеспечиваются CSAA в этом режиме, Fermi способен создавать большее число уровней полупрозрачности, чем решения прошлых поколений. Это должно значительно улучшать внешний вид создаваемых градиентных переходов.

   Вторым является новый тип CSAA сглаживания, названный 32x. Такое число получается из суммы 8 полноценных мультисемплинговых выборок и 24 выборок покрытия пикселей. Все вместе это дает до 63 возможных уровней прозрачности при сглаживании "ненастоящей" геометрии с использованием alpha-to-coverage.

   Однако на практике эти изменения не принесли ожидаемого эффекта. По полученной на CES информации можно было решить, что NVIDIA действительно значительно улучшила возможности антиалисинга текстур, имитирующих геометрические поверхности, причем новые техники еще должны были быть и несильно требовательны к ресурсам. Но в реальности лишь немногие игры действительно получают какие-то преимущества от данных нововведений; среди них можно назвать Age of Conan. Лучшим решением было бы массовое использование разработчиками DX10+ приложений самого метода alpha-to-coverage, чтобы все владельцы GPU, способных производить обычное сглаживание MSAA, получили возможность любоваться сглаженными текстурами. Но пока до этого еще далеко.

   Это подводит нас к третьему, и самому интересному новшеству. Инженеры NVIDIA добавили новый режим Transparency Supersampling (TrSS) в Fermi (и, что довольно неожиданно, в GT240), который работоспособен там, где прошлую реализацию использовать было нельзя. Предыдущий TrSS работал только в играх с DX9 движком, а в DX10 выбор техник сглаживания текстур был невелик. Новый TrSS теперь поддерживает и DirectX 10.

   Почему это так важно? Дело в том, что у многих DX10 игр большие сложности со сглаживанием "ненастоящих" геометрических поверхностей, причем этим страдают и популярные хиты. Например, в DX10 режиме Crysis сейчас не поддается сглаживанию листва, и даже в совсем новых играх вроде Battlefield: Bad Company 2 возникают схожие проблемы. Реализация TrSS GF100 полностью устраняет все эти недостатки.
Bad Company 2 DX11 без Transparency Supersampling
Bad Company 2 DX11 без Transparency Supersampling
Bad Company 2 DX11 c Transparency Supersampling
Bad Company 2 DX11 c Transparency Supersampling

   Плохие новости заключаются в том, что этот режим пока еще не полнофункционален. Как вы можете видеть на представленных скриншотах, качество не вызывает никаких нареканий, но вот потеря производительности существенна. NVIDIA обещает, что уже в следующем месяце ситуация будет исправлена, и падение скорости будет сопоставимо с прошлой реализацией TrSS под DX9. Мы решили не ждать новых версий драйверов, и показать, как обстоит дело на текущий момент. Но помните, что, согласно обещаниям NV, уже совсем скоро производительность должна улучшиться.

   Для просмотра полного скриншота нажмите на картинку.
NVIDIA GeForce GTX 480 NVIDIA GeForce GTX 285 ATI Radeon HD 5870 ATI Radeon HD 4890
0x
0x
0x
0x
2x
2x
2x
2x
4x
4x
4x
4x
8xQ
8xQ
8x
8x
16xQ
16xQ
DX9: 4x
DX9: 4x
32x
DX9: 4x
DX9: 4x + AAA
DX9: 4x + AAA
4x + TrSS 4x
DX9: 4x + TrSS
DX9: 4x + SSAA
 
DX9: 4x
     
DX9: 4x + TrSS
     

   За исключением нового режима NVIDIA TrSS, изменилось не слишком многое. В DX10 все карты показывают примерно одинаковый уровень качества. Более того, при достижении уровня MSAA 4x, любая из испытуемых плат выдает практически идеальную картинку. На этом фоне несколько выделяется лишь DX10 TrSS.

   Хотя в наборе наших бенчмарков остается все меньше и меньше DX9 игр, для сравнения в таблицу были включены снимки экрана и в таком режиме. Это позволяет сопоставить DX9 TrSS от NVIDIA и Adaptive AA c Super-Sample AA разработки AMD. Обратите внимание на то, насколько качественную работу по сглаживанию листвы проделывают как TrSS, так и AAA. Можно только пожаловаться на то, что ранее эти техники антиалиасинга были недоступны в DirectX 10.
   Если говорить о производительности, то AMD и NVIDIA пытались улучшить скорость работы 8x MSAA. Тем не менее, при написании обзора Radeon 5870 в сентябре мы заметили, что в сравнении с прошлым поколением, быстродействие 8x MSAA у AMD практически не изменилось. Спустя шесть месяцев картина осталась прежней. Потеря производительности при переходе от 4x MSAA к 8x MSAA на картах Radeon составляет примерно 13%. У NVIDIA скорость уменьшается заметнее, GTX 285 в DX10 теряет около 25%. Но теперь, с выходом Fermi, разрыв сократился. Отныне при активации 8x MSAA, приходиться жертвовать лишь 12% FPS относительно 4x MSAA, что уравнивает GTX 400 и Radeon 5800.

   Провал в производительности GTX 480 при использовании TrSS в DX10 особенно обращает на себя внимание. Если NVIDIA в действительности сможет дотянуть скорость работы TrSS до схожего с DX9 уровня, тогда у владельцев карт на базе GF100 появится очень интересный вариант AA.

   Наконец, упомянем и не менее важную анизотропную фильтрацию. В Radeon HD 5870 AMD реализовала новый алгоритм анизотропии, полностью независимый от углов наклона текстур. Естественно, было интересно увидеть ответную реакцию NVIDIA. Однако ее не последовало: качество AF в GF100 осталось на прежнем с серией GTX 200 уровне. Не стоит воспринимать это как недостаток. У NVIDIA и без того была прекрасно реализованная анизотропная фильтрация, хотя и зависимая от углов наклона поверхности. К тому же в реальности, чтобы найти игру, в которой бы разница между решениями NV и AMD бросалась в глаза, еще надо постараться — качество на глаз идентично.
GTX 480 AF
GTX 480 AF
GTX 285 AF
GTX 285 AF
Radeon HD 5870
Radeon HD 5870
[N11-Тестовая конфигурация и программы]    К тестированию линейки GTX 400 мы полностью обновили набор тестовых программ. Некоторые игры были заменены более современными и актуальными, какие-то результаты были обновлены в соответствии с улучшившейся производительностью новых драйверов. Таким образом, получился отличный набор игр DX9/10 и DX11, по которому можно объективно оценивать карты. А для того, чтобы удовлетворить потенциально требовательные запросы GTX 480 SLI по питанию, был установлен 1200 Вт БП от Antec.

   Для плат AMD использовались драйверы Catalyst 10.3a с последними обновлениями. GTX 400 тестировались со специальным драйвером ForceWare 197.17, работоспособным исключительно на этой серии. Все прочие карты NVIDIA работали с драйверами 197.13. [N12-Тестирование — Crysis: Warhead]    Прошло уже более 2 лет с момента релиза оригинального Crysis, однако вопрос "пойдет ли на этом Crysis?" остается актуальным и по сей день. Множество листвы и растительности, высококачественные текстуры, дальность прорисовки — все это способствует высокой нагрузке на видеоподсистему, поэтому Crysis остается инструментом "номер один" для оценки производительности любой карты.
Crysis: Warhead
Crysis: Warhead
Crysis: Warhead
   Что касается первой игры марафона, положение NVIDIA неоднозначно. GTX 480 уверенно опережает 5870 на 10-12%, и ожидаемо проигрывает 5970. А вот GTX 470 показывает себя не так хорошо: карта способна соперничать только с 5850, причем можно говорить о равенстве сил. Обратите внимание на тенденцию, которая прослеживается в средних показателях FPS: с ростом разрешения преимущество GTX 400 над Radeon 5000 тает. Такое поведение будет типично для последующих тестов.
Crysis: Warhead
Crysis: Warhead
Crysis: Warhead
   Помимо определения среднего фреймрейта, мы зафиксировали и минимальное количество FPS в Crysis: Warhead; это число кадров в секунду не менее важно, чем среднее значение, и также влияет на ощущение комфорта при игре. И здесь лидерство GTX 400 очевидно. Отрыв плат NVIDIA оказался больше, чем мы могли предположить. В 2560x1600 Crysis приближается по заполнению видеопамяти к 1 Гб лимиту большинства тестируемых плат, что дает GTX 480 весомое преимущество. Но даже и в более низких разрешениях, где ограничительным фактором уже не является объем установленной на видеокарте памяти, GTX 480 обеспечивает на 33% большее число FPS, чем 5870. А GTX 470 заметно опережает не только 5850, но и превосходит 5870.

   По неизвестной нам причине, карты AMD заметно отстают по минимальному фреймрейту от новинок NVIDIA даже в низких разрешениях. Очевидно, что когда тестирование проводится в 2560x1600, 1 Гб VRAM просто перестает хватать, но почему такая картина наблюдается, скажем, в 1680x1050, сказать сложно.

   Наконец, оценим производительность в SLI/CF. Похоже, что негативное влияние недостатка памяти 5000 серии в CrossFire только усиливается. В результате GTX 480 SLI существенно обгоняет 5870 CF. Даже в низких разрешениях SLI масштабируется лучше CF. [N13-Тестирование — BattleForge: DX10]    Далее по списку — онлайн RTS от Electronic Arts, BattleForge. Хотя это не слишком типично для жанра, эта игра может быть очень требовательна даже в DX10.
BattleForge: DX10
BattleForge: DX10
BattleForge: DX10
   Еще одна игра, в которой GTX 400 показывают отличные результаты. Здесь GTX 480 на 20-30% быстрее Radeon 5870, а GTX 470 опережает 5850 на 12-25%. Неудивительно, что преимущество GTX 480 SLI над 5870 CF также велико. [N14-Тестирование — BattleForge: DX11]    В DX11 BattleForge еще более сложен. В настройках игры был включен соответствующий режим рендеринга, а SSAO установлен на максимально высокий уровень качества, использующий одну из возможностей DX11 — ComputeShader.
BattleForge: DX11
BattleForge: DX11
BattleForge: DX11
   Хотя AMD использовала Battleforge для рекламы DX11 возможностей Cypress, оба GTX 400 оказались быстрее решений AMD. В то время как GTX 480 сохранил 20-30% преимущество, GTX 470 увеличил свое превосходство над 5850 до 20-25%, даже обогнав 5870. [N15-Тестирование — H.A.W.X.]    Аркадный воздушный экшн от Ubisoft является одной из наименее требовательных игр во всем нашем тестовом наборе. Для последнего поколения графических карт эта игра и вовсе проста. Тем не менее, ее уникальность состоит в том, что это одна из немногих современных игр жанра, которая обладает к тому же инструментом для замеров быстродействия.
H.A.W.X.
H.A.W.X.
H.A.W.X.
   В этой игре лидерство NVIDIA только укрепляется. Преимущество GTX 480 в H.A.W.X. составляет 20-35%, тогда как GTX 470 стабильно опережает 5850 на 7-30%. С многочиповыми конфигурациями ситуация несколько иная, победа NVIDIA уже не столь убедительна. Но, в любом случае, первое место остается за GeForce. [N16-Тестирование — Left 4 Dead]    Движок Valve Source был представлен еще в 2004 году, но, несмотря на почтенный возраст, он продолжает оставаться базой для многих выходящих шедевров. Сегодня

Источник: www.anandtech.com/

подписаться   |   обсудить в ВК   |