Сравнение производительности G80 и GT200 на одинаковых частотах.Из предыдущих частей статьи мы уже поняли, насколько сильно различается архитектура GT200 и G80/G92. Некоторые выводы о превосходстве нового чипа над старым поколением, сделанные нами при анализе, было интересно подтвердить проверкой обеих карт на одинаковых частотах. Для этого помимо самой GTX 280 мы взяли 8800 GTX, установив частоты работы обоих GPU на отметке в 575 МГц. Шейдерные процессоры работали на 1350 МГц, а память — на 900 МГц (1800 МГц эффективных). Графики ниже показывают, насколько увеличилась производительность от добавления вычислительной мощности, расширения шины памяти и всех тех усовершенствований, о которых мы говорили: Согласно нашим предположениям, минимальный прирост мы могли увидеть на уровне 25% в тех случаях, когда для G80 узким местом являлось текстурирование, а вычислительная мощь не требовалась. В реальных приложениях, конечно, такой рост производительности выглядит маловероятным, и эффект от большего числа шейдерных процессоров должен приблизить превосходство GT200 над G80 к отметке в 87,5%. Как видно, наши предположения оправдались, и рост скорости как раз находится между двумя крайними величинами. Основываясь на полученных результатах можно сказать, что, например, Bioshock задействует максимальное количество вычислительной мощности, тогда как остальные параметры не являлись узким горлышком даже в G80. Crysis же, с другой стороны, показывает, что игре необходимо больше возможностей по всем позициям, а значительное улучшение лишь математического аппарата не приводит к скачкообразному повышению производительности. Приведенные выше данные лишь подтверждают, что производительность при измененном балансе архитектуры будет напрямую зависеть от используемых приложения. Там, где основные потребности состоят в математической мощности, GT200 будет получать самую заметную прибавку относительно решений предыдущих поколений. Там же, где текстурирование играет роль поважнее — потоковые процессоры чипа будет просто простаивать без дела. [N9-Управление питанием и энергосбережение.]Сегодня многие производители серьезно озабочены проблемами энергопотребления. Если раньше зачастую о возможности снижения частот в простое и хорошем соотношении производительности на Вт говорили просто как о приятных дополнениях, сегодня без этого не обойтись. NVIDIA, похоже, забыла об этом, так как несколько серий подряд в ее картах не было даже разделения частот на 2D/3D, однако с GT200 все встало на должные места — компания заявляет, что в состоянии простоя карта потребляет всего лишь 25 Вт. Примененные для этого технологии отнюдь не являются революционными. Применено самое обычное динамическое управление частотами и напряжениями. В GPU находится специальный датчик, отслеживающий степень загруженности видеопроцессора. В различных условиях работы (Hybrid Power — полное отключение видеокарты и переход на встроенную графику, 2D режим/простой, проигрывание HD видео, 3D графика с полной загрузкой, наконец) он выбирает соответствующие параметры. Переключения между режимами занимает считанные миллисекунды. В целом технология очень похожа на AMD PowerPlay. Конечно, с кристаллом огромных размеров и большим количеством набортной видеопамяти просто невозможно всегда удерживать энергопотребление в приемлемых рамках — когда карта использует все возможности, напряжения и частоты поднимаются, как поднимается и затрачиваемая энергетическая мощность, конвертируемая в десятки FPS и сотни Вт выделяемого тепла. Даже сложно сказать, что выглядит более впечатляющим — огромный горячий монстр в работе, или он же в спящем состоянии. Стоит отметить, что для режима проигрывания HD видео NVIDIA выделила отдельный режим работы с энергопотреблением с в 32 Вт. Приятно, что даже таким мелочам уделяется внимание. Конечно, если говорить о потребляемой мощности в целом, карту уровня GTX 280 можно сравнить с дорогой спортивной машиной, покупатели которой не задумываются о потреблении топлива, но ведь согласитесь, что всегда приятнее пусть даже в 2D режиме не тратить впустую десятки Вт энергии. Общее энергопотребление системы в режиме покоя находится на уровне куда более слабых карт. Но, как уже было сказано выше, стоит дать карте работать в полную силу, как тут же потребляемая мощность вырастает в разы. [N10-Практические исследования.]Мы использовали следующую тестовую конфигурацию:
Наконец-то Crysis стал несколько более играбельным на одиночных видеокартах, однако вполне предсказуемо, что GeForce GTX 280 в данном тесте фактически проигрывает 9800 GX2. Благодаря двум GPU, GX2 обладает в совокупности большей мощностью, и хотя пропускная способность памяти в два раза меньше, в конечном счете, GX2 выигрывает противостояние с конкурентом из своего же стана. При этом не следует забывать, что, во-первых, двухчиповая видеокарта стоит как минимум на $150 дешевле нового GTX 280, ну а, во-вторых, GX2 это все же SLI решение, и поэтому очень сильно зависит от качества оптимизации драйверов. GTX 260 выступает достаточно хорошо, превосходя в скорости Radeon HD 3870 X2. В ценовом диапазоне GTX 260 противостояние уже намного ожесточеннее. В еще одном популярном шутере мы видим полное повторение ситуации – GX2 продолжает опережать GTX 280, тогда когда GTX 260 впереди 3870 X2. Опять же сказывается прекрасная отлаженность SLI для CoD 4 – даже пара куда более дешевых 8800 GT будет вполне в состоянии соперничать с GTX 260 и даже дорогим GTX 280, как это успешно делает 9800 GX2. В этом тесте GTX 280 наконец-то берет реванш, опережая GX2. Похоже, игра более требовательна к пропускной способности памяти, и тут сказывается узкая 256-битная шина G92. Проблемы AMD с работой в Crossfire никуда не делись, и 3870 X2 недалеко уходит от одночиповой карты. В тоже время GTX 260 сравнивается с SLI парой 8800 GT. В Assassin’s Creed все встает на привычные нам места – впереди всех 9800 GX2, опережающая GTX 280. Assassin’s Creed прекрасно масштабируется при использовании нескольких графических чипов в системе и благодаря этому даже пара 8800 GT в состоянии опередить новые GeForce GTX. Такой результат можно объяснить тем, что хотя пара G92 обладает меньшим количеством SP, по мощности в SLI она превосходит один GT200 – 112 потоковых процессоров (224) работают на частоте в 1,5 ГГц, тогда как 240 SP GTX 280 – лишь на 1,3 ГГц. Урезанная версия GT200 в свою очередь снова впереди Radeon HD 3870 X2, и, что естественно, проигрывает паре 8800 GT. Результат, показанный GX2 и GTX 280 в использованном режиме с четырехкратным антиалиасингом и шестнадцатикратной анизотропией очень близок, однако GT200 пусть на один FPS, но опережает 9800. В остальных разрешениях расклад уже иной, но именно диаграммы для 2560 x 1600 показательны – именно здесь раскрывается 512-битная шина GT200, тогда как ПСП GX2 уже не хватает. Не следует забывать о том, что хотя GX2 и основана на паре G92, их разрядности шины нельзя складывать, как и нельзя складывать объем памяти. Так делают лишь маркетологи, в реальности каждый чип довольствуется 512 Мб и 256-битным интерфейсом. GTX 260 выступает на уровне с парой 8800 GT и 3870 X2. При этом следует помнить, что одиночная карта нового поколения дороже, и, если вы являетесь обладателем материнской платы с поддержкой SLI и видеокарты класса 8800 GT, разумнее будет докупить еще одну такую видеокарту, чем тратиться на смену имеющейся. Ведьмак оставляет первенство у GTX 280, а вот GTX 260 показывает результат хуже, чем двухчиповая 3870 или SLI 8800 GT. Наш последний бенчмарк становится безрадостным для новой линейки GeForce GTX – обе карты показывают результат хуже, чем пара 9800 GX2 и даже пара 8800 GT в SLI. Конечно, они являются мощнейшими одночиповыми картами NVIDIA, однако это не лучшее предложение в high-end сегменте. Некоторые пользователи не довольствуются номинальными режимами работы графических карт, поэтому многие производители за небольшую доплату предлагают немного разогнанные версии с повышенными частотами. Одной из таких карт стала EVGA GeForce GTX 280 FTW Edition. Частота GPU платы повышена до 670 МГц, что составляет увеличение на 11,3%. Шейдерный домен работает на 1458 МГц – 12,5% превосходства, а память разогнана на 9,8% - эффективная частота составляет 2430 МГц. Мы провели несколько быстрых тестов в высоких разрешениях для того, чтобы увидеть, насколько пропорционально возрастет производительность в играх от увеличения тактовых частот. В среднем, как и ожидалось, увеличение производительности составило от 8 до 12%. Crysis в нашем тестировании является одним из нескольких бенчмарков, в которых GTX 280 уступила 9800 GX2. К сожалению, даже заводской разгон не смог исправить ситуацию: Oblivion же в высоких разрешениях и “тяжелых” режимах уже показал, что лимитирующем фактором для двухчиповой 9800 стала пропускная способность памяти, в дополнительном тестировании это только подтвердилось – с повышенными частотами GTX 280 только увеличивает свое превосходство: Похоже, GeForce GTX 280 и 260 отлично масштабируются при разгоне, так что энтузиасты, которые смогут выжать максимум из своих карт, получат очень достойную прибавку в производительности. Нельзя не отметив, что выпустив NVIDIA свои карты по изначально более тонкому техпроцессу с поднятыми частотами, общий расклад по всем тестам относительно GX2 был бы иным... [N19-Тесты эффективности SLI: GTX 280 SLI против 9800 GX2 Quad SLI.]Достаточно интересным является сравнение эффективности SLI – да, 9800 GX2 в большинстве тестов превосходит одиночную GeForce GTX 280. При этом GX2 уже сама по себе, как мы упоминали выше, является SLI решением. Насколько эффективной окажется связка из двух GTX 280 против Quad SLI из 9800 GX2? Ведь хорошо известно, что если прирост от добавления в систему второй видеокарты в большинстве случаев оправдывает ее стоимость, то системы класса Quad SLI это уже решения для энтузиастов. Кстати, не забывайте и о том, что тестируемые карты имею очень высокий уровень энергопотребления – NVIDIA рекомендует БП на 1200 Вт для пары GTX 280. Остается только догадываться, какие мощности будут потреблять карты, объединенные в 3-way SLI. Обратимся к результатам тестирования:
Crysis, Assassin’s Creed, The Witcher, Oblivion – все эти игры показывают несуразность решения Quad SLI, производительность либо не возрастает, либо вообще снижается при добавлении второй GeForce 9800 GX2. Напротив, две GTX 280 показывают себя очень неплохо. Crysis является наглядным примером такого поведения. Из-за посредственной масштабируемости Quad SLI, пара GTX 280 оказывается вполне способной противостоять четырем чипам G92, хотя одиночные карты вели себя по-другому. Но не везде все так грустно, и когда Quad SLI раскрывается в полную силу, производительности двух GTX 280 уже недостаточно, чтобы победить такую связку. На нижеследующих тестах вы найдете подтверждения наших слов о том, что многочиповые решения SLI не лишены недостатков. Логично сделать вывод, что если рекомендовать к покупке одиночную GTX 280 проблематично, то если рассматривать SLI решения пара таких видеокарт будет смотреться лучше Quad SLI на базе GeForce 9800 GX2. [N20-Folding@home – теперь и на видеокартах NVIDIA.]Все большее и большее распространение сегодня получают проекты распределенных вычислений, и F@h является одним из них. Основной целью является компьютерная симуляция протеинового фолдинга, т.е. свертывания/развертывания молекул белка. Анализ результатов такого моделирования помогает ученым понять причины возникновения болезней, причиной которых служат дефектные белки. Это и болезнь Альцгеймера, Паркинсона, склероз и диабет... Однако такие расчеты очень ресурсоемки и требуют огромных математических ресурсов. Как вариант решения было предложено разбивать одну большую задачу на множество мелких, передавая их энтузиастам для расчетов, а потом собирать результаты воедино. Изначально клиентские программы поддерживали расчеты в F@h только силами центральных процессоров, потом была добавлена поддержка видеокарт AMD, свой клиент получила даже PlayStation 3 на базе мощного Cell’а. NVIDIA некоторое время оставалась в стороне, но недавно было объявлено, что и на платформе CUDA реализован вариант Folding’а для семейств GeForce, основанных на G80 и выше. Конечно, GT200 поддерживается в полной мере, и именно он со своей огромной вычислительной мощью в программе F@h становится одним из самых производительных аппаратных решений для расчетов фолдинга. Хотя видеокарты и процессоры в Folding@home используются для несколько различных целей, напрямую можно сравнить время жизни белка, которое синтезируется за день вычислений. Если для четырехядерного процессора нормой является несколько десятков нс, то GT200 на порядок превосходит эту величину, рассчитывая сотни нс в день. По прогнозам NVIDIA конкретные цифры должны были составлять порядка 500-600 нс, в своих же тестах мы видел даже лучшие результаты – от 600 до 850 нс. Для сравнения, показатели одиночного Radeon HD 3870 держатся на уровне 180 нс за день, а у PS 3 и того меньше – 100 нс. В своих презентациях NVIDIA говорит о том, что было продано порядка 70 миллионов видеокарт, которые могут работать в Folding@home, притом средняя мощность каждой составляет 100 гигафлопс. Для получения огромной цифры в 70 петафлоп достаточно, чтобы лишь 1% энтузиастов захотел задействовать эти возможности. Сколько же вычислений из общей массы будет приходиться на видеокарты NVIDIA, покажет лишь время. Аппаратная поддержка кодирования H.264.Многие годы ATI и NVIDIA обещали пользователям золотые горы с возможностью кодирования видео силами видеокарт, однако ни разу эти обещания в полной мере не исполнялись. Похоже, что с GT200 приходит конец и невыполненным обещаниям. Во всяком случае, пока со стороны NVIDIA. Так, наконец-то появилась первая реальная утилита, задействующая аппаратные возможности GPU для кодирования видео от Elemental Technologies с достаточно смешным названием – BadaBOOM Media Converter. На данный момент программа работает только с GeForce GTX 280 и 260, однако это лишь бета-версия, и финальный релиз согласно обещаниям разработчиков обретет поддержку G80 и G92. К сожалению, так как BadaBOOM лишен поддержки кодирования видео средствами CPU, полностью объективное сравнение провести нельзя, и придется использовать дополнительные программы, к тому же во время кодирования видео процессор так же выполняет некоторую работу – загрузка находится на уровне 25-30%. Тем не менее, результаты, показанные GTX 280 очень интересны. Для сравнения со скоростью кодирования CPU мы воспользовались бесплатной программой x264 encoder. Результаты получились следующими: В самом худшем случае превосходство GTX 280 над Core 2 Extreme QX9770 составило 40%, тогда как в лучшем детище NVIDIA оказалось почти в 10 раз быстрее. Какие результаты были бы получены при абсолютно корректном сравнении, мы сказать затрудняемся, но даже если они близки к минимальному превосходству, полученному нами, это огромный прогресс в деле ускорения кодирования видео силами GPU. [N21-Разогнанный GT200 с 4 Гб GDDR3 на борту: Tesla 10P.]Завершая наш обзор GT200 нельзя не отметить и инициативу NVIDIA под кодовым названием Tesla. Если необходимо произвести специализированные вычисления именно средствами GPU, а мощности даже такого производительного решения, как GTX 280, недостаточно, NVIDIA есть, что предложить. Вместе с анонсом домашних карт серии GeForce, NVIDIA представила и профессиональные решения нового поколения Tesla – C1060 Computing Processor. Плата основана на профессиональной модификации GT200, называемой T10P (конечно, кроме маркировки чип ничем не отличается), имеет повышенную до 1,5 ГГц частоту шейдерного домена и целых 4 Гб набортной памяти. Какие-либо порты ввода-вывода отсутствуют. Может вызвать недоумение, что серверная версия работает на более высоких тактовых частотах, однако объяснение тут простое – в датацентрах далеко не так важен шум, который производит турбина, а температура в охлаждаемых помещениях и серверных стойках ниже, чем в тесных корпусах домашних пользователей. Наличие же невероятного объема памяти необходимо исключительно для научных задач, на которые и нацелено устройство. Предполагается возможность объединения четырех карт C1060 в одном сервере стандартной высоты 1U, тем самым становятся доступны суммарные 960 потоковых процессоров и 16 Гб памяти. В качестве связующих цепей используется стандартная PCI-Express. Основное предназначение такого сервера – обсчитывать задачи, написанные для платформы CUDA, а с учетом наличия общих 120 64-битных FPU, соответствующих стандарту IEEE 754r, получаться это должно очень хорошо. Хотя мы и не обладаем инструментами для проверки производительности такой машины, по данным NVIDIA один GT200 при выполнении операция удвоенной точности с числами с плавающей запятой может быть сравним с 8-ми ядерным Xeon. Тогда сервер S1070 из четырех таких чипов находится на уровне 32 ядер Xeon, при этом потребляя около 700 Вт. Не стоит даже говорить о том, что операции с обычной точностью выполняются в разы быстрее и могут превосходить сотни обычных CPU. Хотя обычные графические карты несоизмеримо дешевле, стоимость таких серверов не выглядит завышенной по сравнению с классическими решениями с учетом результирующей производительности. Да, они пригодны только для специализированной платформы CUDA, однако ресурсов NVIDIA вполне достаточно, чтобы сделать из узконаправленной платформы индустриальный стандарт. К тому же CUDA поддерживают и десятки миллионов проданных карт потребительского сегмента, что дает разработчикам возможность использовать их ресурсы для отладки приложений и последующего принятия решений о полноценном переходе на CUDA, а пользователям – огромную дополнительную производительность в сотни гигафлопс (в зависимости от поколения GPU), которая может быть затрачена отнюдь не только на визуализацию графики в играх. Сегодня уже доступна CUDA-версия Folding@home, в скором времени появится и релиз кодировщика видео от Elemental Technologies. С учетом того, насколько эффективно они задействую возможности GPU, только представьте, насколько повысится эффективность работы профессиональных программ вроде ProTools или Premier, когда разработчики “научат” их работать под CUDA. Конечно, на сегодня CUDA все еще очень специализирована и зависит только от одного вендора – NVIDIA. Хотя калифорнийцы и предоставили все возможности, например, AMD, принять участие в программе, последняя пока от этого отказалась. Конечно, какой резон компании, у которой и так не очень радужно финансовое положение, вкладывать деньги в пока еще сырую технологию, да еще и Intel не дремлет со своим x86 Larrabee... Однако все может измениться, если NVIDIA приложит усилия чтобы сертифицировать CUDA в рамках ISO или ANSI, и тогда, вполне возможно, будущее решится в пользу этой, без всяких сомнений, перспективной технологии. [N22-Выводы и финальные слова.]Не может возникнуть никаких сомнений в том, что NVIDIA спроектировала очень и очень впечатляющий чип. C огромным числом транзисторов в GT200 вложили невероятный объем вычислительной мощности. Звучит невероятно, но через 18 месяцев можно ожидать от NVIDIA очередного удвоение количества транзисторов, и что это получится за монстр даже сложно представить. Такими темпами мы совсем скоро переступим порог фотореалистичной графики, и именно такие сложные и производительные GPU, как GT200 в этом помогут. Достаточно интересно и то, что AMD публично заявила о своем решении идти совершенно в другом направлении. Вместо все большего усложнения единого чипа, на проектирование которого инженеры ежегодно тратят астрономическое количество, как денег, так и времени, новые топ-решения AMD вообще откажутся от одночиповой компоновки. Уже привычный нам Radeon HD 3870 X2 построен по такой схеме, готовящийся к августовскому анонсу 4870 X2, известный под кодовым названием R700, также будет состоять из пары RV770. К сожалению мультичиповые технологии, что показало и наше сегодняшнее тестирование, все еще далеки от совершенства, но AMD считает целесообразным перевести одночиповые решения из топового в более низкие сегменты, где соотношение производительности на потраченные деньги намного важнее абсолютного превосходства в скорости. Еще один аспект, который стоит учитывать оценивая GT200 — Intel Larrabee, выход которого намечен на 2009 год. Ведь именно с этим чипом, который откроет Intel дорогу на рынок графических ускорителей, будет соревноваться преемник GT200, который скорее всего не получит каких-либо серьезных архитектурных изменений, а будет просто произведен по более тонкому техпроцессу и обладать повышенными тактовыми частотами. GT200 своим появлением уже начал стирать границу между CPU и GPU, Larrabee же только поспособствует ситуации. Интересно то, что NVIDIA идет со своей привычной стороны графических ускорителей к процессорам общего назначения, Intel же — с точностью наоборот. Чей подход окажется выгоднее — объединение множества x86-совместимых ядер для обсчета графики, или унифицированная архитектура NVIDIA нам только предстоит выяснить. Пока же мы знаем только то, что Larrabee будет производиться по 45 нм техпроцессу, а уровень производительности, которому решение Intel должно будет соответствовать, заставит корпорацию выпустить свой первый чип, содержащий 1-2 млрд. транзисторов (даже Nehalem с интегрированным контроллером памяти обошелся 781 миллионом). Выпустив GT200, NVIDIA помимо очередного скачка в производительности одночиповых карт, ступила на новую для себя землю, создав настолько мощный микропроцессор, что он может быть опасным даже для Intel. Если бы NVIDIA удалось вместе с изначальным релизом GT200 заручиться поддержкой многих разработчиков программ, чтобы те максимально использовали возможности современных GPU, Intel пришлось вступить в противостояние с NVIDIA даже до выхода Larrabee. Однако все это касается будущего, хотя и ближайшего. Сегодня же стоит главный вопрос — а стоит ли вообще покупать одну из карт на базе GT200? И тут уже далеко не все так однозначно. Как бы ни была высока производительность GeForce GTX 280, а карта с одним чипом нового поколения почти что догоняет старую двухчиповую GX2, новинка элементарно стоит слишком дорого для той производительности, которую она показывает. Да, GTX 280 — самая мощная одночиповая карта NVIDIA, но дешевле продается карта самой же NVIDIA, GeForce 9800 GX2, которая по факту оказывается быстрее новинки. Конечно, от качества реализации поддержки SLI драйвером и конкретной игрой очень многое зависит, и могут возникнуть ситуации, когда SLI работает с огрехами, но если два года назад такие моменты возникали часто, то сейчас вероятность их появления уже стремится к нулю. Нельзя еще раз не отметить, что при 55 нм производстве с более низкой себестоимостью изготовления и конечными ценами, при повышенных частотах все могло бы быть совершенно иначе. Даже рассматривая производительность многочиповых конфигураций (в сравнении 2-way SLI на GT200 и Quad SLI на G92) в которых пара GX2 действительно часто имеют проблемы, GeForce GTX 280 не окупает лишние средства, вложенные в так |
Источник: www.anandtech.com/