Рассматривая тематику архитектуры гетерогенных систем (HSA – Heterogeneous System Architecture), технологии общей памяти (hUMA – Heterogeneous Unified Memory Architecture) и гетерогенной очереди (hQ – Heterogeneous Queuing), штатный эксперт AnandTech Рауль Гарг (Rahul Garg) обсуждает рабочие моменты, связанные с реализацией, смысловым наполнением и применением данных концепций.

   Графическая архитектура заточена под решение хорошо распараллеленных задач, к числу которых относятся, например, операции с матрицами, которые обычно «дружат» с GPU. Однако не каждая задача такого рода подходит для решения средствами GPU. В современных условиях использование GPU в большинстве задач требует копирования данных между CPU и GPU. Для дискретной видеокарты типична картина, когда данные по шине PCIe копируются из системной памяти в видеопамять, там происходит обсчёт, по завершении которого готовый результат обратно пересылается по шине PCIe. Например, прибавление матрицы является хорошо распараллеливаемой операцией, выполнение которой достаточно подробно описано и задокументировано как для CPU, так и для GPU, однако в зависимости от структуры оставшейся части приложения выполнение этой задачи средствами GPU может оказаться нецелесообразным, если копирование данных по PCIe вредит быстродействию приложения в целом. В приведённом примере передача данных как таковая зачастую обходится дороже, чем выполнение операции сложения для матрицы средствами CPU. Необходимость копирования данных между CPU и GPU также усложняет процесс написания программного обеспечения.

Необходимость скоростной передачи данных в современных условиях обусловлена двумя причинами. Во-первых, обсчёт средствами GPU сегодня обычно предполагает наличие дискретной графики, подключённой к компьютеру по шине PCIe. Дискретные видеоадаптеры имеют собственную память, объём которой обычно варьируется в диапазоне 1-4 Гб, но может достигать и 12 Гб в некоторых современных графических ускорителях для серверов. Видеопамять (например, GDDR5) может обладать высокой пропускной способностью, позволяющей скрыть задержки в промежутке между переключениями контекста потока, поэтому её иногда называют чашей Грааля в вычислениях, требующих активного обращения к памяти. В такой конфигурации, даже с учётом допущения о возможности GPU осуществлять чтение/запись данных при работе с системной памятью по шине PCIe, зачастую более эффективно единоразово пробросить все необходимые данные в видеопамять GPU, где вычислительные ядра будут читать/записывать данные с обращением к родной графической памяти в противовес к обращению к системной памяти по шине PCIe в ущерб быстродействию. Во-вторых, CPU и GPU имеют дело с разными адресными пространствами, которые до появления HSA они «не разумели». Даже встроенная графика, использующая ту же физическую память, лишена механизма, необходимого для работы с общим адресным пространством. Технология HSA призвана решить эту проблему.

Арсенал средств, позволяющих избежать накладных расходов при передаче данных, довольно обширен. Например, можно попытаться передать данные в параллельном режиме, попутно возложив часть вычислений на плечи CPU и обеспечив частичное совпадение во времени вычислительных процессов и процессов передачи данных. В ряде случаев можно обойтись без CPU – например, пробросив данные в виде файлов с SSD, оснащённого интерфейсом PCIe, напрямую в GPU посредством технологии GPUDirect. Однако такие методы не всегда применимы и требуют от программиста значительных усилий. В конечном счёте, наличие по-настоящему общей памяти для CPU и GPU позволит решить множество проблем, хотя дискретная графика с быстрой видеопамятью отлично подходит для множества других задач, несмотря на проблему накладных расходов при копировании данных.

Общая память: как это было до HSA

   Термины «совместно используемая память» (shared memory), или «общая память» (unified memory), довольно свободно используются в отрасли и могут иметь разные значения в зависимости от контекста. Рассмотрим текущую ситуацию с учётом специфики поставщиков платформ.

   NVIDIA впервые упоминает термин «общая память» (unified memory) в связи с технологией CUDA. Однако для видеочипов NVIDIA текущего поколения реализация данной концепции, предполагающая задействование программной части в качестве основы, является скорее решением для облегчения труда программистов, скрывающимся за спиной API для простоты использования. Перенос данных всё так же идёт в ущерб производительности, и инструментарий NVIDIA просто скрывает некоторые сложности, связанные с работой ПО. Концепцию по-настоящему общей памяти NVIDIA, как ожидается, предложит в продуктах с архитектурой Maxwell, которая, вероятно, увидит свет в преемнике чипа Tegra K1 в 2015-2016 гг.

   AMD хвалится «нулевым копированием» в чипах Llano и Trinity в OpenCL-программах, хотя в основном это лишь обеспечивает возможность в ограниченном числе случаев быстро скопировать данные с CPU в GPU и способность вновь считать данные с GPU. На практике функция нулевого копирования имеет ограниченное применение вследствие ряда факторов, включая «дороговизну» этапа инициализации. В большинстве случаев в условиях реальной эксплуатации придётся копировать данные между CPU и GPU.

   Сегодня Intel предлагает некоторую поддержку разделяемой памяти в графике 7-го поколения в составе процессоров Ivy Bridge и Haswell, выраженную посредством OpenCL и DirectX. В плане перспективы совместного доступа к памяти предложенный Intel механизм интеграции CPU с GPU впечатляет больше, чем таковой в APU Llano/Trinity, но его задействование по-прежнему ограничено несколькими простыми случаями из-за невозможности совместного доступа к памяти с использованием указателей адресов, вызова страниц по запросу и обеспечения по-настоящему совместного использования памяти CPU и GPU, предлагаемых в рамках концепции HSA, что позволяет говорить о значительном превосходстве AMD в этом вопросе.

   Другие компании, такие как ARM, Imagination Technologies, Samsung и Qualcomm, также входят в состав консорциума HSA Foundation и, вероятно, работают над созданием аналогичных решений. Графические ядра Mali T600 и T700 демонстрируют некоторую способность совместного использования GPU- и CPU-компонентами графической буферной памяти посредством OpenCL 1.1. Однако есть мнение, что в ближайшем будущем лишь AMD сможет обеспечить полный спектр возможностей HSA. По состоянию на сегодняшний день, реализованная в чипах Kaveri модель HSA – самый прогрессивный пример тесного взаимодействия CPU и GPU, являющийся наиболее полным решением такого рода.

HSA и hUMA

А теперь о том, как функционал общей памяти реализован в рамках HSA. Основные преимущества от единой памяти в рамках HSA сводятся к адресуемому пространству памяти. Снижение платы за возможность доступа CPU и GPU к одним и тем же данным позволяет добиться повышения эффективности решения вычислительных задач или разгрузки вычислительных ресурсов, не беспокоясь о цене такой операции.

    Отказ от копирования данных от CPU к GPU и обратно: теперь GPU может осуществлять доступ ко всему адресному пространству CPU без необходимости копирования. Примером является упомянутое выше сложение матриц. Система с поддержкой HSA позволяет избежать копирования входных данных в GPU и копирование результата назад в CPU.

    Доступ к адресному пространству в полном объёме: помимо выигрыша в производительности в результате отказа от копирования данных, GPU также лишается ограничений по объёму встроенной видеопамяти, что обычно имеет место в случае с дискретными видеокартами. Даже топовые ускорители графики сегодня имеют максимум 12 Гб видеопамяти, в то время как CPU выгодно отличается способностью осуществлять доступ к потенциально гораздо большему пространству памяти. Во многих случаях, таких как научное моделирование, это означает способность GPU оперировать намного большими наборами данных без особых усилий со стороны программиста, который в противном случае должен ухитриться втиснуть данные в ограниченное адресное пространство GPU. APU Kaveri позволяют задействовать до 32 Гб памяти DDR3, и в этом случае ограничивающим фактором становится уже потребность рынка в нерегистровых модулях памяти объёмом 16 Гб без ECC. Наличие задержек при работе APU с памятью DRAM означает возможность улучшения ситуации в будущем за счёт использования объёмного кэша L3 либо памяти eDRAM, особенно в сценариях, когда даёт о себе знать не бесконечная пропускная способность памяти либо при загрузке данных с необходимостью предварительного освобождения памяти.

   Адресация общей памяти на аппаратном уровне – значимое нововведение для Kaveri и HSA, которое на данный момент не предлагает ни одна другая система. Приложения выделяют под свои нужды часть памяти в пространстве виртуальной памяти CPU, при этом операционная система ведёт таблицу трансляции (пересчёта) виртуальных адресов в физические. При получении команды на загрузку CPU преобразует виртуальный адрес в физический, и здесь ему на помощь может прийти операционная система. GPU также имеет собственное виртуальное адресное пространство, и раньше GPU ничего не смыслил в адресном пространстве CPU. В системах с общей памятью предыдущего поколения, таких как Ivy Bridge, приложению приходилось просить видеодрайвер составить таблицу соответствия страницам памяти GPU по конкретному диапазону виртуальных адресов CPU. Это работало в случае с простыми структурами, такими как массивы, но не работало для более сложных структур. Инициализация таблицы соответствия страницам GPU сопровождалась дополнительными непроизводственными затратами в ущерб производительности.

HSA позволяет GPU напрямую осуществлять загрузку/сохранение при работе с виртуальным адресным пространством CPU. Таким образом, приложение может напрямую передать центральному процессору указатели, способствуя использованию преимуществ GPU значительно более обширным классом приложений. Например, совместный доступ к связному списку и другим структурам данным, использующим указатели, теперь возможен без ухищрений со стороны приложения. Отсутствие накладных расходов в работе драйвера при совместном доступе к указателям способствует повышению эффективности.

   Такое решение позволяет CPU и GPU осуществлять одновременный доступ к одному и тому же набору данных и его совместную обработку, способствуя реализации программистами рабочих сценариев с высокой загрузкой мощностей и достижению уровня, близкого к рассчитанным AMD 800 GFLOPS и выше для одного Kaveri. При наличии до 12 вычислительных ядер, несмотря на различия в способе использования вычислительных ядер в CPU и GPU и на различия в исполняемых программных ядрах (kernel), все они, по крайней мере, могут осуществлять доступ к одним и тем же данным с нулевыми накладными расходами. Обеспечение совместного использования данных путём устранения барьеров и преодоления препятствий при работе с потоками всё же остаётся в ведении программиста.

    Вызов страниц по запросу. В приведённом выше описании за кадром осталась одна деталь. Пересчёт виртуальных адресов в физические - задача не простая, и страница, содержащая требуемые данные с учётом необходимости их нахождения в физической, т.е. оперативной, памяти, может фактически отсутствовать в оперативной памяти, предполагая, таким образом, необходимость загрузки этой страницы, скажем, с диска, что требует вмешательства операционной системы. Это называется вызов страниц по запросу (demand-driven paging). До выхода Kaveri графическое ядро было лишено возможности подкачки страниц из виртуальной памяти по запросу. Напротив, приложению приходилось заранее знать диапазон адресов, к которым осуществляется доступ, и привязывать его к объекту данных, находящемуся в видеопамяти; затем видеодрайвер блокировал соответствующие страницы в оперативной памяти. Однако зачастую бывает так, что программист, пишущий приложение, не знает заранее схему доступа к данным. Использующие указатели структуры данных, такие как связанные списки, где узловые структуры могут содержать указание на любое место в памяти, представляли сложность для программиста. Вызов страниц по запросу вместе с общей адресацией позволяет осуществлять совместный доступ CPU и GPU к произвольным структурам данным, значительно расширяя список приложений, получающих возможность ускоренного выполнения средствами GPU.

   Тесное взаимодействие CPU и GPU. Ранее обсуждалась возможность выполнения GPU-частью операций чтения/записи с обращением к адресному пространству CPU без необходимости копировать данные. Однако это ещё не вся история, т.к. порой CPU и GPU хотят объединить усилия для выполнения той или иной задачи. В ряде случаев решающее значение имеет взаимная способность CPU и GPU видеть записываемые результаты вычислений – непростая задача в силу ряда проблем, включая работу кэш-памяти. Модель памяти HSA обеспечивает дополнительную связность в работе CPU и GPU посредством инструкций, использующих временное блокирование доступа к определённой части памяти со стороны других исполнительных устройств. Однако, поскольку такая связность не проходит даром для производительности, HSA предоставляет в распоряжение программиста механизмы, позволяющие чётко обозначить отсутствие необходимости совместной работы CPU и GPU. Помимо инструкций, предполагающих обращение к связной памяти, HSA допускает возможность использования атомарных инструкций, позволяющих CPU и GPU осуществлять атомарные запись/чтение по конкретному месту в памяти. Эти атомарные действия в рамках данной платформы рассчитаны на функционирование как обычные атомарные действия, что предполагает выполнение операции по схеме «чтение-изменение-запись» в рамках одной инструкции без создания специфичных препятствий/блокирований в отношении элемента данных или набора данных.

HSAIL

Стремление HSA Foundation обеспечить работу одних и тех же приложений на базе гетерогенных вычислений в среде всех систем с поддержкой HSA вызвало необходимость стандартизации программного интерфейса, поддерживаемого любой HSA-системой. HSA Foundation хотела создать низкоуровневый API для железа, которое может служить целевой платформой для компиляторов в разных языках программирования. Обычно компиляторы ориентируются на поддерживаемый тем или иным процессором набор команд, однако в условиях нацеленности концепции HSA на разнофункциональное аппаратное обеспечение (центральный процессор, графический процессор, специализированный сопроцессор) истинная стандартизация наборов команд не представляется возможной. В противоположность этому HSA Foundation подвергла стандартизации псевдонабор команд, получивший название HSAIL (HSA Intermediate Language). Идея такова: компилятор языков высокого уровня, таких как OpenCL, C++ AMP или Java, генерирует HSAIL-код, после чего HSA-драйвер посредством компиляции «на лету» генерирует собственно машинный код. Идея псевдонабора команд не нова: ранее она уже использовалась в рамках портируемых решений, таких как байт-код Java и байт-код Direct3D. HSAIL является достаточно низкоуровневым решением, чтобы «обнажить» возможности железа с учётом множества детальных аспектов; данная платформа тщательно продумана с прицелом на очень быстрое преобразование HSAIL в машинный код.

Конкурентом HSAIL является PTX от Nvidia, преследующий схожие с HSAIL цели. Хотя PTX предназначен только для системных решений Nvidia, ряд научно-исследовательских проектов использует PTX для специфических расчётов, например, тех, что ориентированы на х86 процессоры. HSAIL можно будет портировать на любые GPU, CPU и DSP (сопроцессор) с поддержкой HSA API.

Гетерогенная очередь (hQ)

   Для неспециалиста термин «гетерогенная очередь» звучит весьма туманно. В действительности речь идёт о части кода, использующей в процессе исполнения вызов другой функции, требующей обращения к другому устройству. Рассмотрим пример с программой, предполагающей выполнение математических расчётов, когда части исполняемого средствами GPU кода требуется помощь CPU. То, как в этом случае система оперирует вычислительными потоками, называется «гетерогенная очередь», и в контексте данной концепции HSA предлагает 3 новые функции в APU Kaveri и других HSA-системах в сравнении с APU предыдущих поколений.

    Очерёдность исполнения в пользовательском режиме. В большинстве API с поддержкой GPGPU за формирование очереди задач/программных ядер на исполнение средствами GPU отвечает центральный процессор, при этом построение очередности осуществляется средствами видеодрайвера и требует системных вызовов. Однако HSA позволяет формировать очередь в пользовательском режиме с возможностью сокращения накладных расходов, связанных с отправкой задач. Меньшие задержки с отправкой способствуют эффективному управлению очередности выполнения средствами GPU даже сравнительно небольших задач.

   Динамический параллелизм. Стандартно формирование очерёдности задач для GPU ложится на плечи CPU, при этом GPU не может формировать очередь сам для себя. С выходом видеопроцессора GK110 в основе графической карты GeForce Titan компания Nvidia реализовала возможность вызова одними программными ядрами GPU других программных ядер GPU, использовав определение «динамический параллелизм». Это же явление наблюдается в случае HSA-систем.

Функции обратного вызова CPU. С выходом APU Kaveri в очередь могут добавляться функции обратного вызова, рассчитанные на выполнение средствами как CPU, так и GPU, причем GPU теперь сможет не только сам формировать очередь задач, но и обращаться к ресурсам CPU для выполнения части задания. Таких возможностей у конкурирующих решений нет. Обратные вызовы с обращением к CPU во многих случаях могут оказаться весьма полезны, например, при необходимости вызова системных API, не способных выполняться средствами GPU, при использовании обычного CPU-кода, ещё не портированного для выполнения на GPU, или в случае с кодом, выполнение которого посредством GPU представляется нецелесообразным в силу повышенной сложности.

Инструменты программирования

Многообразие языков программирования определило универсальный подход AMD к созданию инструментов программирования.

   Рассмотрим дорожную карту AMD в области программного обеспечения в части разработки инструментов программирования для HSA:

    Основной стек HSA. Доступность основного стека исполнения HSA с поддержкой HSAIL и среды выполнения HSA для Kaveri ожидается начиная со 2-го квартала 2014 года.

    LLVM. HSAIL - всего лишь часть мозаики. Тогда как многих программистов, пишущих компиляторы, вполне устраивает возможность генерации HSAIL-кода непосредственно компилятором, сегодня многие компиляторы создаются на базе таких инструментов, как LLVM (Low Level Virtual Machine). AMD также предоставит в рамках open-source концепции (продукт с открытым исходным кодом) генератор HSAIL-кода для LLVM, позволяющий разработчикам компиляторов использовать LLVM для генерации HSAIL с минимальными трудозатратами. Таким образом, однажды в будущем мы, в конечном счёте, сможем увидеть компиляторы для таких языков программирования, как C++, Python и Julia, ориентированные на HSA-системы. Работа в Clang с поддержкой OpenCL и с генератором HSAIL на базе LLVM упростит работу по встраиванию OpenCL-драйверов для систем на базе HSA. Говоря о конкурентах, отметим, что NVIDIA в PTX уже предлагает решения уровня «вычислительный узел» (backend) для LLVM.

   OpenCL. На момент релиза APU Kaveri поддерживают OpenCL в версии 1.2. По мнению эксперта с AnandTech, драйвера, доступные на момент выпуска, не обеспечивают функционал стека исполнения HSA, а функционал OpenCL строится на базе обычного графического стека на основе AMDIL. Во 2-м квартале 2014 года должен выйти драйвер в версии preview с поддержкой OpenCL 1.2, реализующий некоторые расширения единой памяти на основе OpenCL 2.0 на базе инфраструктуры HSA. Выпуск драйвера с поддержкой OpenCL 2.0, созданного на базе инфраструктуры HSA, ожидается в 1-м квартале 2015 года.

C++ AMP. Инициатором проекта C++ AMP является корпорация Microsoft, и стек Microsoft строится на базе DirectCompute, который, строго говоря, не позволяет раскрыться потенциалу объединённой памяти, и даже Direct3D 11.2 делает лишь первые шаги в этом направлении. Реализация созданной Microsoft библиотеки C++ AMP нацелена на DirectCompute, что означает отсутствие возможности в полном объёме использовать преимущества функционала систем с поддержкой HSA. Между тем, C++ AMP является открытой спецификацией, допускающей возможность использования программистами других IT-компаний, пишущими компиляторы на базе C++ AMP. Multicoreware, член ассоциации HSA Foundation, совместно с AMD работает над созданием использующего C++ AMP компилятора, способного генерировать HSAIL-код для платформ с поддержкой HSA, а также над созданием промежуточного представления SPIR (Standard Portable Intermediate Representation) на базе OpenCL для других платформ, таких как платформы Intel.

Проект "Sumatra" и API Aparapi. В арсенале AMD уже имеется API, под названием Aparapi, компилирующий аннотированный Java-код для OpenCL. AMD обновит API Aparapi в этом году на предмет использования преимуществ HSA в Java 8. Кроме того, корпорация Oracle, владелец Java, также объявила о планах следования в направлении HSA посредством генерации HSAIL из байт-кода Java в своей виртуальной машине HotSpot VM (данная возможность, как ожидается, появится в Java 9 в 2015 году). Интересно будет узнать, сможет ли IBM, объявившая о партнёрстве с NVIDIA, также обеспечить поддержку HSA на уровне вычислительного узла в своей виртуальной машине Java.

HSA: Заключение

В целом на данный момент архитектура гетерогенных систем (HSA) значительно расширяет возможности в сравнении с базовым функционалом вычислений общего назначения (GPGPU) в платформах AMD. Концепция общей памяти в рамках HSA – сулящий великолепные перспективы шаг вперёд, предлагающий чёткий отказ от практики копирования данных, позволяющий GPU использовать адресацию обширных пространств памяти и реализующий совместный доступ CPU и GPU к сложным структурам данных. Способность GPU самостоятельно формировать очередь программных ядер (kernel) для выполнения своими силами и даже оперировать очередью обратных вызовов CPU тоже заслуживает всяческих похвал. Схема тесного взаимодействия CPU и GPU в рамках HSA определённо ставит AMD на голову выше конкурентов, потенциально позволяя в будущем ещё больше уровнять в правах CPU и GPU. Как программист, вплотную работающий с компиляторами, эксперт с AnandTech считает, что в плане программирования HSA-системы облегчат жизнь тем, кто занят написанием и компиляторов, и приложений, а в долгосрочной перспективе HSA-системы потенциально могут способствовать усилению акцента гетерогенных вычислений на массовость.

   Однако лицезреть HSA вживую можно будет только тогда, когда экосистема программного обеспечения позволит использовать преимущества функционала HSA, а случится это не завтра. Хотя HSA впечатляет своими возможностями на архитектурном уровне, AMD также необходимо вплотную заняться программной частью, причём в ближайшее время. Речь идёт не только о драйверах с поддержкой HSA, но и о таких моментах, как профилирование и отладка, качественное документальное сопровождение и другие фрагменты мозаики, включая решения уровня вычислительного узла для LLVM. Также хотелось бы видеть больше проектов, предполагающих компиляцию языков программирования с ориентацией на поддержку HSA, особенно open source библиотек, над созданием которых в рамках проекта HSA трудится AMD.

   Наконец, успех либо провал HSA также будет зависеть от выбранного направления движения участников HSA Foundation, таких как Qualcomm, ARM, TI, Imagination tech и Samsung. На сегодняшний день лишь AMD анонсировала аппаратные продукты с поддержкой HSA. Инициатива AMD может встретить холодный приём в среде программистов, если влияние HSA ограничится платформами AMD, и идея о том, чтобы сделать программирование для гетерогенных систем частью фундаментальных принципов работы программистов новой волны, будет укореняться медленно. Не исключено, что свет увидят и другие продукты с поддержкой HSA от других игроков рынка, но тут важную роль играет фактор времени. Конкуренты, такие как NVIDIA и Intel, тоже не сидят сложа руки и в скором времени мы увидим более качественные встроенные решения для гетерогенных вычислений также и от этих компаний. Говоря о дне сегодняшнем, следует отдать должное AMD за вклад в развитие отрасли и за способность предложить решение в сфере гетерогенных вычислений, обладающее самой высокой на сегодня степенью интеграции. [N5-В фокусе – GPU]

   Переход с VLIW4 на GCN очень логичен. Вместо постоянной рассинхронизации APU Kaveri теперь получат ту же архитектуру, что и дискретные видеокарты с ядром Hawaii, а именно GCN 1.1, как в дискретных моделях – от Radeon R9 290X до Radeon 260X. Архитектурная синхронизация линеек встроенного и дискретного видео означает следующее: как только AMD что-то улучшает/оптимизирует в дискретном GPU, это скажется и на встроенной в APU графике, т.е. Kaveri тоже получат свою порцию «сладостей». Ранее обсуждались улучшения для TrueAudio, UVD и VCE, и вот на очереди другая значимая разработка – API Mantle.

   Различие в реализации архитектуры GCN в APU Kaveri (встроенное видео) и в ядре Hawaii (дискретная графика), не считая физической близости к CPU, состоит в использовании общей памяти, как об этом выше рассказал Рауль.

AMD приводит интересную статистику производительности игрового видео: судя по слайду, «в арсенале примерно трети всех пользователей Steam более слабая чем в APU A10-7850K графика». Учитывая, что встроенное в A10-7850K видео содержит 512 универсальных процессоров, хочется спросить: сколько же людей пользуются графикой в ноутбуки и нетбуках? Краткий обзор результатов исследования компании Steam позволяет сделать вывод: на первом месте интегрированные решения от Intel, на втором – дискретные карты NVIDIA среднего уровня. Велико число и тех, кто сделал выбор в пользу GPU, встроенного в другие процессоры, а также в пользу дискретных видеокарт мобильного класса, таких как Mobility Radeon HD4200. С выпуском APU Kaveri AMD, очевидно, хочет переплюнуть сразу всех, а унификация архитектур создаёт ситуацию, когда начиная с этого момента пользу от улучшений ощутят и дискретная, и интегрированная графика.

Поскольку детальный анализ ядра Hawaii на базе GCN (включая поддержку стандарта IEEE 2008, а также улучшения в таких аспектах, как блоки выборки текстур, регистры и точность вычислений) уже приводится в одном из опубликованных ранее обзоров, этот момент остался за рамками настоящего обзора. Варианты реализации архитектуры GCN 1.1 в составе дискретных видеокарт всё так же будут «рулить» в плане абсолютной вычислительной мощи, ведь с точки зрения масштабируемости потребляемой мощности (TDP) APU никогда не достигнут заоблачных высот своих «полновесных» собратьев дискретного класса, если разработка этих APU не претерпит серьёзных изменений; это, в свою очередь, означает, что таким технологиям, как HSA, hUMA и hQ, предстоит ещё долгий путь, прежде чем стать доминирующей силой. Положительный эффект от низких накладных расходов при копировании данных, достигнутый на примере APU, должен стать серьёзным прорывом в области вычислительной графики, особенно в аспектах, связанных с играми и обработкой текстур, где требуются обратные вызовы CPU.

Также дополнительным преимуществом для геймеров является тот факт, что в архитектуре GCN 1.1 все вычислительные блоки работают асинхронно и позволяют осуществлять независимое планирование для разных заданий. По сути, это означает, что при выполнении задания 8 вычислительных блоков в APU A10-7850K high-end класса работают как 8 мини-GPU.

Серьёзным препятствием на пути раскрытия всего потенциала улучшений AMD в плане фронтенда графических вычислений является ограниченная пропускная способность 2-канальной памяти DDR3. Следовательно, имеются возможности для повышения производительности путем увеличения канала пропускания памяти. Не удивительно, если для решения этого вопроса AMD прибегнет к некоторому подобию промежуточного кэша L3 или памяти eDRAM.

API Mantle

Крупным нововведением для GCN должен стать Mantle – низкоуровневый интерфейс прикладного программирования для разработчиков игровых движков, ориентированный на повышение производительности GPU и снижение накладных расходов CPU, связанных с отправкой запросов на отрисовку. Здесь речь фактически идёт о сценариях, ограниченных производительностью в однопоточном режиме, и это тот случай, когда AMD определённо может потребоваться помощь. Хотя AMD, надо полагать, в конце концов, займётся решением вопроса с традиционно менее выигрышным положением в сравнении с Intel по однопоточной производительности, принятие на вооружение концепции Mantle может оказать APU Kaveri неоценимую помощь. Очевидным минусом является то, что темпы распространения Mantle на данный момент в лучшем случае можно назвать ограниченными.

Хотя реальный выход Mantle задержался из-за проблем с Mantle-патчем для Battlefield 4 на движке Frostbite 3, AMD с радостью заявляет о двукратном улучшении результатов в тестовом сценарии, учитывающем только вызовы API, и об улучшении плавности видеоряда до 45% в предрелизных версиях Battlefield 4.

Dual Graphics

   AMD кокетливо умалчивает о технологии Dual Graphics, особенно в контексте технологии сглаживания кадров frame pacing. По неволе начинаешь задаваться вопросом: а была ли вообще тема Dual Graphics – технологии повышения производительности подсистемы графики путём объединения встроенного в APU видео с дискретной картой AMD – когда-либо раскрыта в ходе официальных презентаций AMD? На проводимых в Великобритании презентациях автор обзора неоднократно обращался к представителям AMD за разъяснениями и в лучшем случае получал комментарии в духе «мы работаем над такими решениями». Сборщики компьютеров были бы очень благодарны AMD за публикацию полного списка с указанием комбинаций «встроенная графика + дискретное видео».

   И всё же в арсенале AMD есть интересные слайды, посвящённых Dual Graphics. В ходе внутрикорпоративного тестирования AMD объединила встроенное в APU A10-7850K видео серии R7 с дискретной картой R7 240 2GB GDDR3, что фактически наводит на мысль о возможности совместного использования любого APU с графикой R7 и любой дискретной карты серии R7 с памятью GDDR3. Стоит учесть, что AMD рекомендует проводить тестирование конфигураций с использованием Dual Graphics после выхода новой версии драйвера 13.350. Для целей тестирования в рамках настоящего обзора использовались драйвера 13.300 beta 14 и RC2, доступные на момент написания обзора. Далее приводятся результаты в том виде, как они представлены AMD, без проверки тестировщиками с AnandTech.

Следует отметить: хотя эффективность Dual Graphics до последнего времени не отличалась системным характером, с приходом Kaveri можно ожидать улучшений, если, конечно, AMD намерена развивать это направление. Во времена APU Trinity и Richland сложилась интересная ситуация, обусловленная различием архитектур интегрированной (VLIW4) и дискретной (VLIW5) графики. При этом пока абстрагируемся от того факта, что обе архитектуры отставали от новой GCN, к которой было приковано основное внимание AMD. Однако в условиях, когда встроенное и дискретное видео AMD последнего поколения использует ту же архитектуру, а также благодаря улучшениям касательно frame pacing, предпринятым за последний год, Dual Graphics оказалась в более выгодном положении как решение начального уровня для повышения игровой производительности. Впрочем, аналогично более продвинутому решению в лице Crossfire эффективность Dual Graphics как multi-GPU конфигурации всегда будет ниже в сравнении с одной, но более производительной видеокартой.

AMD Fluid Motion Video

Еще одна технология AMD, используемая в APU A10-7850K и удостоенная лишь мимолётного внимания, называется Fluid Motion Video. По сути, речь идёт о повышении частоты кадров методом интерполяции с 24 Гц до 50/60 Гц для более плавного просмотра видео. Уместившееся в 1 слайд описание AMD, особенно с учётом базовых знаний в этой области у большинства пользователей, в лучшем случае можно охарактеризовать как выполненное в духе минимализма.

[N6-Тестирование: тестовая конфигурация + разгон]

Тестовая конфигурация

   Роль главных героев выполняют 2 представителя линейки Kaveri: топовый A10-7850K с TDP 95 Вт и A8-7600 с изменяемым в BIOS TDP, равным 65 Вт либо 45 Вт. Тесты для младшей модели проводились в обоих режимах энергопотребления, и здесь разница не превысила нескольких сотен мегагерц. В 65-ваттном режиме A8-7600 уступает A10-7700K всего 200 МГц в номинальном режиме, а в режиме Turbo частота, так совпало, оказалось равной 3,8 ГГц для обеих моделей.

   APU Keveri стали первыми испытуемыми, подвергшимися тестированию в условиях тестового пакета, обновлённого тестировщиками с AnandTech с учётом большей ориентации на вычислительные задачи, задачи конвертации видео с использованием различного программного обеспечения и на реальные тестовые сценарии с более чётким акцентом на профессиональных пользователей.

   Сайт AnandTech выражает благодарность:

Компании AMD за предоставленные процессоры (APU), память AMD Radeon и тестовую систему
Компании ASRock за предоставление материнских плат FM2A88X Extreme6+ и FM2A88X-ITX+, а также за APU AMD
Компании G.Skill за комплекты модулей памяти RipjawsX и RipjawsZ
Компании OCZ за блок питания мощностью 1250 Вт и SSD Vertex
Компании Samsung за SSD 840 EVO
Компании Antec за блок питания High Current Pro 750W
Компании Xigmatek за компьютерный корпус Nebula

Тестовая конфигурация: платформа AMD

	Процессор	Количество ядер	Частота процессора	Частота памяти	Питание	Интергированная графика	Универсальные процессоры	Частота встроенного видео
Kaveri APU	A10-7850K	2 модуля, 4 потока	3.7ГГц (4.0 ГГц Turbo)	2133 МГц	95 Вт	R7	512	720 МГц
	А8-7600	2 модуля, 4 потока	3.3 ГГц (3.8 ГГц Turbo)	2133 МГц	65 Вт	R7	384	720 МГц
	А8-7600	2 модуля, 4 потока	3.1 ГГц (3.3 МГц Turbo)	2133 МГц	45 Вт	R7	384	720 МГц
Richland APU	A10-6800K	2 модуля, 4 потока	4.1 ГГц (4.4 ГГц Turbo)	2133 МГц	100 Вт	8670D	384	844 МГц
	A10-6700T	2 модуля, 4 потока	2.5 ГГц (3.5 ГГц Turbo)	1866 МГц	45 Вт	8650D	384	720 МГц
	А8-6500Т	2 модуля, 4 потока	2.1 ГГц (3.1 ГГц Turbo)	1866 МГц	45 Вт	8550D	256	720 МГц
Trinity APU	A10-5800K	2 модуля, 4 потока	3.8 ГГц (4.2 ГГц )	2133 МГц	100 Вт	7660D	384	800 МГц
Trinity APU	A8-5500	2 модуля, 4 потока	3.2 ГГц (3.7 ГГц )	1866 МГц	65 Вт	7560D	256	760 МГц
Память	AMD Radeon 2 x 8 GB DDR3-2133 10-11-11 1.65V G.Skill RipjawsX 4 x 4 GB DDR3-2133 9-11-11 1.65V G.Skill RipjawsZ 4 x 4 GB DDR3-1866 8-9-9 1.65V
Материнские платы	ASRock FM2A88X Extreme6+ ASRock FM2A88X-ITX+
Блок питания	OCZ 1250W ZX Series
Накопитель	OCZ 256GB Vertex 3 SSDs
Операционная система	Windows 7 64-bit SP1 с необходимыми обновлениями
Драйвера для видео	Сборка драйверов 13.300 RC2 для Radeon R7 Catalyst 13.12 для всех остальных

К сожалению, тестировщикам не удалось вовремя заполучить APU Richland с TDP 65 Вт, зато 65-ваттный APU Trinity оказался под рукой. Важно отметить, что для каждой TDP-категории частота работы CPU-части и поддерживаемой памяти различаются в зависимости от архитектуры и техпроцесса. Тесты в данном обзоре проводились с максимальной частотой памяти, поддерживаемой процессором, а не с той повышенной частотой, которую может обеспечить AMD Memory Profile. Данный фактор необходимо учитывать наравне с такими аспектами, как число исполняемых команд за такт (IPC – instructions per clock) и частота работы CPU.

В рамках обзора использовались несколько моделей процессоров Intel с разным TDP:

	Процессор	Количество ядер	Частота процессора	Частота памяти	Питание	Интергированная графика	Универсальные процессоры	Частота встроенного видео
Sandy Bridge	i5-2500K	4 ядра, 4 потока	3.3ГГц (3.7 ГГц Turbo)	1600 МГц	95 Вт	HD 3000	12	850 МГц
Ivy Bridge	i3-3225	2 ядра, 4 потока	3.3 ГГц	1600 МГц	55 Вт	HD 4000	16	550 МГц
Ivy Bridge	i7-3770K	4 ядра, 4 потока	3.5 ГГц (3.9 ГГц Turbo)	1600 МГц	77 Вт	HD 4000	16	550 МГц
Haswell	i3-4330	2 ядра, 4 потока	3.5 ГГц	1600 МГц	54 Вт	HD 4600	20
	i7-4770K	4 ядра, 4 потока	3.5 ГГц (3.9 ГГц Turbo)	1600 МГц	84 Вт	HD 4600	20
	i7-4770R + Iris Pro	4 ядра, 4 потока	3.2 ГГц (3.9 ГГц Turbo)	1600 МГц	65 Вт	HD 5200	40
Память	ADATA XPG 2 x 8 GB DDR3L-1600 9-11-9 1.35V
Материнские платы	ASUS Z87 Gryphon
Блок питания	OCZ 1250W ZX Series
Накопитель	OCZ 256GB Vertex 3 SSDs
Операционная система	Windows 7 64-bit SP1 с необходимыми обновлениями
Драйвера для видео	15.28.20.64.3347 для HD 3000 15.33.8.64.3345 для HD 4000+4600

К сожалению, ассортимент процессоров Core i5 и i3 был ограничен, а чипы Core i7 для обзоров Intel предпочитает высылать тогда, когда тестируются соответствующие платформы. Впрочем, автору удалось разжиться моделью Core i3-3225, позаимствованной у своего сетевого хранилища (NAS), а также моделью Core i3 на ядре Haswell. Поскольку другой тестировщик с AnandTech в это время тестировал проектора BRIX, автор попросил коллегу запустить на базе BRIX как можно больше бенчмарков из игрового тестового пакета, чтобы оценить способность процессора Intel с интегрированной памятью eDRAM эффективно противостоять графике поколения GCN в APU Kaveri.

Для полноты картины была протестирована единственная имевшаяся в наличии видеокарта среднего уровня – Radeon HD 6750, работавшая в паре с Core i7-4770K.

Разгон

   В завершение процедуры тестирования в рамках настоящего обзора был проведён разгон APU A10-7850K. Хотя речь идёт об инженерном образце, можно предположить, что он максимально приближен к конечному продукту, ведь именно такие обзоры служат руководством для читателя при выборе того или иного товара.

   Отправной точкой в процедуре разгона APU A10-7850K стало достигнутое в автоматическом (т.е. не разгонном) режиме пиковое значение напряжения питания под нагрузкой в среде OCCT, равное 1,24 В. С этой отметки тестировщики принудительно снизили напряжение питания до 1,1 В и частоту до 3,5 ГГц, оставив включёнными функцию LLC (load line calibration) и режим Turbo для поддержания частоты на близком к номиналу уровне. Процедура разгона стандартна: прогнав 5-минутный тест OCCT, PovRay и новинку 2014-го года – LuxMark, тестировщик определяет, насколько стабильно работает система. В случае проблем напряжение поднимают с шагом 0,025 В до достижения стабильной работы, после чего осуществлялся переход на новый частотный уровень посредством повышения множителя.

Переход с 3,5 ГГц к 3,6 ГГц потребовал серьезного поднятия напряжения, что, видимо, связано с исчерпанием доступных для данного техпроцесса возможностей по лёгкому достижению повышенных частот с как можно меньшим повышением напряжения, при этом система работала нестабильно, пока выставляемое в BIOS напряжение питания не достигло 1.225 В. Параллельно с разгоном процессора замерялось энергопотребление системы в простое и под нагрузкой; замеры производились на входе блока питания.

Как и следовало ожидать, повышение напряжения серьезно влияет на энергопотребление процессора. Выявлена одна особенность: даже в штатном режиме модуль материнской платы, отвечающий за питание центрального процессора (Voltage Regulator Module - VRM), очень горяч на ощупь – настолько горяч, что система без использования активного (вентиляторного) охлаждения выдавала множественные ошибки, и в процессе разгона ситуация ещё больше усугубилась. В чём дело – в платформе в целом или только в системной плате – сказать сложно. [N7-Тестирование: CPU]

В центре внимания тестировщика всегда должны быть реальные бенчмарки, ведь синтетические тесты зачастую лишь частично нагружают CPU, искажая объективную картину в плане преимуществ CPU для пользователя в реальных условиях эксплуатации. Данное обстоятельство определило необходимость обновления тестового пакета 2014 года с включением большего числа задач по декодированию изображений и видео, когда 2D-картинка на входе посредством особых алгоритмов превращается в 3D-модель. Для обеспечения «обратной совместимости» результатов тесты из пакета 2013 года (как и ряд синтетических бенчмарков) перекочевали в 2014 год.

Agisoft Photoscan v1.0

Основным из новых бенчмарков в составе обновлённого тестового пакета AnandTech стал Agisogt Photoscan – утилита, создающая серьёзную вычислительную нагрузку в процессе получения 3D-моделей из множества 2D-изображений. Алгоритм содержит 4 отдельных этапа, предъявляющих жёсткие требования либо к скорости памяти, либо к значению IPC (инструкций за такт), либо к числу ядер, либо даже к аппаратной поддержке OpenCL. Agisoft предоставила особую версию утилиты, которая использует заранее созданный скрипт, предполагающий преобразование 50 изображений шикарного дома в одну 3D-модель среднего качества. Выполнение теста на базе мощного персонального компьютера без графической подсистемы требует порядка 15-20 минут – с видеокартой процесс ускоряется.

AMD уступает по общему времени исполнения из-за отсутствия полноценных ядер и частичного акцента алгоритма на однопоточную производительность.

Второй этап позволяет задействовать ресурсы встроенного в APU видео, и в результате мощь современного APU AMD high-end класса затмевает все процессоры, участвующие в сегодняшнем тестировании. Перед нами как раз то, что сулит HSA – просто достижение подобного результата в большинстве применений потребует времени.

3D Particle Movement

`

3DPM – самостоятельный тест, использующий базовые алгоритмы с описанием движения в трехмерном пространстве вещества в процессе моделирования Броуновского движения с оценкой скорости выполнения алгоритмов. Высокая производительность вычислений с плавающей запятой, а также как можно большая частота и IPC – вот ключевые факторы победы в однопоточном режиме. Многоядерный режим, напротив, благоволит численному превосходству ядер. Как видно из результатов, AMD всё так же страдает от слабой производительности в вычислениях с плавающей запятой.

WinRAR 5.01

WinRAR 2013 года тоже подвергся обновлению до версии, актуальной на начало 2014 года. Сжимается массив из 2867-ми мелких файлов, сгруппированных в 320 папок общим объемом 1,52 Гб. 95% этих файлов – типичные для веб-сайтов файлы небольшого размера; остальное – составляющие 90% всего объема небольшие, продолжительностью 30 секунд файлы с видео разрешением 720р.

WinRAR предпочитает высокий IPC в процессорах Intel, поэтому даже немолодой Core i5-2500K показал себя с лучшей стороны. При этом 45-ваттный APU А8-7600 не покидает пределов поля боя с главным конкурентом из стана Intel.

FastStone Image Viewer 4.9

FastStone, подобно WinRAR, обновлен до актуальной на начало 2014 года версии. FastStone, в частности, используется для быстрого или пакетного редактирования изображений, включая такие операции, как изменение размера, корректировка цвета, обрезка. Массив из 170-ти разноформатных и разноразмерных изображений конвертируется в файлы с разрешением .gif с сохранением исходного соотношения сторон. Так как в данном сценарии FastStone не использует многопоточность, преимущество зачастую оказывается на стороне однопоточного режима, что и обуславливает выигрышное положение Intel.

Xilisoft Video Converter 7

Программный пакет XVC и методика тестирования также подверглись обновлению и теперь предполагают конвертацию в поддерживаемый Apple iPod формат двух видеофайлов – 10-минутного клипа с разрешением Double UHD (3840x4320) и DVD-рипа с разрешением 640x266 длительностью 2 ч 20 мин. Причина проста: когда размер кадра позволяет ему полностью поместиться в память, алгоритм обработки с большей вероятностью сможет «раскидать» нагрузку по потокам, способствуя ускорению процесса обработки видео. Поскольку XVC поддерживает аппаратное ускорение за счёт CUDA и AMD APP, результаты представлены и с учётом этой поддержки на GPU (если таковая имеется), и без неё. В случае с массивными кадрами пользы от встроенного в Kaveri видео немного, а вот для более «скромных» кадров поддержка AMD APP не проходит даром. Приводится время (в секундах), затрачиваемое на кодировку.

HandBrake v0.9.9

В HandBrake берутся те же файлы, но с учётом формата на выходе, предлагаемого по умолчанию. Как следует из результатов (кадр/сек), в центре внимания Handbrake многоядерность, многопоточность и высокая частота работы ядра.

Adobe After Effects 6

Программный пакет After Effects от компании Adobe, позволяющий работать с цифровыми динамичными изображениями, визуальными эффектами и композициями, используется в постобработке при подготовке фильмов и телепрограмм. В рамках данного теста рабочая сцена, взятая с форума After Effects, использовалась в качестве основы с учётом конкретных условий тестирования для достижения повторяемости результатов. Представленные результаты характеризуют скорость генерации 152 кадров в рамках единой сцены исключительно средствами CPU.

7-Zip 9.2

Open-source архиватор 7-Zip – популярный инструмент для облегчения операций с множеством файлов, включая их передачу. Приводятся результаты для встроенного в 7-Zip бенчмарка.

PovRay 3.7

PovRay традиционно любит многопоточность, мегагерцы и IPC. Используется штатный для PovRay 3.7 бенчмарк.

TrueCrypt 7.1a

TrueCrypt – полноценный инструмент кодирования с открытым исходным кодом, позволяющий работать как папками, так и с отдельными файлами. Используется режим тестирования с буфером 1 Гб. Приводится средневзвешенный результат для AES-шифрования.

[N8-Тестирование: GPU]

BioShock Infinite

   Первый на очереди – заслуживающий титул «Игра года» проект от Zero Punctuation 2013-го года, под названием Bioshock Infinite, использующий движок Unreal Engine 3 и разработанный с возможностью масштабирования производительности в зависимости от количества ядер в процессоре и мощи видеокарты. Задействуется утилита Adrenaline и 3 используемых здесь по умолчанию режима – Performance (1280 х 1024, низкое качество), Quality (1680 х 1050, средние/высокие настройки) и Xtreme (1920 х 1080, максимальные настройки). В зачет идёт и средний (average) и минимальный (minimum) FPS.

Bioshock Infinite – режим Performance

   Хотя встроенная графика Iris Pro от Intel в числе лидеров, её плотно окружают iGP от AMD. Все упомянутые в данном тесте ядра Kaveri занимают промежуточное положение между А10-6800К и А10-5800К, довольно уверенно закрепившись на отметке выше 60 FPS.

Bioshock Infinite – режим Quality

С улучшением настроек Iris Pro начинает сдавать позиции, при этом все APU Kaveri с графикой R7 опережают A10-6800K, включая две модели, занявшие топовые (не считая конфигурацию с дискретной картой) позиции и обогнавшие Iris Pro.

Bioshock Infinite – режим Xtreme

С повышением разрешения Iris Pro все больше отстаёт, а чипам Kaveri удаётся занять 3 из 4-х верхних строчек для iGP-конфигураций.

Tomb Raider

   Tomb Raider, оптимизированная под железо AMD, получила широкую известность благодаря технологии TressFX, способствующей усилению реалистичности при воссоздании внешнего облика главного героя. Tomb Raider использует модифицированный движок Crystal Engine, предпочитающий мощное железо. Методика тестирования аналогична таковой в предыдущем бенчмарке: утилита Adrenaline и 3 режима настроек по умолчанию. Представлены минимальный и средний FPS.

Tomb Raider – режим Performance

   Здесь топовые модели поколения Richland и Kaveri обмениваются ударами.

Tomb Raider – режим Quality

Iris Pro с небольшим отрывом выходит вперёд, а 95-ваттный APU Kaveri демонстрирует небольшое превосходство над Richland, при этом 45-ваттный APU Kaveri, обогнав APU Richland, тоже старается не отставать.

Tomb Raider – режим Xtreme

В максимальном разрешении топовый Kaveri берёт верх над Iris Pro, а 45-Вт Kaveri всё так же впереди 45-Вт A10-6700T.

F1 2013

   F1 2013 на движке EGO Engine, подобно другим играм от Codemasters, вполне благосклонна к старому железу. Усложнить и разнообразить тест позволил следующий сценарий: один круг по трассе Spa-Francorchamps при сильном дожде; играем за стартующего двадцать вторым Дженсона Баттона (Jenson Button) в составе команды McLaren; в гонках участвуют 11 болидов команды Williams, 5 болидов Marussia и 5 болидов Caterham – в таком порядке. В результате процессор вынужден рассчитывать поведение соперников (AI) в сложных погодных условиях, а сам бенчмарк активно использует обгоны. Вновь задействованы 3 режима: 1280x1024 (низкие настройки), 1680x1050 (средние настройки), 1920x1080 (ультра). К сожалению, результаты по Iris Pro для данного теста оказались недоступны в силу ряда обстоятельств.

F1 2013 – режим Performance

   F1 предпочитает AMD, хотя переход с Richland на Kaveri в high-end моделях в данном случае не даёт преимуществ.

F1 2013 – режим Quality

Тенденция сохраняется – ни одна из встроенных видеокарт Intel не может угнаться за графикой AMD, особенно в APU Kaveri.

F1 2013 – режим Xtreme

В режиме экстремальных настроек, в разрешении 1080р, топовый APU Kaveri смог преодолеть отметку в 30 FPS, при этом другие APU Kaveri из линейки А8 демонстрируют лишь незначительное отставание.

Sleeping Dogs

   Sleeping Dogs – мечта тестировщика. Этот чрезвычайно сложный бенчмарк способен охладить пыл даже самых мощных компьютеров, сбив FPS до 1-значной цифры. Хотя такой эффект может вызывать максимальный SSAO, при правильно подобранных настройках Sleeping Dogs вполне играбельна и способна доставить массу удовольствий. Вновь используется методика Adrenaline: Performance (1280x1024, Low), Quality (1680x1050, Medium/High), Xtreme (1920x1080, Maximum). Как обычно, фиксируется средний и минимальный fps.

Sleeping Dogs – режим Performance

   Все участвующие в обзоре APU AMD смогли в Sleeping Dogs преодолеть рубеж в 30 fps, при этом топовый APU вот-вот возьмёт планку в 60 fps.

Sleeping Dogs – режим Quality

APU Kaveri c интегрированной графикой на базе архитектуры GCN берут первое и второе места (не считая дискретного видео) на фоне ослабления позиций Iris Pro.

Sleeping Dogs – режим Xtreme

В разрешении 1920х1080 графике Iris Pro приходится очень туго.

Company of Heroes 2

   Последний игровой тест тоже не промах, ведь он может поставить на колени систему даже при использовании базовых настроек. Достижение среднего (а тем более минимального) FPS в 30 кадр/с для интегрированной графики – задача не из лёгких. В данном тесте задействованы конфигурации настроек, более подходящие для встроенной графики: 1280x1024 (минимальные), 1680x1050 (низкие) и 1920x1080 (средние).

Company of Heroes 2 – режим Performance

   COH2 настолько требовательна к ресурсам, что даже в разрешении 1280x1024 с низкими настройками ни одна из протестированных конфигураций не смогла побить планку 30 fps. С другой стороны, APU Kaveri с TDP 95 Вт превосходит предшественника из семейства Richland почти на 25%.

Company of Heroes 2 – режим Quality

Company of Heroes 2 – режим Xtreme

В режиме высоких настроек Intel собирается с силами, чтобы дать отпор AMD в контексте минимального FPS.

[N9-Тестирование: синтетические тесты и вычисления средствами GPU]

Данный тестовый пакет призван испытать на прочность встроенное в процессор видео с использованием как старых, так и новых инструментов оценки возможностей GPU. Именно здесь преимущества Kaveri должны заявить о себе, ведь принцип таков: если то или иное приложение на «ты» с архитектурой GCN, это не замедлит сказаться на его быстродействии; если же «фишки» GCN останутся не у дел, попасть наверх позволят лишь мощные вычислительные ресурсы.

CLBenchmark Fluid GPU + Computer Vision GPU

CLBenchmark – программный пакет, использующий расчёты на базе OpenCL и разработанный с прицелом на ряд широко используемых алгоритмов, особенности которого позволяют запускать его на любом железе с поддержкой OpenCL. Используются подтесты Fluid Dynamics (моделирование поведения жидких и газообразных сред) и Computer Vision (машинное зрение), выполняемые средствами как CPU, так GPU. Приведённые ниже результаты для GPU свидетельствуют о серьёзной победе платформы GCN, демонстрируя значимость поддержки OpenCL для повышения эффективности расчётов.

[N10-Тестирование: выводы]

   По мере углубления в тему становится очевидным развитие тенденций в двух плоскостях: производительность в абсолютном выражении и прогресс на фоне различных платформ предыдущих поколений. Переход с архитектуры Piledriver в чипах семейства Trinity и Richland к архитектуре Steamroller в APU Kaveri означал сравнительно долгий путь оптимизации базового дизайна CPU-части с точки зрения достижения его предельных возможностей. Также у AMD, очевидно, был шанс задействовать более тонкий техпроцесс (что и было сделано), и фактически оптимизацию провели скорее в плане дизайна, а не производительности. Важность данного обстоятельства демонстрирует оценка энергопотребления и быстродействия по всем категориям в зависимости от TDP (45 Вт, 65 Вт и 95 Вт).

   Для наглядной демонстрации прогресса Kaveri на фоне предыдущих поколений представленные ранее данные подверглись анализу с группировкой в виде графиков с указанием случаев статистически значимого превосходство APU Kaveri. Как отмечалось ранее, всё определяется способностью приложения использовать преимущества нового функционала архитектуры GCN. Обсуждая преимущества GCN в вычислениях (HSA, hUMA, hQ) и играх (Mantle, TrueAudio), следует помнить, что многие из этих технологий пока не поддерживаются программным обеспечением. Что же это значит для тех, кто следит за развитием ситуации с APU AMD? Позволит ли интеграция GCN расправить крылья чипам Kaveri или речь идёт об отставании AMD вследствие исчерпания потенциала оптимизации техпроцесса в аспекте частотных характеристик. Доказательство – в результатах.

Встроенное видео, игры, 1280x1024

В категории “100 Вт”, в разрешении 1280х1024, отрыв Kaveri от Richland в целом невелик, кроме Company of Heroes, где больше ценится не частота, а количество потоковых процессоров в составе GPU.

В категории “45 Вт”, в разрешении 1280х1024, 45-ваттные APU Kaveri демонстрируют явное превосходство над предшественниками из стана Richland по всем фронтам.

Встроенное видео, игры, 1680x1050

Переход в режим 1680х1050 повышает привлекательность APU Kaveri с TDP 100 Вт, хотя в 45-Вт категории успех Kaveri всё так же огромен.

Встроенное видео, игры, 1920x1080

В режиме 1080p эффект усиливается и для 45-Вт, и для 100-Вт APU Kaveri.

Тесты CPU: скорость

К сожалению, тесты на производительность CPU-части не дают чёткой картины. Поскольку APU Kaveri характеризуются увеличением количества исполняемых за такт инструкций (IPC), но уменьшением тактовой частоты, каждый из тестов ведёт себя по-разному в зависимости от «вкусовых предпочтений»: так, Agisoft любит мегагерцы, а Xilisoft – IPC. Во втором случае проявляются архитектурные улучшения ядра Kaveri.

В категории “45 Вт” картина существенно прояснилась: APU Kaveri вырываются вперёд, особенно в Adobe After Effects.

Тесты CPU: баллы

В тестах, оценивающих производительность CPU-части для 45-ваттных чипов в баллах, а не в секундах, значительный перевес всё так же на стороне ядра Kaveri.

Встроенное видео: синтетические тесты

В синтетических тестах (вряд ли заслуживающих особого внимания) превосходство Kaveri очевидно для обеих категорий – 100 Вт и 45 Вт. Самым проблемным в плане использования преимуществ Kaveri оказался 3DMark 06, который больше благоволит не функционалу Kaveri, а его «мышцам».

Встроенное видео: вычисления

В вычислениях общего назначения средствами GPU преимущества Kaveri над предшественниками видны невооружённым глазом – и это в условиях отсутствия полноценной поддержки hUMA (ждём соответствующих драйверов и программ).

Прирост производительности для 45-Вт Kaveri, достигающий 222%, просто поражает.

AMD против Intel

Немалый интерес представляет сравнение 65-ваттного процессора Intel с интегрированной графикой Iris Pro и 65-ваттного процессора AMD поколения Kaveri. С учётом существенной разницы в цене между этими моделями общую картину дополняет APU Kaveri с TDP 95 Вт.

   Интересно, что в низких разрешениях в большинстве случаев рулит Iris Pro, но с повышением разрешения и качества картинки в лидеры выходят APU Kaveri. [N11-Заключение]

   Выводы об APU AMD нового поколения следует разделить на 3 части: процессор, возможности, которые сулит HSA, и графика.

   При одинаковых частотах новые APU Kaveri демонстрируют значительный прирост IPC (количество инструкций за такт). AMD провела серьезную работу над семейством Bulldozer в направлении существенного снижения TDP, и если Trinity и Richland вполне довольствовались 100 Ваттами, Kaveri в значительно большей степени оптимизирован в плане TDP, определяемого с учётом современных реалий. Производительность чипов с невысоким энергопотреблением (65/45 Вт) существенно возросла, и почти во всех GPU-тестах 45-ваттный Kaveri показал игровую производительность, очень близкую к 100-ваттным Richland. Компьютеры основного сегмента демонстрируют чёткую тенденцию к уменьшению форм-фактора, и для AMD очень важно идти в ногу со временем, что, собственно, и делает ядро Kaveri.

   Однако в более широком смысле выпуск Kaveri кардинально не меняет ситуацию с процессорами AMD. Ощутимое повышение IPC без соответствующего увеличения частоты лишает возможности прогресса в однопоточной производительности CPU-части. Усложняет ситуацию и тот факт, что 2-ядерники Intel Haswell демонстрируют очень агрессивную ценовую политику, не уступая Kaveri по частоте CPU. Благодаря аналогичным частотам и значительному прогрессу на фронте IPC 2-ядерные CPU Core i3 на ядре Haswell позволят обеспечить значительно более высокую производительность CPU даже в сравнении с самым быстрым Kaveri, но за меньшие деньги.

   Ситуация прояснилась: AMD, очевидно, не сможет решить проблемы производительности процессорной части в отношении какого бы то ни было представителя базовой платформы Bulldozer – требуется принципиально иная архитектура, возможно, та, что сменит датируемый 2015 годом Excavator.

   В прошлом AMD говорила о достаточно высокой для большинства пользователей производительности CPU-части в современных решениях AMD. Хотя такой аргумент не лишён оснований, с подобного рода утверждениями следует быть осторожным, иначе можно сделать вывод, что iPad или Nexus 7 тоже весьма неплох. Следует отдать должное маркетологам AMD: в этот раз никто не пытался заявить, что CPU-производительность почему-то не важна. Хотя ребята с AnandTech избегают критики в чей-либо адрес, факт остаётся фактом: всякий раз, выпуская APU предыдущих поколений, AMD изо всех сил пыталась убедить прессу в том, что проблема не в CPU-производительности, а в процедурах, используемых тестировщиками AnandTech. В случае с Kaveri такие аргументы более-менее прекратились – AMD приняла ситуацию такой, как она есть. AMD оказалась не в самом завидном положении, но именно так обстоят дела в отсутствие замены «Бульдозеру».

   Ситуация на фронте CPU вызывает сожаление, ведь APU Kaveri, в конечном счёте, позволяют оправдать надежды, связанные с покупкой AMD в 2006 году компании ATI. AMD наконец-то предложила решение, которое уравнивает в правах процессор и встроенную графику, обеспечивая новые возможности и позволяя разработчикам совместно использовать ресурсы CPU и GPU в решении сложных задач. В тестах, нагружающих CPU и GPU, чипы Kaveri зарекомендовали себя с лучшей стороны – в точном соответствии с обещаниями HSA. Итак, время пошло! Хотя широкое распространение концепции гетерогенного программирования и программного обеспечения на её основе займёт не один год, в нашем распоряжении уже есть соответствующее железо менее чем за $200.

   А пока «убийственным» применением APU Kaveri, помимо специфичных нагрузок и вычислительных задач, остаются игры, и в этом смысле повторяется история с Trinity и Richland. Выпуск Haswell оказался слабой атакой Intel в сегменте встроенной графики, и Kaveri пользуются этим. Если вы собираете недорогой настольный компьютер начального уровня для игр, лучшего варианта не найти. Интересно, как AMD намерена решить вопрос с повышением требований к пропускной способности памяти? 2-канальный интерфейс памяти DDR3 удивительно хорош в паре с Kaveri, и вопреки отсутствию улучшений в плане полосы пропускания памяти в APU Kaveri, мы, тем не менее, видим прирост производительности GPU в диапазоне 10-30% на фоне APU Richland. Впрочем, движение вперёд потребует от AMD обратиться к более экзотичным решениям.

   Что касается казуальных игр, то здесь AMD попала в яблочко, стремясь к достижению 30 fps в разрешении 1080р, хотя обычно в ущерб качеству графики. Есть и игры, способные заставить Kaveri попотеть (особенно Company of Heroes), но тут главное – перспектива. Далее следует лирическое отступление, которое автор обзора посвящает своему дедушке. Бывший инженер воздушно-космической промышленности, дедушка любит технику и всё, что с ней связано. Став компьютерным самоделкиным в 2002 году, он так и остался в прошлом, считая любой процессор старше Pentium 4 новомодной штучкой. У дедушки есть бзик: он попробовал и прошёл все игры серии Tomb Raider для PC, которые только смог найти.

   В период новогодних праздников сезона 2014 года ситуация достигла апогея, когда дедушка решил проверить в действии новейшую игру серии Tomb Raider с использованием конфигурации на базе процессора Pentium D и видеокарты NVIDIA 7200GT. Так как дедушка не демонстрирует чудеса реакции, он, кажется, не против плавности видеоряда менее 5 FPS в режиме 640x480, что, безусловно, вызовет недоумение у большинства современных геймеров. Автор решил сделать деду подарок – видеокарту Radeon HD 6750, идентичную той, что фигурирует в нашем обзоре. Несмотря на проблемы с поиском драйверов, карта дедушке понравилась, и теперь он может насладиться достаточно комфортным геймплеем с разрешением 1280x1024 на старом мониторе.

   Основная идея этой трогательной семейной истории в том, что Kaveri APU, вероятно, идеально подходят дедушке: дайте ему APU A8-7600 – и вперёд с песней! Такая система обгонит всё, что было у него раньше, а игры пойдут не хуже, чем с новой HD 6750. А когда бабушка решит полазить в Интернете или отретушировать старые фото, ей больше не придётся терпеть «тормоза». Цена такого удовольствия, кстати, тоже не кусается.

Источник: www.anandtech.com/

подписаться | обсудить в ВК |