Каталог
6. Производительность оперативной и кэш-памятиТеперь, когда вы в общих чертах знаете, чего ждать от новинки, рассмотрим изменения в архитектуре Phenom II более подробно. А так как самое заметное новшество в Deneb – увеличившийся объем кэш-памяти, с него и начнем анализ. Как и у предшественника, в распоряжении каждого ядра Phenom II – 64 Кб кэша первого уровня, для доступа к которому необходимо ожидание в 3 цикла. С переходом на архитектуру Nehalem, L1 процессоров Intel отныне обладает задержками в 4 цикла. Так что, сравнивая напрямую L1, можно констатировать, что в распоряжении Phenom как на четверть более быстрый, так и в два раза более объемный кэш. Рассматривая кэш второго уровня, можно отметить еще более разительные отличия. Так, у Phenom II в наличии 2 Мб общего, довольно медленного (15 тактов) L2, по 512 Кб на ядро. Если сравнивать данный показатель с кэшем второго уровня процессоров Athlon X2, заметно значительное улучшение (у двухядерных представителей архитектуры K8 для доступа к L2 необходим простой в 20 циклов). Но как только на арену выходит Penryn, кэш L2 которого в 4-6 раз больше, и при этом обладает теми же задержками в 15 тактов, сравнение уже явно не в пользу AMD. Core i7 в свою очередь обладает наиболее быстрым (11 циклов), однако и самым маленьким L2 – всего 256 Кб. Что касается массивного кэша L3, с ним все не так однозначно. По словам самой AMD, L3 в Phenom II на 2 такта быстрее, чем в Agena. С увеличенным в три раза размером и сокращенным временем доступа, пожалуй, мы видим именно такой кэш третьего уровня, который должен был быть еще в первом Phenom. Everest при тестировании определяет задержки L3 у Phenom II в 55, а у Core i7 – 35 циклов. Очевидно, это неправильные данные. Неразбериха и у Sandra, которая выдает 55 тактов для Phenom, а для Phenom II – 71. Официальных данных о задержках L3 AMD не предоставила (кроме относительных), Intel же говорит о 42 циклах при доступе к L3 в Core i7. По нашим собственным предположениям, задержки L3 у Deneb составляют порядка 50 циклов.
Можно также говорить и об оптимизациях контроллера памяти, которые провела AMD при переработке КП для поддержки нового типа памяти DDR3. Тогда как в оригинальном Phenom задержки составляли 107 нс, в Athlon X2 – 100 нс, в обновленном Phenom II – лишь 95 нс. 11%-улучшение одной из ключевых характеристик контроллера памяти не может не радовать. Что касается общей структуры организации кэш-памяти, многое уже было разъяснено в статье про Lynnfield, где объяснялась причина уменьшения размера кэша L2 и, в частности, приводился такой график: С небольшим кэшем L2 в 256 Кб на ядро, Core i7 стал шагом назад в наращивании объема кэша второго уровня. Однако, по словам инженеров Intel, в структуре четырехядерного CPU куда более важна была скорость L2, нежели его объем. С Phenom II ситуация такая же. Phenom первого поколения также имел L2 сравнительно небольшого объема (512 Кб против 3 виртуальных Мб из 6 общих в Penryn), однако и L3 был крайне мал. Четырем ядрам, разделяющим между собой 2 Мб L3, этого объема было абсолютно недостаточно, однако для того, чтобы держать размеры кристалла в удобоваримых приделах, у AMD не было другого выбора. Phenom опередил свое время по конструктиву, но при этом из-за небольшого L3 не смог раскрыть потенциал своей архитектуры в полный рост. При всем при этом, если бы мы всегда должны были оставаться в эре двухядерности, куда более справедлив был подход Intel с Conroe/Penryn – пара вычислительных ядер “сидела” за большим общим L2 кэшем, и этого оставалось достаточно. Однако при увеличении количества ядер, смысл в большом разделяемом кэше второго уровня теряется. Частыми при исполнении программ оказываются такие варианты, когда каждое ядро работает над индивидуальным потоком, и необходимости сообщаться с соседями нет. В таком случае лучше работает схема с быстрым L2 небольшого размера. Если же задача хорошо распараллелена и ядра часто общаются между собой – тогда уже к их услугам большой L3, скорость которого уже не так важна, как объем. Phenom II устраняет дефицит быстрой внутренней памяти. С 6 Мб L3 Deneb может тягаться по объему общего кэша с Core i7. Кстати говоря, на наш взгляд 512 Кб L2 относительно медленного L2, доставшиеся в наследство от первого Phenom, в Deneb не переработаны (в сторону увеличения производительности или даже уменьшения размера) лишь из-за недостатка времени у инженеров AMD. Так что в грядущих Orochi и Llano стоит ожидать именно таких изменений. Стоит признать, что с кэшем L3 большого объема отныне необходимости в массивном L2 (который теперь должен быть в первую очередь быстрым) нет. Можно провести аналогию с размером кэша первого уровня. L1 с течением времени увеличивался, с 1 Кб до 8, затем до 16 и, в конце концов, до 32/64 Кб в современных CPU. Однако больше размер кэша L1 не увеличивают – просто незачем. Схожий рост мы наблюдали и с L2, до некоторой переломной точки. Для AMD такой точкой стал Phenom, для Intel – Core i7. С увеличивающимся числом вычислительных ядер в современных процессорах на первый план выходит именно объем разделяемого между всеми ядрами L3, тогда как L2 отходит на второй план, выполняя уже роль некоторого буфера между L1 и L3. В его задачи отныне входит загрузка работой каждого отдельного ядра со своим L1I и L1D, тогда как необходимость быть общей “кормушкой” переходит к L3. Невозможно создать, скажем, эффективный 12 ядерный процессор с 36 Мб кэша L2 – задержки при поиске ядрами информации в L1 друг у друга сведут на нет весь смысл увеличения числа этих самых ядер. Вполне реален вариант развития событий, когда уже в недалеком будущем появятся CPU с еще большим числом уровней кэша. Таким образом, стоит признать, что будущее именно за такой структурой архитектуры многоядерных CPU, которую продемонстрировала AMD в первом Phenom, а Intel довела до относительного совершенства в Core i7. Phenom II – шаг в верном направление, эволюционное развитие идей первого Phenom. Deneb продолжает тенденцию увеличения кэш-памяти у процессоров, но не стоит забывать что во время такого роста случаются, и, возможно, будут встречаться все чаще переломные точки, когда для эффективности работы пирамиды кэшей необходимо будет добавление очередного уровня. [N7-7. Наконец-то! Новый, работающий Cool’n’Quiet] Современные микропроцессоры обладают целым набором стандартных тактовых частот, между которыми они могут переключаться в зависимости от нагрузки. Обычно реализовано это понижением множителя относительно стандартного до минимального. У первого Phenom было всего два состояния – работа на полной частоте и на половинчатой. То есть Phenom 9550 мог работать либо на стандартной полноценной частоте 2.6 ГГц, либо на пониженной, 1.3 ГГц. Так же оригинальный Phenom был первым x86-совместимым процессором, в котором каждое ядро могло независимо работать на своей собственной частоте. На то время четырехядерные процессоры Intel могли переводить ядра в состояние покоя/поднимать частоты при нагрузке лишь одновременно. В теории задумка AMD работала отлично. Если запущено однопоточное приложение, три из четырех ядер “спят”, экономя энергию и не нагревая впустую воздух, тогда как активное ядро работает, как ни в чем не бывало, в стандартном режиме. Данная функция вошла в общий набор Cool’n’Quiet. Но на практике все работало отнюдь не так хорошо, как предполагалось. Например, Windows Vista постоянно перебрасывала исполняемые потоки с ядра на ядро, что обычно приводило к потере производительности. Причина состояла в том, что процессору при запуске однопоточного приложения и активированной Cool’n’Quiet приходилось постоянно то выводить на полную скорость работы, то снова “усыплять” ядра, а этот процесс требовал некоторого времени. Phenom II от данного недостатка избавили довольно банальным способом, просто-напросто убрав возможность работы ядер на раздельных частотах. Таким образом, теперь если одно ядро работает на 3 ГГц, значит, и все оставшиеся трудятся на этой частоте. На самом деле, несмотря на отказ AMD от своей первоначальной вроде бы грамотной задумки, на практике Cool’n’Quiet в Phenom II работает отлично. Теперь не возникает ситуаций, когда ОС перебрасывает исполняемый поток на ядро CPU, работающее на половинчатой частоте и из-за этого появляются неожиданные тормоза. Конечно, способ не самый элегантный, но с учетом сегодняшних программных механизмов распределения приоритетов потоков, видимо, реализовать полноценное задуманное в первом Phenom, невозможно. Однако вместо раздельных частот для разных ядер ввели два дополнительных состояния процессора, снизив при этом минимальную планку до 800 МГц:
Процессоры Intel Core i7 обладают более продвинутыми технологиями энергосбережения – так, несмотря на то, что весь блок Core работает на одной и той же частоте, неиспользуемые ядра могут быть вообще отключены благодаря специально разработанным Power Gates. Хотелось бы видеть технологии такого уровня в Phenom II, однако, стоит порадоваться хотя бы безо всяких проблем работающему Cool’n’Quiet. Для того, чтобы показать влияние C’n’Q на быстродействие, использовался SYSMark 2007. В таблице отражены результаты как для оригинального Phenom, так и для Phenom II:
В синтетическом SYSMark потери производительности при активации энергосбережения на оригинальном Phenom составили более 15%, что выглядит существенным на фоне полутора процентов для Phenom II. В реальной жизни с Agena случались и куда более значимые провалы, вплоть до двухкратного снижения производительности. Ничего подобного с Phenom II не наблюдается, так что отныне Cool’n’Quiet можно без боязни использовать. [N8-8. 45 нм техпроцесс и замеры энергопотребления] AMD довольно долгое время на шаг отставала от Intel по используемому техпроцессу, а уж с переходом на 45 нм производство были связаны просто феноменальные задержки. К счастью, не слишком удачный 65 нм техпроцесс остался для AMD в прошлом, и отныне процессоры обоих конкурентов созданы с использованием 45 нм норм. Однако, несмотря на одинаковую цифру, подходы компаний к разработке 45 нм технологии были различными. Известно, что современные кремниевые кристаллы производятся с применением сложных физико-химических процессов, которые можно комплексно обозначить фотолитографией. С помощью специальной маски-шаблона и фоторезиста слой за слоем формируются кристаллы, которые впоследствии соединяются через выводы с подложкой. При этом большую роль в том, насколько компактными можно сделать формируемые схемы, играет длина волны облучающего света (обычно задействован ультрафиолетовый диапазон). С помощью распространенной сегодня 193 нм литографии возможно создавать микросхемы с соблюдением минимальных 50 нм норм. Для того, чтобы пойти дальше, существующих стандартных методик было недостаточно. AMD для перехода на 45 нм техпроцесс воспользовалась преимуществами так называемой иммерсионной фотолитографии, которая подразумевает облучение участков фоторезиста не напрямую, а используя эффект преломления света при переходе из одной среды в другую, в частности в нашем конкретном случае на пути пучка света появилась жидкость. На конечных пользователях используемый на производстве способ достижения 45 нм норм никак не сказывается, однако на сегодня в массовом производстве ничего более современного, чем иммерсионная литография не применяется. Возможно, именно сложностями, возникшими на пути разработки, в общем-то, революционной технологии, и обусловлено длительное время перехода от 65 традиционной к 45 нм иммерсионной литографии. Intel считает что на сегодня применение такого типа фотолитографии неоправданно, на заводах компании используется технология с формированием изображения посредством наложения со смещением друг на друга двух масок. С экономической точки зрения очень сложно рассуждать, какой из подходов более целесообразен, так как помимо банальной удвоенной цены шаблонов для Intel существует множество других факторов. Но, можно говорить о том, что AMD уже не потребуется создавать для The Foundry Company иммерсионную литографию с нуля, а переход на 32 нм по идее должен быть куда менее болезненным и более быстрым, чем с 65 на 45 нм. [N9-9. Энергетически эффективный Phenom?] Когда на рынок вышел первый Phenom, не только его производительность была недостаточной, но и энергопотребление зашкаливало. С учетом фактически неработающего C’n’Q, ухудшающего и без того довольно низкую производительность Agena, Phenom сложно было назвать энергетически эффективным. Как и недостаток кэш-памяти, в Phenom II это исправили. Снова хочется провести параллели с удачным Core i7, в котором любое из ядер может полностью выключаться при отсутствии для него работы. Так как в новых процессорах Intel кэш является инклюзивным, то есть содержимое L1 и L2 каждого из ядер хранится в L3, нет необходимости подключать неиспользуемое ядро для того, чтобы достать из него нужную информацию. Как вы помните, Phenom II не является полноценной переработкой Phenom, поэтому AMD не стала работать над добавлением такой функциональности. Но в любом случае, благодаря новому 45 техпроцессу, потребляемая в состоянии покоя мощность серьезно снизилась (хотя Nehalem, безусловно, вне конкуренции благодаря Power Gates):
Обратите внимание на то, что в состоянии покоя Phenom II потребляет меньше энергии, чем Penryn. Конечно, это обусловлено минимальной рабочей частотой в 800 МГц против 2 ГГц у Penryn, однако и под нагрузкой картина не слишком меняется, если сравнить процессоры на одинаковых частотах. Phenom II смотрится хорошо на фоне CPU поколения Penryn (190 Вт против 174 Вт конкурирующего Q9400), хотя Nehalem оказывается чуть менее энергетически-прожорливым, а уж с оглядкой на производительность, которая у i7 920 на меньшей частоте выше, говорить о победе Phenom II бессмысленно. В общем и целом показатели радуют и позволяют надеяться на хороший разгонный потенциал. [N10-10. Socket AM2, AM2+, AM3 и обратная совместимость] Итак, мы уже знаем, что с выпуском Phenom II AMD исправила положение дел с очевидным недостатком кэш-памяти, а благодаря новому 45 нм техпроцессу новые CPU потребляют, а соответственно и выделяют адекватное количество тепла, при этом частоты их работы повышены. Все это логичные эволюционные новшества, работа над ошибками. Однако есть и кое-что довольно неожиданное для сегодняшней индустрии высоких технологий. Говоря об AMD, мы представляем компанию, которая с самых первых дней своего существования ставила целью создать более дешевую альтернативу CPU Intel, при этом не жертвуя производительностью. В какие-то периоды это удавалось лучше, в какие-то – хуже. В частности, в последние пару лет процессоры компании явно звезд с неба не хватали. Но при этом, помня свои ошибки с Socket 754/939/940, AMD сделала все для того, чтобы верные ей пользователи смогли использовать новые Phenom II в уже имеющихся платах, не вкладывая ни единой дополнительной копейки в модернизацию обвязки, а просто купив процессор и заменив им старый. Вышедшие Phenom II предназначены для материнских плат с разъемом Socket AM2+, однако они отлично работают в более старых Socket AM2! Необходима лишь обновленная прошивка BIOS, а все уважающие себя производители уже позаботились о том, чтобы выложить такие обновления для свободного скачивания со страниц своих сайтов. Но это еще не все. В следующем месяце AMD выпустит слегка модернизированные Phenom II, предназначенные для материнских плат с Socket AM3 и работы с памятью DDR3. Очередная смена сокета? Нет! Phenom II, предназначенные для разъема AM3, будут работать на платах с DDR2, то есть разъемы AM2+ и AM3 полностью совместимы между собой. Если процессор установлен в плату с AM2+, будет просто задействован DDR2 контроллер, который сейчас используется в выпущенных Phenom II X4 940 и 920. AMD проделала очень и очень непростую работу – разместить на одном кристалле фактически два разных контроллера, которые должны работать при разных напряжениях (1.8 В для DDR2 и 1.5 В для DDR3), с разными таймингами, использовать разные интерфейсы ввода-вывода, все это сложно. По первоначальной задумке описанное выше должно было присутствовать еще в первом Phenom, однако реальность разошлась с планами, и лишь в Phenom II мы видим работающую реализацию старых идей. В очередной раз подтверждение того, что первый Phenom должен был выйти именно таким, каким мы сейчас видим Phenom II, но финансовая ситуация и неверные расчеты временных затрат не дали воплотить в жизнь задуманное. Конечно, вряд ли данная функциональность будет использована подавляющим большинством пользователей, однако бесспорно лучше иметь такую возможность легкого комбинирования комплектующих, чем не иметь. То, что можно использовать один единственный CPU в различных системах с разными сокетами и типами установленной памяти – один из самых невероятных подарков, которые компании-производители делали пользователям. Обычно вендоры стремятся наоборот насадить новые технологии, здесь же мы можем наблюдать абсолютно асимметричные действия AMD, идущие вразрез с общепринятыми стандартами. По словам самой компании, немалую роль в существующей гибкости Phenom II сыграла совместная работа AMD и JEDEC при разработке спецификаций DDR2 и DDR3, которая сделала возможной создание процессора с интегрированным контроллером памяти, способного работать с разными типами RAM в нескольких сокетах. Когда AMD впервые интегрировала КП на процессорный кристалл, наибольший риск состоял во внезапном переходе на новый тип памяти. Хотя такого и не произошло, AMD сама вставила себе в колеса достаточно палок с одно и двухканальными режимами работы и сменой сокетов. Сегодня у компании уже солидный опыт в создании CPU со встроенными контроллерами памяти, и как результат мы видим максимально универсальный Phenom II, которому не страшна миграция на DDR3. Пользователям этот процессор позволит плавно перейти на новый стандарт памяти по мере ее удешевления, а OEM поставщикам – в любое время выбирать между комплектацией готовых систем DDR2 или DDR3 в зависимости от конъюнктуры рынка. Пожалуй, наибольший недостаток новых CPU AM3 в том, что они делают довольно сомнительным смысл покупки вышедших только что Phenom II для Socket AM2+, ведь последние не обладают совместимостью с AM3. Так что возможно, ознакомившись с сегодняшним тестированием, имеет смысл немного подождать и сделать свой выбор именно в пользу Phenom II в версии AM3. Проиллюстрируем наглядно совместимость современных сокетов AMD еще раз:
Показанные приросты производительности в целом очень радуют. В лучшем случае мы получаем дополнительные 30% скорости на той же частоте, в худшем – около 3%. По данному разностороннему, но небольшому набору бенчмарков, который включает в себя задачи начиная от банальной архивации файлов в WinRAR до симуляции бизнес-модели в Excel , можно сказать, что Phenom II благодаря куда более сбалансированной структуре кэша будет показывать в целом довольно заметные ускорения относительно оригинального Phenom в подавляющем большинстве приложений. Так же можно говорить и о реальном потенциале нового процессора в играх, здесь у первого Phenom все было совсем туго, и лишь удачные видеокарты Radeon сохраняли значимость имени AMD для геймеров. Посмотрим, насколько у Phenom II получится изменить сложившуюся картину. Пока что можно констатировать, что Deneb получился лучше оригинала. Но достаточно ли лучше? [N13-13. Ура! Процессоры AMD вновь разгоняемы!] С момента появления Phenom на базе степпинга B3, который был в первую очередь призван исправить ошибку TLB, разгон Phenom стал безболезненным и несложным. Особенно справедливо это для специальных версий Black Edition с разблокированным множителем, да и материнские платы на 790FX, 790GX или 780a подтянулись, задействовав некоторые скрытые возможности новых южных мостов SB750. С другой стороны, несмотря на простоту самого процесса разгона, высокими частотами Phenom никогда не баловал. Если от Penryn даже на самом простецком воздушном охлаждении можно ожидать порядка гигагерца “бесплатной” бонусной частоты, Phenom предлагал в лучшем случае 600-800 дополнительны мегагерц. Еще на ранних презентациях AMD демонстрировала впечатляющий частотный потенциал Phenom II X4, говоря о сходных с наблюдаемыми у Penryn возможностях разгона. Инженерные семплы без проблем работали на 3.9 ГГц при использовании воздушных кулеров, 4.4 ГГц с жидкостным охлаждением, а с экстремальным жидким азотом частота доходила до впечатляющих 6.4 ГГц. В своих экспериментах мы смогли повторить заявленные AMD, безусловно, удачные результаты на воздушном охлаждении, и поразились тому, какой простор и раздолье дает новый 45 нм техпроцесс энтузиастам при разгоне Phenom II. Более того, на нашем тестировании находился ранний инженерный семпл 940 процессора, который смог достичь стабильных 3.9 ГГц на воздухе, однако уже сейчас форумы пестрят сообщениями, что серийные CPU покоряют даже большие частоты. Мы не уделяли внимания тонкой настройке частот HTT и Uncore, более подробная информация об этом будет представлена в грядущих тестах серийных Phenom, однако полученные на семплах данные представляют интерес. Для сравнения с Phenom II X4 Black Edition мы использовали 125 Вт версию Phenom 9950 BE, Core 2 Quad Q9550 и Core i7 920. Пожалуй, не стоит в очередной раз упоминать, что разгон – лотерея, и что для обеспечения стабильной работы на высоких частотах необходимо использование качественных компонентов. В нашем случае использовались материнские платы DFI LP DK 790FXB-M2RSH (790FX), ASUS Maximus II Formula (P45) и DFI LP UT X58-T3eH8 (X58), блок питания Corsair HX1000, память от того же Corsair и G.Skill (киты TR3XGG1600C8D 6 Гб DDR3 1600 и F2-8800CL5D-4GBPI DDR2 1100 4 Гб соответственно). Из не столь важных компонентов можно упомянуть использование жесткого диска WD Caviar Black 1 Тб, Blu Ray приводов от Sony и LG, корпус ABS Canyon 695 и Windows Vista 64 Ultimate SP1 в качестве ОС. Нестандартным в сегодняшнем тестировании на разгон является решение использовать боксовые кулеры AMD и Intel, для того, чтобы узнать, на что может рассчитывать среднестатистический пользователь, только что купивший новый процессор. В таких условиях мы получили результаты оверклокинга при стандартном напряжении, и при повышенном до разумных пределов, когда стандартное воздушное охлаждение еще справляется с возложенными на него обязанностями отвода большого количества тепла.
Функции энергосбережения были отключены, а напряжения и частоты устанавливались вручную. Без повышения напряжения Phenom II X4 940 удалось разогнать лишь на 200 МГц, что лишь на 7% больше номинала. На такой частоте стабильность была абсолютна. Вообще говоря, процессор был работоспособен на 3.45 ГГц, однако в таком режиме он не мог пройти тесты PCMark Vantage и бенчмарк Microsoft Flight Simulator X. Phenom 9950 BE оказался способен при штатном напряжении увеличить частоту на 17%, рекордсменом же явился Core i7 920, который заработал на 50% более высокой частоте. Q9550, принадлежащий степингу E0, также показал впечатляющие 38%. В нашем втором тесте мы тщательно подбирали напряжение на ядре, памяти, VTT, IOH и PCIe для того, чтобы достичь разумного предела на боксовых кулерах. В таком случае Phenom II X4 940 при повышении напряжения до 1.52 В оказался способным работать на 3.9 ГГц. Повышенное до 1.58 В напряжение позволило покорить и 4 ГГц барьер, однако он оказался не по силам штатному кулеру. Стоит отметить, что уже на 4.1 ГГц наш тестовый |
Источник: www.anandtech.com/