Каталог
Как работает Turbo ModeОба главных производителя потребительских x86-совместимых CPU методом проб и ошибок нашли тот разумный максимум тепловыделения, превышать который не следует. Печальный опыт с Intel Prescott показал, что CPU, выделяющий более 130 Вт, чересчур горяч для ATX корпуса. Именно поэтому сегодняшние топовые процессоры обладают TDP на уровне 120-140 Вт, тогда как тепловой пакет мейнстрим CPU обычно ограничен 95 Вт. Вне зависимости от того, сколько ядер расположено на кристалле, будь то одно, два, три, четыре, шесть или восемь, процессор не должен выходить за обозначенные границы. Если в CPU используется только одно ядро, оно целиком и полностью может распоряжаться этими условными 95 Вт. Именно поэтому производители в прошлом могли себе позволить «гонку мегагерц». Однако уже при проектировании двухядерных CPU стало ясно, что необходимо умерить аппетиты процессоров – ведь в 95 Вт требовалось уложить уже пару ядер. Самый разумный компромисс в таком случае – снизить тактовые частоты при увеличении числа вычислительных потоков. Очевидно, что среди возможных оптимизаций это наиболее действенная мера. Стоит ли говорить, что при создании четырехядерных моделей уложиться в требуемый TDP еще сложнее. Это положение вещей хорошо иллюстрирует такая диаграмма:
Итак, TDP мы принимаем за постоянную величину – эту планку поднять никак нельзя, неизбежны проблемы с охлаждением самого CPU и общего нагрева системного блока. Переменные в таком случае – количество ядер и их тактовая частота (во всяком случае, так дело обстоит сегодня), т.е. если мы увеличиваем одну величину, необходимо уменьшить другую. Однако в эту, казалось бы, идеальную картину, вкрадывается противоречие. Ведь количество ядер, в отличие от частоты их работы, не влияет прямо пропорционально на производительность. Есть приложения, плохо оптимизированные под многопоточные вычисления. Есть приложения, вообще не поддающиеся распараллеливанию. В таком случае, скажем, два ядра из четырех в CPU простаивают. Конечно, в состоянии покоя они не выделяют много «лишнего тепла», однако процессор работает медленнее своего двухядерного коллеги, у которого тактовая частота при одинаковом TDP выше. Отсюда пользователям приходится прикидывать, в каких приложениях им придется работать чаще, и от чего будет больший выигрыш – от более высокой частоты двухядерного CPU, или же от количества вычислительных потоков четырехядерного. Умный процессор теоретически смог бы понять, что скорость работы ядер ограничена не частотой (штатные частоты современных 45 нм CPU далеки от предельных), а значением TDP, за которое нельзя выходить. Более того, тогда бы чип мог увеличивать при необходимости частоты активных ядер, если есть незадействованные (а значит и запас по тепловыделению). Оказывается, такой процессор теперь есть. И имя ему – Lynnfield. В прошлом году с анонсом Nehalem Intel представила одно очень существенное нововведение, которое за блеском впечатляющей производительности осталось незамеченным многими. Внимание энтузиастов было сконцентрировано на размерах кэшей, производительности самого CPU и латентности памяти, а вот Power Gate Transistor остался на втором плане. Как известно, транзисторы работают как небольшие переключатели – преграждая путь току в закрытом состоянии, и пропуская в открытом. Одним из побочных эффектов постоянного уменьшения размеров транзисторов с совершенствованием технологического процесса производства и ростом скорости их переключений, является возрастание токов утечки. Это значит, что транзистор начинает пропускать небольшой ток и в выключенном состоянии. Хотя эти токи и невелики, в случае, когда кристалл состоит из нескольких сотен миллионов транзисторов, энергетическая эффективность существенно страдает. Можно уменьшить эти токи утечки, но в таком случае пострадает производительность – невозможно одновременно добиться высокой тактовой частоты и ничтожно малых токов утечки. Однако в лабораториях Intel сумели найти выход из данной непростой ситуации. Используя определенные «умные» материалы, они создали транзистор специального типа с минимальным сопротивлением, который мог эффективно отключать схемы, находящиеся за ним, от энергетических потоков. Таким образом, стало возможно полностью отключать неиспользуемые ядра с помощью Power Gate Transistor. В случае с четырехядерным Phenom II, когда два ядра остаются без нагрузки, специальный управляющий блок отключает их. Однако даже в таком состоянии из-за существующих токов утечки они продолжают потреблять энергию. В случае с Nehalem благодаря Power Gate неиспользуемая пара ядер может быть отключена практически полностью – так, что токи утечки будут пренебрежительно мало. Именно благодаря этому показатели энергопотребления Nehalem в состоянии покоя так впечатляют: Мы выяснили, что Nehalem способен эффективно отключать неиспользуемые ядра в состоянии покоя. Зачем это необходимо? Ответ прост – так создается запас относительно номинального TDP, который можно эффективно использовать. Речь идет о повышении частот активных ядер таким образом, чтобы одновременно увеличить скорость исполнения плохо распараллеленных задач и остаться в рамках заявленного TDP. Именно для этих целей в каждом производимом на данный момент Nehalem (включая Bloomfield) существует специальный блок, состоящий приблизительно из 1 миллиона транзисторов (сравнимо со сложностью Intel 486), чья единственная задача – менеджмент питания процессора. Именно Power Control Unit следит за энергопотреблением, отключает полностью или снижает частоты неактивных ядер, постоянно отслеживая нагрузку и состояние CPU. В Lynnfield применен модернизированный относительно Bloomfield блок PCU, однако его архитектура в целом осталась неизменной. Внимательные читатели уже наверняка догадались, что именно блок PCU в Lynnfield помимо всего прочего обучен повышать частоты активных ядер в случае с отсутствием нагрузки на все четыре ядра. Данное технология носит уже знакомое нам название Turbo Mode. [N10-Производительность Lynnfield в TM – до 17% прироста!] Справедливости ради стоит отметить, что технология Turbo Mode не нова. Мы уже встречались с первым вариантом ее реализации в Bloomfield, однако тогда она не особо впечатляла и была всего лишь одной из списка интересных технологий новинки. Производительность в лучшем случае увеличивалась на 2-5%. TDP всех Bloomfield был заявлен в 130 Вт, и у каждого ядра было лишь совсем немного запаса по тепловыделению для повышения частоты. В Lynnfield же значение TDP было снижено на 27%, а значит, каждое ядро стало более холодным (чем ниже TDP, тем больше потенциал для Turbo). Этот факт в сочетании с целым годом, который инженеры Intel потратили на внесение мелких улучшений и оптимизаций в существующие Nehalem, позволил новому, более агрессивному Turbo Mode превратиться из незначительной возможности в один из ключевых плюсов нового процессора.
Как вы можете видеть, в отдельных случаях режим Turbo в Lynnfield может давать до 17% дополнительной производительности относительно работы четырех ядер на штатной частоте. Согласитесь – это значимая величина, недооценивать которую нельзя. По следующей таблице хорошо видно, что наилучшие результаты с Turbo достижимы в приложениях, интенсивно использующих одно или два ядра:
Если бы Intel обладала технологией, схожей по концепции и уровню реализации с сегодняшней Turbo Mode, во времена внедрения двухядерных CPU, было бы на порядок меньше споров по поводу необходимости перехода на мноядерные процессоры. Сегодня же при запуске однопоточного приложения на четырехядерном Lynnfield, мощнейший зверь из 774 млн. транзисторов попросту отключит три своих ядра, и автоматически разгонит оставшееся активное вплоть до 3.6 ГГц (в зависимости от модели). В таком режиме CPU окажется быстрее, чем любой из представленных на рынке Core 2 Duo.
Обратите внимание на то, что, благодаря специальному аппаратному блоку PCU в Lynnfield, производительность исполнения одного потока команд возрастает не обязательно в каких-либо оптимизированных программах. Это происходит, например, и при обычной работе в операционной системе, независимо от характера исполняемого приложения. Можно ли считать, что задача достижения оптимальной производительности в любом режиме выполнена? Отчасти это верно. Lynnfield является очень мощным и гибким процессором, который, как покажет наше тестирование, отлично справляется с любыми бенчмарками, получая высокие баллы. Условно говоря, покупая Core i7 870, вы приобретаете быстрый 3.46 ГГц двухядерный процессор, который в случае необходимости может исполнять хорошо распараллеленные приложения с помощью всех доступных четырех активных ядер на чуть меньшей частоте в 2.93 ГГц. Однако нельзя рассматривать эту технологию как финишную черту, которую в Intel хотели достичь и остановиться после этого. По сути, вторая версия TM в Lynnfield является лишь очередным шагом к унификации CPU и GPU, которая, возможно, ждет нас в будущем. Совсем немного времени осталось до того момента, когда на одной подложке или даже кристалле будут располагаться и центральный, и графический процессоры. А ведь в таком случае их TDP также не должен будет выходить за разумные рамки. Как быть в такой ситуации? Так же, как и в случае с незадействованными ядрами Lynnfield – в случае большой потребности в мощности CPU отключать простаивающие блоки GPU, и, соответственно, наоборот. Такая система будет одновременно производительной, многопрофильной, экономичной, и, главное – сможет в реальном времени мгновенно подстраиваться под запросы пользователя. Именно это является целью, которая стала чуть ближе благодаря выходу нового поколения 45 нм Nehalem в свет. [N11-Скоростные ограничения: что может препятствовать работе Turbo Mode] Каким бы прекрасным ни был Turbo режим, к сожалению, он не может функционировать 100% времени. Есть целый ряд причин и факторов, которые могут препятствовать активации TM, и самые главные из них – качество охлаждения и смесь из множества исполняемых инструкций в большом числе потоков. Тип исполняемых инструкций во многом определяет аппетиты CPU в каждом конкретном приложении. Так, в случае с кодированием видео, когда задействованы специализированные наборы SSE, сами ядра не используются на полную мощность, что позволяет экономить энергию. Однако сжатие видео – ресурсоемкая операция, при которой нет нужды «соблюдать диету» и держать CPU в экономичном режиме, здесь важна именно производительность. Значит, можно поднять частоту ядер. Кстати говоря, по словам Intel, при кодировании видео и прочих операциях, использующих наборы команд SSE различных версий, Turbo режим работает особенно эффективно. А вот операции с плавающей запятой, напротив, серьезно нагружают все части ядер. Здесь вряд ли стоит ожидать увеличения частоты более чем на одну ступень (133 МГц), если вообще PCU посчитает возможным активацию Turbo Mode. Иными словами – невозможно просто определить эффективность TM, узнав количество исполняемых программой потоков. Характер команд в этих потоках так же очень важен. Нельзя забывать и о том, что, помимо запускаемого пользователем основного приложения, в фоновых процессах может быть активно много скрытых процессов, например, порожденных самой операционной системой. Хотя обычно фоновые приложения являются однопоточными, их количество может исчисляться десятками, или даже сотнями. Всего лишь несколько из них, которые планировщик задач «повесит» на отключенные ядра, могут вынудить PCU включить неиспользуемые ядра ради минимальной нагрузки, а это ограничит возможности Turbo. Отрадно, что в Windows 7 уделили существенное внимание данной проблеме (как известно, работа C’n’Q в Phenom первой версии из-за особенностей диспетчера задач Windows Vista существенно снижала производительность процессора, вынуждая CPU постоянно включать и отключать ядра), и Lynnfield не должен страдать от этой проблемы при использовании «семерки». Но не все так неоднозначно. Если контролировать смесь потоков, инструкций и данных, количество исполняемых нитей в приложении и многие другие факторы затруднительно, охлаждение процессора напрямую зависит от пользователя. Безусловно, ни о каком повышении частот относительно номинала и речи быть не может, если CPU работает в предельном температурном режиме. Наоборот – следует помнить, что непродуманная циркуляция воздуха в системном блоке, тесный корпус, некорректно установленный кулер или множество незакрепленных проводов на пути воздушных потоков, могут вынудить PCU снизить частоты ядер, чтобы избежать физического повреждения процессора. Боксовый кулер, который поставляется в комплекте с Core i7, довольно мал по размерам. Он способен отводить тепло от процессора в штатных режимах и даже позволяет Lynnfield иногда переходить в Turbo режим. Тем не менее, его эффективности недостаточно, чтобы дать процессору раскрыться полностью. Как и в случае с Core i7 LGA1356 мы рекомендуем для LGA1156 устанавливать более производительные охлаждающие устройства от сторонних производителей. [N12-Lynnfield – создан для Windows 7 (или наоборот)] Среди новых возможностей Windows – специальная функция Core Parking, которая по умолчанию активируется во всех многосокетных или многоядерных машинах, а так же на тех, чьи CPU поддерживают Hyper Threading (например, Pentium 4, Atom, Core i7). Данное нововведение было призвано бороться со случаями неправильной работы диспетчера задач, из-за действий которого исполняемый поток перебрасывался с ядра на ядро. Иногда это приводило к потерям производительности, или же неоптимальной работе технологий энергосбережения. В Windows 7 описанных случаев быть не должно – специально созданная интеллектуальная система будет решать, к какому ядру должна быть привязана конкретная нить. Если говорить техническим языком, Core Parking помогает в тех случаях, когда ОС хочет перебросить исполняемую задачу с реального ядра на виртуальное. Так же усовершенствование должно помочь в тех ситуациях, когда на многосокетных машинах происходит перетасовка потоков между физическими процессорами (а это может сильно сказаться на скорости работы, ведь дополнительно с инструкциями перемещаются и данные из кэшей, информация в памяти – ведь каждый ИКП работает со своими физическими модулями DIMM). Как и в случае с любой другой сложной технологией, не обошлось с Core Parking и без исключений, в которых технология бессильна. Например, если в программе вручную прописано назначение ветвей исполнения на определенные ядра, Core Parking бессильна. Поэтому в некоторых программах даже в среде Windows 7 от включения Hyper Threading все равно наблюдается падение производительности. В нашем тестовом марафоне к таким были причислены AutoCAD 2010 и World of Warcraft. В общем и целом – с новым алгоритмом распределения задач в Windows 7 программистам теперь несколько облегчили жизнь, ведь ОС теперь достаточно умна, чтобы самостоятельно справляться с работой на мультисокетных конфигурациях, или на ПК с активным Hyper Threading. [N13-Lynnfield Uncore: быстрее, чем у большинства Bloomfield] Несколько лет назад AMD впервые представила концепцию размещения процессорного кэша третьего уровня L3 как бы вне ядер, на одном уровне с контроллером памяти. Первый Phenom был построен именно по такому принципу. Это было продиктовано многими причинами, в частности, экономическими, и вопросами энергоэффективности. В случае с Nehalem Intel взяла на вооружение идею AMD и развила ее. Процессоры Intel последнего поколения разделены на две условных части – Core, и Uncore. В условной части Core расположены непосредственно ядра CPU и их выделенные кэши первого и второго уровней (L1/L2). В Uncore сосредоточились дополнительные модули, внесенные на кристалл CPU, будь то массив L3, линки QPI в Bloomfield, или контроллеры DMI и PCI Express в Lynnfield. Вообще говоря, производительность Uncore части не особенно критична для общей скорости работы CPU, но она состоит из сотен тысяч транзисторов; примерно 400 миллионов в случае с Bloomfield/ Lynnfield (и даже больше, если брать во внимание PCIe контроллер последнего). Поэтому в Intel решили использовать более медленные транзисторы с меньшими токами утечек, чем для Core части. Это вполне логично – раз производительность страдает несильно, значит, можно подумать об экономичности. В результате Uncore не может работать на такой же частоте, как основные ядра, и множитель относительно базового тактового генератора снижен. Взять хотя бы для примера Bloomfield Core i7 975. Ядра этого быстрейшего CPU имеют множитель 25x BCLK (25 x 133 МГц = 3.33 ГГц), однако Uncore работает на 20x BCLK (20 x 133 МГц = 2.66 ГГц). Все другие чипы, включая Lynnfield, имеют более низкую частоту работы:
Вот и еще одна область, в которой Lynnfield превосходит Bloomfield нижнего уровня: часть Uncore нового процессора работает на 2.40 ГГц вместо 2.13 ГГц. Исключением здесь является Core i5 750, у него частота Uncore сохранена на уровне 2.13 ГГц. Конечно, «экстремальные» Bloomfield быстрее по этому параметру, но ведь должна же платформа LGA1356 соответствовать своей существенно более высокой цене. [N14-Контроллера памяти Lynnfield – так же быстрее Bloomfield] Официально для Bloomfield Intel декларировала поддержку лишь двух типов трехканальной памяти DDR3: DDR3-800 и DDR3-1066. На самом деле более скоростные модули так же поддерживаются, однако мы говорим о штатных режимах работы, предусмотренных и протестированных производителем. Lynnfield на год моложе Bloomfield, поэтому контроллер памяти в новом CPU был доработан. Результат? Отныне официально поддерживается память стандарта DDR3-1333.
Однако ограничения, которые были действительны для Bloomfield, в обновленных Core i7/i5 никто не отменял. Конечно же, речь идет о максимально допустимом напряжении в 1.65 В, превышение которого чревато быстрым выходом процессора из строя. И все же, если раньше это с натяжкой можно было признать проблемой, сегодня большинство выпускаемых модулей соответствуют рекомендованным JEDEC 1.5 В, а требование 1.65 В скорее встречается у оверклокерской памяти. [N15-Открытие: пара каналов контроллера памяти не хуже тройки] Согласно информации, официально распространяемой Intel, для того, чтобы полностью загрузить работой двухканальный контроллер памяти DDR3-1333 в Lynnfield, требуется чрезвычайно интенсивная работа как минимум трех ядер. Как показывает практика, это очень жесткое требование. В подавляющем большинстве случаев отсутствие третьего 64-битного контроллера памяти в новом Core i7 никоим образом не вредит его производительности. Если говорить о переходе к 6 или даже 8 ядрам, здесь не может быть вариантов. Третий канал памяти жизненно необходим для эффективной работы таких систем под нагрузкой. Но именно поэтому данные CPU мы увидим лишь в LGA1366 варианте. Как предполагается, материнским платам на базе X58 будет необходим лишь обновленный BIOS для корректной работы с шестиядерными 32 нм Gulftown, которые будут выпущены уже в следующем году. А вот для LGA1156/P55 мы вряд ли увидим CPU с числом ядер более четырех. Каждый сам определит, насколько данное положение дел его устраивает или не устраивает. Но, положа руку на сердце, многим ли домашним пользователям в повседневной жизни необходимы те дополнительные два ядра, которые будут в распоряжении Gulftown? В подтверждение наших слов приведем результаты теста Everest по пропускной способности и задержкам памяти для Core i7 975 Extreme, и Core i7 870 (Lynnfield): ИКП Lynnfield очень хорош. Фактически, он равен по производительности Bloomfield, если даже не превосходит его. Оба процессора Nehalem использовали Turbo режим, поднимая частоту активных ядер до 3.46 ГГц. Это говорит о том, что тест оперативной памяти Everest использует не более двух параллельных нитей. Core i7 975 работал с памятью DDR3-1066 (самой быстрой из официально поддерживаемых), тогда как в паре с 870 были установлены модули стандарта DDR3-1333. Более быстрая память также дала Lynnfield преимущество. Так как в этом бенчмарке не использовались все четыре ядра, Lynnfield никак не может ощущать негативное влияние чуть меньшей ПСП. Довольно интересно, что SiSoft Sandra, которая для тестирования памяти нагружает работой все четыре процессорных ядра, считает двухканальный ИКП Lynnfield с DDR3-1333 почти столь же быстрым, как трехканальный Bloomfield с DDR3-1066.
Очевидно, что, в общем и целом, никаких проблем у новых процессоров из-за отсутствия третьего канала памяти не предвидится. [N16-Лучший игровой процессор… ?] Когда мы представили вам предварительный обзор Lynnfield, один из выдвинутых тезисов гласил, что благодаря Turbo Mode этот CPU сможет стать лучшим игровым процессором на рынке. Большинство из имеющихся сегодня день PC-игр оптимизированы под использование от двух до четырех ядер, Hyper Threading для таких приложений вообще бесполезен. Как результат, Nehalem сам по себе никогда не был особенно производительным в играх. Конечно, в силу многих причин Bloomfield стал наиболее предпочтительным для игр – он попросту был быстрее всех конкурентов, да и предоставлял в паре с X58 интересные возможности по построению игровых систем с несколькими видеокартами. Однако если говорить о соотношении цены и производительности, первые Core i7 не стали чемпионами в играх. Для того, чтобы проверить на практике, изменилось ли что-нибудь в Lynnfield, мы провели несколько игровых тестов в Windows 7. Среди конкурентов были оставлены лишь Lynnfield (конечно же), Bloomfield, Penryn и Deneb. Вряд ли можно сказать, что в Dawn of War II произошло что-то неожиданное. Благодаря TM, старший Lynnfield занимает отличные позиции в таблице, однако его производительности недостаточно, чтобы обогнать более дорогого Bloomfield. В свою очередь, если посмотреть на младшие процессоры из линеек, Core i5 750 несколько проигрывает Core i7 920. Но что особенно интересно – обратите внимание на минимальный фреймрейт! В обоих случаях платформы с Lynnfield показывают лучший результат, чем конкурирующие системы Bloomfield. Похоже, что именно это важное преимущество (согласитесь, хотя среднее количество кадров в секунду очень важно, минимальное их число влияет на комфортность игрового процесса ничуть не меньше) обусловлено агрессивной работой Turbo Mode в Lynnfield. Еще один интересный момент – самый медленный четырехядерный Lynnfield оказался быстрее самого производительного двухядерника Intel: Core 2 Duo E8600. Sacred 2 является еще одной игрой, в которой наблюдается схожая с DoW II картина производительности. Все так же Lynnfield в целом не может одолеть Bloomfield, а Core i5 даже несколько уступает AMD Phenom II X4 965 BE. С World of Warcraft Turbo Mode снова оказывает самое что ни на есть положительн |
Источник: НИКС - Компьютерный Супермаркет