Каталог
Интегрированный контроллер памятиNehalem – первый процессор Intel со встроенным контроллером памяти. Наконец-то этот модуль убран с материнской платы и из северного моста чипсета – помимо нескольких ядер и общего кэша на кристалле отныне располагаются несколько КП DDR3, в частности в Bloomfield контроллер трехканальный. Это означает, что для достижения пиковой пропускной способности необходимо будет установить три планки памяти в материнскую плату. Уже сейчас есть информация, что производители памяти в скором времени только по этой причине начнут продажу китов из трех модулей. Впоследствии Intel планирует выпустить и более дешевые версии Nehalem с двумя каналами контроллера памяти, но high-end и серверные модификации сохранят три канала. Обладая тремя каналами быстрой DDR3, Nehalem, несомненно, не будет испытывать недостатка в пропускной способности, и данные будут попадать к мощным ядрам процессора без задержек. Побочный эффект столь серьезного увеличения ПСП состоит в том, что блоки предвыборки данных процессора смогут работать эффективнее, что также сможет положительно повлиять на производительность. Несколько страниц мы уже не упоминали о серверной направленности Nehalem, сейчас самое время снова вспомнить об этом. В серверах используется дорогая буферизированная и достаточно медленная память с коррекцией ошибок ECC, поэтому применение агрессивных алгоритмов предвыборки данных в Xeon’ах, построенных на базе ядер Core, не всегда оправданно. Получается, что и так небольшая ПСП еще сильнее уменьшается, когда по шине прокачиваются необходимые блокам предварительной выборки данные. Приложения, которым нужна большая пропускная способность от такого только страдают. С учетом огромной ПСП Nehalem, абсолютно излишней в домашних условиях, эта проблема отпадает сама собой – пропускной способности в буквальном смысле хватит на всех. [N12-Quick Path Interconnect] Естественно, что с отказом от чипсетного контроллера памяти и соответственно шины FSB, Intel было необходимо разработать новый интерфейс связи вроде Hyper Transport, используемой AMD. Такой шиной и стала новая Quick Path Interconnect (QPI). Каждый линк QPI является двунаправленным и поддерживает до 6.4 Гб/с в одну сторону. При этом каждый линк обладает шириной в 2 байта, что дает 12.8 Гб/с, а в сумме получаются внушительные 25.6 Гб/с. При этом самые производительные процессоры и серверные варианты на первых порах будут иметь два линка QPI, домашние пользователи же обойдутся одним каналом. Разработчики серверных приложений теперь будут беспокоиться о корректной работе софта на мульти-сокетных платформах Intel, ведь у каждого CPU в наличие свой собственный массив памяти, и программы при работе должны будут четко различать с каким процессором, и, соответственно областью памяти они работают во избежание возникновения коллизий. Как и в случае со встроенным контроллером памяти, AMD ввела шину HT намного раньше Intel. В каком-то смысле это сейчас сыграло на руку Intel, так как приложения, оптимизированные для HT, будут работать на Nehalem с QPI существенно быстрее, чем работали на старых Xeon. [N13- Новые инструкции SSE] Вместе с выпуском Penryn, Intel расширила список мультимедийных инструкций набором SSE4.1, в Nehalem сделано еще несколько дополнений – теперь процессор поддерживает SSE4.2: В будущем Intel планирует помимо SSE развивать набор команд Advanced Vector Extensions (AVX), состоящий из 256 дополнительных векторных микроопераций. AVX должен стать переходным звеном между тем, чем является SSE сейчас, и тем, что предложит в достаточно скором времени Larrabee. Возможно, впоследствии Larrabee функционально поглотит AVX, но пока он даже не представлен, а Nehalem вообще ограничивается SSE4.2. [N14- Новые технологии управления электропитанием] Концепция управления питанием Nehalem фундаментально отличается от привычных нам принципов. За распределение всего, связанного с питанием, в новых процессорах Intel отвечает отдельный модуль PCU – Power Control Unit. Фактически, это самостоятельный блок, просто интегрированный на кристалл процессора, так же, точно как и контроллер памяти. PCU занимает целый миллион транзисторов (для справки – сопоставимый транзисторный бюджет имел весь процессор i486), обладает отдельной обновляемой прошивкой и контролирует в реальном времени различные параметры вроде температуры, токов, напряжений и нагрузки на CPU. На каждое ядро Nehalem выделено по отдельному PLL, так что, как и в AMD Phenom, частоты ядер управляются независимо друг от друга. Аналогично с решением от AMD напряжение на ядра также подается единое – разница между Nehalem и K10 в том, что Intel разработала специальные внутренние шлюзы, перенаправляющие энергетические потоки. Благодаря плотной совместной работе архитекторов Nehalem и производственных инженеров, в Intel создали узкоспециализированный материал, который встраивается между источником энергии и самим ядром и служит контрольным пунктом подачи энергии на ядро. Преимущество разработки в том, что используя этот самый материал можно индивидуально почти полностью отключать ядра процессора. Возникает вопрос – зачем создавать какой-то специальный материал, если есть отдельный модуль PCU? Разве нельзя просто разделить энергетические магистрали и питать каждое ядро по отдельной линии? Оказывается, при таких условиях многократно усложняется дизайн материнских плат, что выражается в необходимости повышать цену. Используя вновь-разработанные энергетические шлюзы можно беспрепятственно вводить неиспользуемые ядра в “глубокий сон”, снижая напряжение отдельного ядра безо всяких выделенных линий питания. Сегодняшние процессоры такой возможности не имеют, и, снижая рабочие частоты отдельных ядер, оставляют напряжение неизменным, что приводит к дополнительному выделению энергии неиспользуемыми блоками. Nehalem этого недостатка лишен, и ненужные в данный момент ядра могут быть просто отключены. Еще один плюс технологии в том, что при интеграции на кристалл управляющей логики, изменение напряжений происходит на порядок быстрее, чем при наличии отдельного чипа на материнской плате. Также интересным моментом является то, что PCU работает в паре с операционной системой, запрашивая данные о нагрузке на разные ядра и производительности. На основании этой информации сам PCU принимает решения об отключении/включении ядер вне зависимости от того, какие команды дает ОС. Нередко при управлении операционной системой возникают проблемы разного рода (вспомним недавние приключения с Phenom, лишенными такого механизма), например ОС отключает ядро для того, чтобы в следующий момент ненадолго снова включить его. Как раз чтобы избежать таких ситуаций, которые, помимо неоптимального температурного и энергетических режимов, еще и снижают производительность на значимую величину, в PCU и сделано взаимодействие с ОС. [N15- Турбо-режим] Фактически, это последнее из рассматриваемых нами сегодня нововведений уже было представлено в мобильной версии Penryn. Идея так называемого “турбо-режима” состоит в том, что если двухъядерный CPU работает в однопоточном приложении и второе ядро не задействовано таким образом вообще, общий TDP чипа соответственно снижается относительно допустимого. Эти условия можно использовать для некоторого поднятия частоты активного ядра, и, соответственно, производительности. TDP в таком случае все равно останется низким, а неоптимизированное под многоядерность приложение будет работать быстрее. К сожалению, эта функция не особо хорошо работала в мобильных Penryn, так как у них не было выделенного блока PCU, а Vista, установленная на большинстве ноутбуков, постоянно перекидывала задачи с ядра на ядро в попытках более равномерно загрузить процессор. Nehalem в этом отношении работает намного лучше. PCU не только способствует более корректному управлению энергопитанием и степенью активности ядер, но и может включать Turbo Mode при целом комплексе условий, а не только, когда, например, 2 ядра из 4 не заняты работой. В Nehalem все процессорные ядра могут повышать частоту одновременно на одну ступень (133 МГц) даже при полной нагрузке, если PCU определит, что таким образом TDP не будет существенно превзойден. Если уровень TDP существенно ниже стандартного, например, при полной загрузке одного ядра и средней остальных трех, автоматический разгон может поднять частоту CPU на 2 ступени, то есть на 266 МГц. Конечно, технология эта предназначена для неискушенных пользователей, которые не хотят рисковать вручную разгонять процессор, и будут рады даже 5% бесплатной прибавки скорости. Для таких покупателей приятная новость может состоять в том, что 266 МГц Intel ограничиваться не собирается и в будущих процессорах количество ступеней поднятия частоты будет увеличено. Все-таки даже автоматические системы разгона из BIOS материнских плат достигают более значимых результатов, чего уж говорить о нормальном подконтрольном человеку режиме оверклокинга. Как раз для таких случаев, кстати, турбо-режим можно отключить. Кстати говоря, если тестеры будут оставлять данную технологию включенной, процессоры Intel будут соревноваться с конкурентами не совсем честно – схожие методы были у ATI с введением VPU Overdrive, автоматически повышающей частоты видеочипа на безопасные величины. Конечно, пока AMD не в состоянии противопоставить CPU Core/Nehalem ничего существенного, но факт остается фактом, ведь зачастую процессоры с повышенной даже на 100 МГц тактовой частотой стоят уже существенно дороже своих младших собратьев. [N16- Стартовые частоты и прогнозы по производительности] Уже сейчас достоверно известно, что стартовыми моделями Nehalem будут три процессора Core i7 с частотами в 2.66, 2.93 и 3.2 ГГц. Точные индексы – 920, 940 и 960 соответственно. Все процессоры получат 8 Мб кэша L3, и будут четырехъядерными (как раз такими, как сфотографированный в начале статьи). Конструктивно CPU будут выполнены в форм-факторе LGA1366 (3х канальный контроллер DDR3 и 2 линка QPI), тактовый генератор, заменяющий стандартную частоту FSB, будет работать на 133 МГц. Материнская плата потребуется с соответствующим сокетом, а первый настольный чипсет для Bloomfield будет называть Tylesberg (X58 в рознице). Когда ждать домашние процессоры, не нацеленные в первую очередь на энтузиастов, с сокетом LGA1160, парой каналов DDR3 и одним линком QPI пока неизвестно. Турбо-режим будет представлен лишь двумя ступенями с возможным повышением частоты либо на 133 МГц в худшем случае, либо на 266 в лучшем – в зависимости от условий. О ценах пока говорить сложно, во всяком случае, рекомендуемые величины не будут сильно завышены относительно четырехъядерных Penryn. Что касается производительности, несмотря на NDA данные уже просачиваются в сеть. Конечно, согласно нашему рассказу об архитектуре, наибольшее влияние будет заметно в серверных приложениях, однако существует и много домашних отлично распараллеленных приложений, в которых эффект от доработок также не замедлит сказаться. Кодирование видео, 3D-рендеринг, архивация, программы, предъявляющие существенные требования к ПСП – все это работает на Bloomfield существенно быстрее, чем на Penryn. Если же разработчики не утруждались распределением потоков вычислений по нескольким ядрам, стоит ожидать небольшого увеличения скорости до 15% в сравнении со старыми Core в зависимости от приложения. Частотный потенциал процессоров радует – эксперименты по разгону показывают, что Bloomfield, несмотря на намного более сложный по сравнению с Penryn кристалл, свободно работает на частотах около 4 ГГц при воздушном охлаждении. При этом не стоит забывать, что тестируются до сих пор инженерные степпинги B0 на ранних версиях BIOS материнских плат, да и нюансы оверклокинга новых CPU не изучены. Первым серийным станет лишь степпинг B2, который принесет по обещаниям Intel как некоторый прирост производительности, так и частоты с пониженным энергопотреблением. [N17- Выводы и финальные слова] Итак, Nehalem собирается стать главным процессорным событием года. В ближайшие месяцы новая платформа Intel уже будет доступна на рынке. Для работы Bloomfield потребуется новая материнская плата, сам CPU, возможно новая память. Однако, покупая такой комплект для использования в хорошо отлаженных распараллеленных приложениях, вы точно не будете разочарованы. Будучи спроектированным с прицелом на устранение слабостей Intel на серверном рынке, не вызывает недоумения факт, что первые версии Nehalem выходят именно в многоядерном исполнении, с большим кэшем и трехканальным контроллером памяти. Взятый вектор нововведений, сделанных в готовящемся CPU от Intel, напоминает курс AMD с ее Barcelona (K10). Благодаря тому, что среди основных тенденций последнего времени в десктопных приложениях одной из наиболее значимых является переход к параллельным вычислениям, и здесь Nehalem окажется кстати, пусть и проявив свои достоинства и в меньшей мере. Самые значимые изменения, которые произошли в Nehalem, как и в случае с Penryn, фактически являются скрытыми от глаз простого пользователя. Корпорация подготовила себе базу для дальнейших резких скачков в производительности, и возможно даже общей смене концепции привычных нам CPU. При этом фундаментальные решения, принятые Intel при проектировании нового процессора, полностью соответствуют правилу, что любое энергетически-затратное нововведение должно незамедлительно отразиться на производительности. Ядра Nehalem – самые производительные и совершенные изо всех, которые когда-либо были спроектированы в Intel. Конечно, переход на Nehalem с Core отнюдь не так впечатляющ, как в свое время прыжок Net Burst на Core. Однако видя небольшие изменения сейчас, мы задаемся вопросом – а что же дальше? Ведь если говорить грубо, наибольший выигрыш в производительности Nehalem получает от возросшей ПСП и встроенного КП, а не от каких-либо фундаментальных изменений в архитектуре ядер, слабо отличающихся от Penryn/Conroe. А ведь встроить контроллер памяти в ядро можно только единожды, дальше придется искать новые способы повышения производительности. В 2009 году основные силы Intel будут брошены на Larrabee, а Nehalem лишь перейдет на более тонкий техпроцесс. В 2010 стоит ждать кардинально измененный Sandy Bridge, а до того времени именно сегодняшней эволюционировавшей от Core архитектуре в разных вариация придется защищать честь Intel на рынке центральных процессоров. Пожалуй, сейчас наибольшие опасения вызывают только несколько готовящихся сокетов от Intel. Ведь если вспомнить недавние ошибки AMD с 754/939/940/AM2/AM2+, не хочется повторения такой же “мыльной оперы” с Nehalem, процесс миграции с сокета на сокет болезнен. Будем надеяться, что корпорация усвоила уроки, данные AMD, а вот свои подлости из прошлого, когда, казалось бы, подходившая по всем параметрам материнская плата могла не принимать новые процессоры только лишь по причине не соответствия ее PWM новым формальным требованиям Intel, забудет, обеспечив долгую жизнь LGA1366 и LGA1160. Вот, пожалуй, и все, что можно сказать о Nehalem на сегодня. Мы знаем чего ждать, знаем, что изменилось, знаем положительные и отрицательные стороны архитектуры. Остается только провести полный анализ производительности CPU, подкрепив теорию практикой, а это станет возможным уже совсем скоро. |
Источник: www.anandtech.com/