Архитектура
Платформа Woodcrest представляет собой более обновленную ревизию Bensley по сравнению с тем, что предлагает Dempsey, а это значит, что Woodcrest можно будет опробовать в последних системах под Bensley. Более того, если события будут развиваться согласно намеченному Intel плану, то и Clovertown (четырехъядерный Xeon), скорее всего, при выходе получит аналогичный статус.
Теперь остановимся подробнее на каждой из перечисленных выше характеристик нового процессора.
Основные особенности
- Smart Cache – Общая на 2 ядра кэш-память L2 емкость 4 Мб
Процессоры Dempsey отличал 2 Мб-кэш второго уровня, по 1 Мб на каждое ядро. Woodcrest получили 4 Мб-кэш второго уровня, емкость которого также распределяется на два ядра. Использование двумя ядрами единой кэш-памяти исключает риск репликации данных (которая случается, когда каждое из двух ядер использует свой собственный кэш второго уровня), способствуя, таким образом, оптимизации обмена данными между двумя ядрами. Кроме того, схема с единой кэш-памятью более эффективно решает проблему неравномерных нагрузок. Если одному ядру постоянно необходим больший объем кэша, чем второму, то в случае использования двумя ядрами единой кэш-памяти второго уровня, процессор может распределить имеющиеся ресурсы соответствующим образом.
- Wide Dynamic Execution Enhancements – Ускоренный основной вычислитель
В новой микропроцессорной архитектуре Intel каждое ядро способно обрабатывать до 4 полных инструкций одновременно. Для сравнения: каждое ядро в архитектуре Opteron и NetBurst Xeon способно было обрабатывать одновременно максимум 3 инструкции.
- Macro Fusion – Макрослияние
Функция макрослияния позволяет объединять для исполнения определенное число инструкций x86 в одну. Без данной функции из очереди выбираются 4 инструкции, а затем каждая из них раскладывается на определенное число микроопераций. При использовании функции слияния, из очереди выбираются 5 инструкций и в том случае, если среди выбранных инструкций есть пара, требующая одинакового алгоритма декодирования, она отправляется для обработки одному декодеру. Таким образом, впоследствии одна цепочка микроопераций будет использоваться для исполнения двух регулярных инструкций x86.
- Проблема пропускной способности системной шины
В прошлом результаты многочисленных тестов не раз демонстрировали, что основной недостаток архитектуры Opteron состоит в недостаточной пропускной способности системной шины, что особенно негативно сказывается на производительности систем с четырьмя процессорами. Удалось ли Intel преодолеть ограничения в масштабируемости Opteron в четырехпроцессорных системах с помощью тех изменений в архитектуре, о которых мы говорили выше, пока неизвестно. Представители Intel утверждают, что с единой кэш-памятью второго уровня и двойной независимой системной шиной (Dual-Independent Bus), способной функционировать с тактовой частотой 1333 МГц, пропускная способность шины больше не может стать ограничивающим фактором, негативно влияющим на скорость системы. Правда, по словам одного из инженеров Intel, возможность появления на подложке чипа контроллера памяти все же не исключена. Напомним, что ранее представители Intel сообщили журналистам, что компания отказалась от идеи встроенного в чип контроллера памяти, который теоретически позволил бы разгрузить системную шину и увеличить скорость системы в некоторых ситуациях.
[N3-Тесты]
Для того, чтобы максимально приблизить к реальности работу системы, выполняющей широкий диапазон задач, использовался тест Dell DVD Store, в котором объем базы данных был увеличен до 14 Гб (20 млн клиентов/1 млн наименований продукции).
Также был изменен алгоритм создания драйвером очередей команд. По умолчанию драйвер сначала выстраивает все очереди, а затем начинает выполнять поступившие задачи. Поскольку в рамках данного тестирования принципиально важной являлась возможность динамического увеличения очередей команд с тем, чтобы получить необходимый объем нагрузки, была добавлена возможность увеличения числа пользователей по ходу тестирования. Кроме того, была добавлена возможность использования Windows Form приложения, что позволило сохранять информацию о соотношении объема выполняемых задач и загруженности процессора в динамике.
В GUI драйвер Forum Test также был внесен ряд аналогичных изменений.
Оба теста сохраняют результаты на сервер базы данных, после чего эти результаты усредняются в соответствии с числом выполняемых в минуту операций.
Был также разрешен прием команд из командной строки для того, чтобы разом протестировать всю платформу. Из-за 5-ти кратного прохода теста с каждым уровнем нагрузки тестирование платформы заняло около 20 часов, но многократный повтор каждого этапа необходим для того, чтобы зафиксировать возможные отклонения в результатах между первым и каждым последующим проходом теста с одинаковыми настройками и по итогам тестирования представить цифры, действительно соответствующие типичному "поведению" системы в стандартных для нее условиях. (Отклонения в результатах при тестировании Woodcrest оказались довольно низкими, в среднем – 1.6%.)
Использованные для тестирования в рамках данного обзора тесты Dell и Forum создают разную по интенсивности нагр |