Главная Программы для ПК Обзор и тестирование инженерного образца процессора с микроархитектурой AMD Zen. SMT vs СMT: возвращение к классике

Обзор и тестирование инженерного образца процессора с микроархитектурой AMD Zen. SMT vs СMT: возвращение к классике

ВведениеЗа последние несколько лет компания AMD утратила почти все завоёванные ранее позиции на рынке процессоров для настольных компьютеров. С ядрами семейства Bulldozer компания застряла в мире 32- и 28-нм чипов на планарных транзисторах, в то время как Intel раз за разом проводила архитектурные улучшения, переходила на трёхмерные транзисторы, а также внедряла производственные процессы с 22- и 14-нм нормами. В результате, в ассортименте AMD предложений для производительных компьютеров попросту не осталось, а Intel, фактически, смогла занять монопольное положение. Но к счастью, AMD со сложившейся ситуацией решила не мириться и последние несколько лет посвятила работе над новым процессорным дизайном – микроархитектурой Zen. В ней обещается всё то, что хотелось бы видеть энтузиастам в современном процессоре: высокая удельная, хорошая энергоэффективность, современная технология производства и привлекательная цена. AMD Ryzen – первые процессоры на новой микроархитектуре, и если разработчики действительно выполнили все свои обещания, то сегодня мы увидим триумфальное возвращение AMD на рынок.

Zen – огромный шаг вперёд по сравнению с прошлыми микроархитектурами AMD. Это – не дальнейшее развитие Bulldozer, а полностью новый и независимый проект, в котором удалось достичь небывалого роста эффективности. По итогам проведённой работы AMD говорит о 52-процентном приросте показателя IPC (числа исполняемых за такт инструкций) по сравнению с микроархитектурой Excavator. Кроме того, в Ryzen впервые для AMD вводится поддержка технологии SMT (Simultaneous Multi Threading), позволяющей исполнение на одном ядре двух вычислительных потоков. Одновременно с этим Ryzen выступает и первым процессором AMD, выпушенным по современному 14-нм техпроцессу с применением FinFET транзисторов, что способствует покорению высоких частот при хорошей энергоэффективности. Другое важное изменение – переезд на более современную платформу, которая ориентирована на работу с двухканальной DDR4 SDRAM.

Линейка процессоров Ryzen 7, с которой AMD выходит сегодня на рынок, включает в себя три восьмиядерных процессора с ценой от $330 до $500. Все они похожи по основным характеристикам, но отличаются по частотам. Нам удалось получить на тесты среднюю модель в семействе, четырестадолларовый Ryzen 7 1700X, который собирается составить конкуренцию Core i7-6800K или Core i7-7700K. Сборки на базе новых процессоров AMD хороши тем, что материнские платы с необходимым разъёмом Socket AM4 заметно дешевле плат для флагманских процессоров Intel, и поэтому конфигурация на базе Ryzen 7 1700X действительно может стать очень привлекательным вариантом для настольного персонального компьютера. Главное, чтобы всё, что успела наобещать AMD относительно производительности и других потребительских качеств, действительно оправдалось.

Иными словами, сегодня мы можем стать свидетелями самого грандиозного за последние пять лет события на процессорном рынке. В сферу десктопных процессоров действительно может вернуться настоящая конкуренция, а это вполне способно будет подтолкнуть заметно забуксовавший прогресс. Поэтому мы не будем откладывать самое интересное на потом, а сразу перейдём к техническим деталям, а потом и к тестам.

Микроархитектура Zen: коротко

Чтобы понять идеи, заложенные в новый процессорный дизайн, нужно знать, что при разработке микроархитектуры Zen инженеры компании AMD уделяли первостепенное внимание четырём основным аспектам. Во-первых, производительности. Инженеры старались не только добиться существенных улучшений с скорости исполнения однопоточной нагрузки, но и стремились по возможности повысить параллелизм архитектуры. Во-вторых, пропускной способности. В новых процессорах существенно улучшена кеш-память и алгоритмы предварительной выборки, а исполнительный конвейер перепроектирован так, чтобы избежать образования узких мест и вынужденных простоев. В-третьих, эффективности. Оптимизация удельной производительности на каждый затраченный ватт было ещё одним важным приоритетом. В Zen применены все имеющиеся у AMD наработки, направленные на управление питанием в активном состоянии и в простое, а также использованы все преимущества, которые даёт 14-нм техпроцесс с FinFET-транзисторами. И в-четвёртых, масштабируемости. Новые процессоры Ryzen имеют модульный дизайн, главным строительным блоком в котором является четырёхъядерный блок CCX (Core Complex). Эти блоки соединяются воедино новой скоростной шиной Infinity Fabric, что делает Zen дизайном, который может воплощаться в процессорах различной сложности и различного предназначения.

Остановимся на всех перечисленных особенностях немного подробнее.

С точки зрения производительности микроархитектура Zen делает, по словам представителей компании, «квантовый скачок» в скорости исполнения инструкций по сравнению с предыдущими дизайнами. В первую очередь это обуславливается тем, что ядра Zen больше не разделяют друг с другом никаких ресурсов, как это было в Bulldozer, они полностью самостоятельны и к тому же поддерживают технологию SMT, позволяющую исполнять два потока на одном ядре одновременно (аналог Hyper-Threading). Кроме того, каждое ядро получило существенно снижающий накладные расходы по декодированию инструкций собственный кеш микроопераций, полностью переделанный быстрый кеш первого уровня с обратной записью и низким энергопотреблением, собственный для каждого ядра блок FPU и выделенный L2-кеш, а также массу иных оптимизаций.

Благодаря тому, что объём окна планировщика увеличился на 75 процентов, в целом планировщики могут отправлять на исполнение в полтора раза больше инструкций, чем это было в ядрах Excavator. Декодер при этом расширен как минимум в полтора раза, благодаря чему Zen может отправлять значительно больше работы на свои исполнительные устройства. Кроме того, в Zen появился кеш микроопераций, который позволяет процессору обходиться без повторных обращений к L2 и L3 кешу и повторных декодирований инструкций при работе с повторяющимися участками кода. Существенно изменилась схема предсказания переходов, теперь в ней применяется аппаратная нейронная сеть, что существенно повышает процент правильно взятых ветвлений. Плюс ко всему, полной загрузке всех имеющихся ресурсов способствует поддержка SMT, позволяющая приложениям, поддерживающим параллельные вычисления, создавать вдвое больше потоков.

Производительный движок всегда нуждается в адекватной топливной подаче, и в микроархитектуре Zen немало внимания уделено и этому аспекту. Поэтому не стоит удивляться, что в ней несколько изменилась иерархия кеш-памяти. Кеш инструкций первого уровня увеличился до 64 Кбайт, а кеш первого уровня для данных стал работать по алгоритму с обратной записью. L2-кеш стал индивидуальным для каждого ядра с объёмом 512 Кбайт. А L3 кеш получил объём 8 Мбайт на каждые четыре ядра, для которых он является разделяемым в рамках Core Complex. Обладая интеллектуальными алгоритмами предварительной выборки новая система кеширования может поставлять вычислительным ядрам до пяти раз больше данных, чем было в Excavator.

Важную роль в реализации архтектуры Zen играет и 14-нм техпроцесс. Для физической реализации процессоров Ryzen компания AMD выбрала вариант техпроцесса GlobalFoundries, который ориентирован на высокоплотные дизайны. Это позволило добиться того, что ядро Ryzen имеет сравнительно небольшую площадь, работает при достаточно невысоких напряжениях питания и в конечном итоге обеспечивает выгодную зависимость энергопотребления от производительности. Кроме того, в Zen нашли применение все прошлые наработки компании, направленные на повышение энергоэффективности CPU: динамическое питание и отключение различных узлов процессора, динамическое изменение частоты. Направленные на экономию энергии решения можно обнаружить и непосредственно в микроархитектуре. Отчасти этому помогает кеш микроопераций, а кроме того, в диспетчере CPU используется специальный стековый механизм для генерации повторно используемых адресов.

Благодаря оптимизациям такого рода микроархитектура Zen имеет очень широкую сферу применимости, в перспективе она должна стать основой всего семейства процессорных продуктов AMD: для ноутбуков, десктопов и серверов.

Масштабируемость Zen отчасти опирается на то, что процессоры собираются из строительных блоков CCX объединяющих по 4 ядра и способных исполнять по 8 потоков. Каждый CCX имеет 512 Кбайт L2 кеша на ядро и общий L3-кеш объёмом 8 Мбайт. Текущие процессоры Ryzen 7, которые AMD представляет сегодня, собираются из двух CCX, и получают соответственно 8 ядер и 16 потоков. Соединяются CCX между собой специальной шиной Infinity Fabric.

Такая наборная конструкция Zen позволит AMD в перспективе выпускать процессоры с разным числом ядер и потоков, разным количеством кеш-памяти, ориентированными на различные применения и рыночные сегменты.

Немалую роль в этом играет шина Infinity Fabric, которая базируется на HyperTransport и позволяет быстро и с минимальными усилиями собирать процессорные кристаллы различной конфигурации. Высокая пропускная способность и приоритизация траффика делает Infinity Fabric хорошо подходящей для этой роли. Шина без проблем справляется с передачей данных между CCX, системной памятью и другими контроллерами, которые представлены в процессорном ядре Ryzen. Кроме того, посредством Infinity Fabric реализуется и управление параметрами отдельных CCX.

В частности, по этой же шине собирается телеметрическая информация о состоянии отдельных ядер, их температуре и потреблении, и через неё происходит управление напряжениями и частотами. Фактически, Infinity Fabric можно рассматривать в том числе и как составляющую фирменной технологии AMD SenseMI.

Технология AMD SenseMI

Важной составляющей частью процессоров Ryzen выступает распределённая сеть датчиков тока, напряжения, потребления и температуры, которая позволяет точно контролировать состояние процессора. Эти данные телеметрии собираются по шине Infinity Fabric каждую миллисекунду, что позволяет гибко управлять функционированием процессорного кристалла, сохраняя при этом его высокую отзывчивость. Технология SenseMI выступает интеллектуальной надстройкой над данным механизмом. Во-первых, она управляет процессором по шине Infinity Fabric таким образом, чтобы оптимизировать его моментальные характеристики питания и производительности. Во-вторых, в неё же включена некоторая функциональность по предварительной выборке и предсказанию переходов. В целом, технологию SenseMI можно рассматривать как декомпозицию нескольких алгоритмов различного предназначения.

Механизм Pure Power отвечает за экономию энергии и позволяет снижать частоту и напряжение тем процессорным блокам (или даже ядрам), от вклада которых в конечную скорость решения задачи ничего не зависит. Иными словами, благодаря Pure Power процессор становится более экономичным без каких-либо потерь в быстродействии.

Механизм Precision Boost решает противоположную Pure Power задачу. Используя собранные по шине Infinity Fabric телеметрические данные он может повышать частоту отдельных процессорных ядер небольшими шагами по 25 МГц, если это не приводит к выходу процессора за установленные рамки по температуре и потреблению. Иными словами, Precision Boost – это гибкая подстройка частоты процессора под текущие условия, подобная тому, как действуют современные видеокарты.

Технология Extended Frequency Range (XFR) – это привлекающий внимание энтузиастов механизм автоматического разгона процессора, зависящий от параметров его системы охлаждения. XFR реализована лишь в процессорах, которые имеют в своём названии окончание X. В них при соблюдении ряда условий она может дополнительно повышать тактовую частоту за пределы лимитов, установленных в рамках Precision Boost. В большинстве случаев XFR активируется в том случае, если температуры процессорных ядер находятся вдали от предельных значений, однако помимо абсолютных значений температур XFR ориентируется и на их производные.

Neural Net Prediction – ещё одна грань технологии SenseMI. Она означает, что в архитектуре Zen заложена настоящая обучающаяся в реальном времени нейронная сеть, которая занимается предсказанием того, как поведёт себя приложение в ближайшем будущем. Такое прогнозирование имеет смысл для того, чтобы упреждающе готовить инструкции для исполнения и данные, необходимые для них.

И последняя часть SmartMI – механизм Smart Prefetch . Он занимается предварительной выборкой необходимых данный в L1 и L2 кеши процессора на основе информации о том, как работало приложение до этого момента. Таким образом устраняются возможные простои процессора, которые могут происходить из-за несвоевременной подгрузки данных.

В итоге, нет никаких сомнений в том, что микроархитектура Zen представляет собой гигантский шаг вперёд по сравнению с Bulldozer. И дело не только в том, что для новых процессоров используется современный техпроцесс и традиционный x86-дизайн с полноценными широкими ядрами без разделяемых блоков и с поддержкой многопоточности (SMT). Сделана и масса других улучшений, благодаря чему число исполняемых одним ядром инструкций за такт выросло более чем в полтора раза. В пользу этого играет улучшенное предсказание переходов, появление кеша микроопераций, возможность отсылки на исполнение до шести микроопераций за такт (против четырёх), 60-процентное увеличение буферов планировщиков, двукратное увеличение темпа завершения и отставки микроопераций, полуторакратное увеличение глубины очередей загрузки и выгрузки данных, возможность выполнения до четырёх операций с плавающей точкой за такт (против трёх), кратное увеличение пропускной способности всех кешей и рост размеров L1-кеша, улучшения на уровне предварительной выборки данных и масса всего прочего.

Тестовый процессор: AMD Ryzen 7 1700X

Сегодня, 2 марта 2017 года, компания AMD начинает продажи первой партии своих принципиально новых процессоров Ryzen. И это – воистину историческое событие: продуктов, на которые был бы возложен подобный груз ожиданий, на процессорном рынке не было уже очень давно. Шутка ли – AMD собирается составить конкуренцию старшим интеловским процессорам для высокопроизводительных десктопов, но при этом чуть ли не вдвое понизить ценовую планку.

В течение первой фазы вывода Ryzen на рынок AMD собирается сделать ставку на свои восьмиядерные процессоры, отнесённые к семейству Ryzen 7. Это – наиболее дорогие десктопные носители новой микроархитектуры Zen со стоимостью от $330 до $500. Но несмотря на относительно высокую цену, компания ожидает чуть ли не ажиотажного спроса на новинку и серьёзно подготовилась к нему. Товарные партии Ryzen 7 уже лежат на складах ведущих магазинов, а всего AMD предварительно произвела порядка миллиона процессоров.

В позиционировании новинок AMD придерживается несколько иных принципов, нежели Intel. Компания явно делает ставку на большую массовость. При этом Ryzen 7 1800X она видит, как вдвое более дешёвую альтернативу для Core i7-6900K. Ryzen 7 1700X противопоставляется не восьмиядернику, а похожему по цене шестиядерному процессору Core i7-6800K. Ryzen 7 1700 же объявлен прямым конкурентом для четырёхъядерного Core i7-7700K. Иными словами, старая тактика AMD, когда она пыталась противопоставлять предложениям Intel превосходящее число ядер по более низкой цене, находит отражение и в новой линейке. Однако теперь ядра у AMD куда производительнее, чем раньше, и семейство Ryzen 7 действительно выглядит очень сильным.

Для знакомства с новой линейкой процессоров мы получили от компании AMD среднюю модель, Ryzen 7 1700X, которая интересна тем, что с её помощью можно строить конфигурации с не слишком высокой стоимостью – от 80 до 100 тысяч рублей.

Необходимо иметь в виду, что процессоры Ryzen устанавливаются в специальный новый разъём Socket AM4, который теперь становится базовым для всего ассортимента процессоров AMD для настольных компьютеров. И это значит, что старые материнские платы не подходят – нужны новые, основанные на наборах логики AMD X370, B350 и проч.

Вот таким образом определяется Ryzen 7 1700X диагностической утилитой CPU-Z.

Перед нами новый 8-ядерный процессор компании AMD с кодовым именем Summit Ridge и микроархитектурой Zen, который выделяется поддержкой SMT и способностью исполнять 16 потоков одновременно, кеш-памятью второго уровня объёмом 512 Кбайт на ядро и L3-кешем из двух частей по 8 Мбайт.

Номинальная частота Ryzen 7 1700X установлена в 3,4 ГГц, однако в большинстве случаев можно наблюдать работу этого процессора при частоте 3,5 ГГц – сказывается работа технологии Precision Boost. При этом при низкопоточной нагрузке частота может возрастать до 3,8 ГГц, а если повезёт, то и до 3,9 ГГц за счёт XFR.

Напряжение питания у нашего экземпляра Ryzen 7 1700X под нагрузкой колебалось в пределах 1,25-1,275 В. AMD говорит, что штатные напряжение для разных Ryzen 7 могут быть выставлены в очень широких пределах и типично составляют от 1,2 до 1,3625 В. Это значит, что в сравнении с 14-нм процессорами Intel мы будем видеть более высокие напряжения. Поэтому температурный режим Ryzen 7 1700X в номинале особых опасений не вызывает. Под нагрузкой мы наблюдали нагрев до 76-78 градусов по встроенному в ядро термодатчику. В состоянии покоя же температуры составляют порядка 45 градусов.

Платформа Socket AM4 и новые чипсеты

Как уже говорилось, процессоры семейства Ryzen ориентированы на использование принципиально новой платформы и нового разъёма Socket AM4. Связано это в первую очередь с тем, что у AMD возникла необходимость во внедрении поддержки DDR4-памяти, которая к настоящему времени завоевала место индустриального стандарта. А заодно, пользуясь моментом, было решено перекроить всю платформу, сделав процессоры похожими на SoC. Иными словами, в интегрированный северный мост процессора был перенесён дополнительный набор контроллеров, что сделало чипсеты нового поколения крайне простыми устройствами.

Вследствие этого неудивительно, что новый процессорный разъём AM4 получил возросшее число контактов – их теперь 1331. Это значит, что Ryzen не имеют совместимости ни с какими старыми материнскими платами. К тому же AMD изменила требования к расположению на материнских платах крепёжных отверстий для систем охлаждения, и поэтому для Ryzen требуются новые кулеры или по крайней мере, новые крепления для старых. Поэтому несмотря на то, что Ryzen на первый взгляд похожи на предшественников, имеют аналогичные габариты и внешнее исполнение, вся экосистема для них должна быть полностью обновлена.

В процессорах Bulldozer в процессорном кристалле был реализован контроллер памяти. В APU последних поколений в основной чип переехал и контроллер для графической шины PCI Express. В Ryzen же в процессоре добавились дополнительные линии PCI Express, порты USB и SATA. Фактически, сейчас AMD создала ситуацию, когда процессор может работать вообще без каких-либо дополнительных наборов логики, что делает возможным создание крайне простых и компактных материнских плат.

Однако начать стоит с того, что встроенный контроллер памяти в процессорах Ryzen – абсолютно новый. Он рассчитан на работу с двухканальной DDR4 SDRAM и поддерживает исключительно такую память. Обратной совместимости с DDR3 SDRAM не предусматривается. Официально контроллер памяти Ryzen поддерживает модули DDR4 с частотой до 2666 МГц для которых на Socket AM4-материнских платах может быть предусмотрено два или четыре слота. Память с частотой выше DDR4-2666 с Ryzen тоже может применяться, но авторы процессора в этом случае не дают никаких гарантий.

Впрочем, с использованием в Socket AM4 скоростных модулей памяти могут возникать проблемы. Максимальная частота DDR4, которая может быть получена в Ryzen без изменения базовой частоты BCLK, составляет всего лишь 3200 МГц. Причём, работа DDR4-2933 или DDR4-3200 памяти возможна только в случае использования пары модулей. Иными словами, по частотным возможностям контроллера памяти Ryzen сильно уступает текущим процессорам Intel для платформы LGA 1151, которые свободно покоряют режимы DDR4-4000 и выше. Но пока остаётся некоторая надежда на то, что ситуация может быть исправлена через новые версии BIOS для материнских плат.

Помимо встроенного контроллера памяти с поддержкой двухканальной DDR4 SDRAM, Ryzen предоставляет:

16 линий PCI Express 3.0 для графической карты (при необходимости могут делиться на два слота по формуле 8x + 8x);
4 линии PCI Express 3.0 для соединения с чипсетом, либо для других устройств;
4 порта USB 3.0;
4 линии PCI Express 3.0 для NVMe-накопителя (могут быть переконфигурированы в 2 линии PCI Express 3.0 для NVMe-накопителя и два SATA-порта).

Таким образом, из одного только процессора Ryzen получается полноценная система-на-чипе.

Однако для типичных настольных систем имеющихся в процессоре средств расширения скорее всего окажется недостаточно. Поэтому к процессору по отведённым для этой цели линиям PCI Express может быть подсоединён один из наборов логики – X370, B350 или A320, которые добавят к указанному перечню какие-то дополнительные вещи. А если нужды в этом нет, то существует возможность укомплектовать Ryzen и специальными упрощёнными Mini-ITX чипсетами X300 или A300, которые процессорные линии PCI Express 3.0 на себя не расходуют, но и к списку возможностей почти ничего не добавляют.

Основная масса свойств платформы Socket AM4 определяется именно процессором Ryzen. Чипсеты в новой платформе играют сугубо второстепенную роль, и на самом деле от них в плане функциональности платформы зависит немногое.

Даже старший набор логики X370, который скорее всего будет использоваться в большинстве материнских плат для энтузиастов, привносит не так уж и много: дополнительные два порта USB 3.1, по шесть портов USB 3.0 и USB 2.0, восемь портов SATA, четыре из которых могут быть конвертированы в два интерфейса SATA Express, и восемь дополнительных медленных линий PCI Express 2.0. Плюс, в платформе Socket AM4 использование того или иного чипсета либо разрешает, либо запрещает разгон, деление графических линий PCI Express 3.0 x16 и режимы RAID для SATA-портов. Например, в том же X370 как в старшем чипсете допускается и разгон, и SLI или CrossfireX-конфигурации, и RAID-массивы уровня 0, 1 и 10.

Наряду с X370 заинтересовать продвинутых пользователей может и более простой набор логики B350. В нём остался разрешён разгон процессора и RAID-массивы, а главное отличие от старшего варианта касается невозможности делить процессорную графическую шину на два слота. Кроме того, под нож попала часть портов USB 3.0 и SATA, которых в чипсете осталось два и шесть соответственно, плюс число линий PCI Express 2.0 сократилось до шести.

Ещё одна любопытная альтернатива – X300 – чипсет, который специально предназначается для простых компактных систем. Он к возможностям процессора ровным счётом ничего не добавляет, зато разрешает деление графической шины PCI Express 3.0 x16 на два слота и позволяет разгон процессора.

Детальные сведения о том, какие возможности предлагают в сочетании с Ryzen дают те или иные чипсеты, мы свели в следующей таблице.

Хотя наборы логики и несут на себе название AMD, в их разработке первоочередную роль играла компания ASMedia, известная по своим разнообразным контроллерам. Именно благодаря ей AMD смогла первой вывести на рынок наборы логики с поддержкой портов USB 3.1 с пропускной способностью 10 Гбит/с. Однако врождённой поддержки разъёмов Type-C при этом в чипсетах AMD нет. Для того, чтобы на плате появился удобный симметричный разъём USB, производителям материнок придётся раскошелиться на дополнительный чип-драйвер.

Благодаря поддержке USB 3.1 наборы логики для платформы Socket AM4 выглядят современно, но особенно обольщаться по поводу их возможностей всё-таки не следует. В то время как интеловские наборы логики двухсотой серии могут обеспечивать работу до 30 высокоскоростных портов (PCIe 3.0, SATA и USB 3.0), даже у старшего AMD X370 таких портов вдвое меньше. Частично это компенсируется возможностями встроенного в процессор северного моста, но тем не менее платформа Intel позволяет создавать более гибкие конфигурации с более широкими возможностями подключения дополнительных устройств.

Для проведения тестирования мы получили материнскую плату ASUS Crosshair IV Hero.

Эта материнская плата базируется на старшем наборе логики AMD X370 и использует его потенциал по-максимуму. Плата поддерживает разделение графической шины PCI Express 3.0 на два слота и конфигурации, построенные по технологиям SLI и CrossfireX. Оба графически слота на этой плате усилены металлическими рамками SafeSlot и широко расставлены для того, чтобы можно было установить в них массивные и мощные GPU.

Плата поддерживает разгон, причём её оверклокерские настройки сделаны так, чтобы эксплуатация процессора на повышенных частотах не вызывала проблем. Для охлаждения компонентов системы предусматривается технология Fan Xpert, позволяющая управлять всеми пятью вентиляторами, которые подключаются к плате. Как и на последних платах серии ROG для LGA 1151, ASUS Crosshair IV Hero имеет выделенные разъёмы для подключения помпы жидкостной системы охлаждения, а также датчиков температуры и скорости течения хладагента. Предусмотрен и специальный разъём для вентиляторов повышенной мощности.

Важной особенностью систем на базе Ryzen является то, что слот M.2 для NVMe-накопителей подключается напрямую к процессорным линиям PCI Express 3.0. Именно так сделано и на Crosshair IV Hero. Никаких ограничений по скорости нет – на M.2 заведено четыре необходимых линии PCIe. При этом сам слот M.2 отнесён подальше от процессора и видеокарт – туда, где ему будет легче организовать адекватное охлаждение.

Плата оборудована модной нынче RGB-иллюминацией, которая управляется через приложение ASUS Aura RGB. Также к Crosshair IV Hero можно подключить и дополнительные светодиодные ленты.

Интегрированная звуковая карта базируется на эксклюзивном кодеке последнего поколения S1220, который обеспечивает соотношение сигнал-шум на уровне 113 дБ. Этот кодек работает в связке с ЦАП премиального уровня ESS Sabre, что в сумме позволяет получить качество звучания, сравнимое с тем, которое дают недорогие дискретные звуковые карты. Кроме того, к звуковому тракту прилагается программа Sonic Studio III, позволяющая легко управлять звуковыми потоками. Например, с её помощью можно направить звуки из игры на наушники, музыку – на колонки, а звук от видео – на телевизор.

Если кратко, то характеристики ASUS Crosshair IV Hero выглядят так:

Гигабитная сеть на плате представлена привычным интеловским контроллером, который укомплектован программой GameFirst для приоритизации сетевого траффика. Кроме того, на плате есть дополнительный слот M.2, в который можно установить WiFi-контроллер.

Задняя панель платы плотно наполнена портами, плюс на неё перенесены аппаратные кнопки Clear CMOS и BIOS Flashback. Но основную площадь занимают многочисленные порты USB, среди которых есть 10 Гбит/с порт USB 3.1 в вариантах Type-A и Type-C. Кстати, на плате предусмотрен и вывод для порта USB 3.1, который размещается на передней панели корпуса.

Рекомендованная цена ASUS Crosshair IV Hero - $255.

Как мы тестировали

Тестирование процессора AMD Ryzen 7 1700X было проведено в полном соответствии с заветами производителя: флагманский продукт AMD был противопоставлен всей актуальной линейке процессоров Core i7. Кроме того, не забыли мы включить в тесты и старший процессор линейки AMD FX.

В конечном итоге, полный список задействованных в тестовых системах комплектующих получил следующий вид:

Процессоры:

AMD Ryzen 7 1700X (Summit Ridge, 8 ядер + SMT, 3,4-3,8 ГГц, 16 Мбайт L3);
AMD FX-9590 (Vishera, 8 ядер, 4,7-5,0 ГГц, 8 Мбайт L3);
Intel Core i7-7700K (Kaby Lake, 4 ядра + HT, 4,2-4,5 ГГц, 8 Мбайт L3);
Intel Core i5-7600K (Kaby Lake, 4 ядра, 3,8-4,2 ГГц, 8 Мбайт L3);
Intel Core i7-6900K (Broadwell-E, 8 ядер + HT, 3,2-4,0 ГГц, 20 Мбайт L3);
Intel Core i7-6800K (Broadwell-E, 6 ядер + HT, 3,4-3,8 ГГц, 15 Мбайт L3).

Процессорный кулер: Noctua NH-U14S.
Материнские платы:

ASUS Crosshair IV Hero (Socket AM4, AMD X370);
ASUS 970 PRO Gaming/Aura (Socket AM3+, AMD 970 + SB950);
ASUS Maximus IX Hero (LGA1151, Intel Z270);
ASUS X99-Deluxe (LGA2011-v3, Intel X99).

Память:

2 × 8 Гбайт DDR4-3000 SDRAM, 15-17-17-35 (Corsair Vengeance LPX CMK16GX4M2A3000C15).
4 × 4 Гбайт DDR4-3000 SDRAM, 15-17-17-35 (G.Skill F4-3000C15Q-16GRR).
2 × 8 Гбайт DDR3-2133 SDRAM, 9-11-11-31 (G.Skill F3-2133C9D-16GTX).

Видеокарта: NVIDIA GeForce GTX 1080 (8 Гбайт/256-бит GDDR5X, 1607-1733/10000 МГц).
Дисковая подсистема: Kingston HyperX Savage 480 GB (SHSS37A/480G).
Блок питания: Corsair RM850i (80 Plus Gold, 850 Вт).

Тестирование выполнялось в операционной системе Microsoft Windows 10 Enterprise Build 14393 с использованием следующего комплекта драйверов:

AMD Chipset Driver Crimson ReLive Edition 17.2.1;
Intel Chipset Driver 10.1.1.38;
Intel Management Engine Interface Driver 11.6.0.1030;
Intel Turbo Boost Max Technology 3.0 1.0.0.1029;
NVIDIA GeForce 378.66 Driver.

Производительность

Комплексная производительность

Для оценки производительности процессоров в общеупотребительных задачах мы воспользовались тестовым пакетом BAPCo SYSmark 2014 SE, который моделирует работу пользователя в реальных распространённых современных офисных программах и приложениях для создания и обработки цифрового контента. Последние версии этого бенчмарка оперируют четырьмя сценариями: Office Productivity (офисная работа: подготовка текстов, обработка электронных таблиц, работа с электронной почтой и посещение интернет-сайтов), Media Creation (работа над мультимедийным контентом - создание рекламного ролика с использованием предварительно отснятых цифровых изображений и видео), Data/Financial Analysis (обработка архива с финансовыми данными, их статистический анализ и прогнозирование инвестиций на основе некой модели) и Responsiveness (анализ отзывчивости системы при запуске приложений, открытии файлов, работе с интернет-браузером с большим количеством открытых вкладок, мультизадачности, копировании файлов, пакетных операциях с фотографиями, шифровании и архивации файлов и установке программ).

AMD противопоставляет Ryzen 7 1700X шестиядерному процессору Core i7-6800K, однако как мы видим, по интегральному показателю в SYSmark 2014 SE новинка AMD ему всё-таки уступает, демонстрируя уровень производительности Core i5. Проблема в том, что большая часть общеупотребительных приложений остаётся однопоточными, а при такой нагрузке Ryzen всё же слабее интеловских архитектур, хоть и не на много. Яркую иллюстрацию этому можно увидеть по результатам исполнения сценария Office Productivity. В сложной же многопоточной нагрузке, в особенности счётного характера, с производительностью у Ryzen 7 1700X всё в порядке. Так, в подтесте Data/Financial Analysis новый Ryzen 7 1700X не только обгоняет шестиядерный Core i7-6800K, но и оказывается сильнее интеловского восьмиядерника Core i7-6900K.

Для оценки комплексного быстродействия в игровом 3D был использован тест Futuremark 3DMark Professional Edition 2.2.3509, в котором мы воспользовались сценой Time Spy 1.0.

Этот бенчмарк хорошо оптимизирован под многопоточность, поэтому Ryzen 7 1700X демонстрирует в нём очень хорошую скорость. Микроархитектура Zen позволила AMD сделать полноценный восьмиядерник, и его производительность ближе к Core i7-6900K, чем к прямому конкуренту – Core i7-6800K.

Тесты в приложениях

Задачей, которая наиболее чувствительно реагирует на наращивание процессорного параллелизма, традиционно выступает финальный рендеринг в пакетах трёхмерного проектирования и моделирования. Скорость рендеринга мы тестировали в двух популярных приложениях: в Autodesk 3ds max 2017, где измеряли время, затрачиваемое на рендеринг в разрешении 1920 × 1080 с применением рендерера mental ray стандартной сцены Hummer; и в Blender 2.78a где проверялась продолжительность построения финальной модели из Blender Cycles Benchmark rev4.

Ryzen 7 1700X полностью выполняет взятые на себя обязательства и при рендеринге показывает производительность, которую ранее могли обеспечить лишь восьмиядерные процессоры Intel. Однако при этом следует напомнить, что Ryzen 7 1700X стоит примерно в два с половиной раза дешевле Core i7-6900K.

Следующая тестовая задача – обработка изображений. Здесь используется Adobe Lightroom 6.8 и Adobe Photoshop CC 2017. В первом случае тестируется производительность при пакетной обработке серии изображений в RAW-формате. Тестовый сценарий включает постобработку и экспорт в JPEG с разрешением 1920 × 1080 и максимальным качеством двухсот 12-мегапиксельных изображений в RAW-формате, сделанных цифровой камерой Nikon D300. Во втором - производительность при обработке индивидуальных графических изображений. Для этого измеряется среднее время выполнения тестового скрипта, представляющего собой творчески переработанный Retouch Artists Photoshop Speed Test, который включает типичную обработку четырёх 24-мегапиксельных изображений, сделанных цифровой камерой.

Приложения Adobe для фотографов – с особенностями. В Photoshop многие фильтры и операции до сих пор выполняются в однопоточном режиме. Lightroom же стал активно использовать AVX2-инструкции. И то, и другое – плохо для микроархитектуры Zen, поэтому в обоих тестовых задачах процессор Ryzen 7 1700X проигрывает даже четырёхъядерному Core i5, не говоря уже о интеловских процессорах более высокого класса.

Зато обработка видео, как и рендеринг, считается задачей, производительность которой отлично масштабируется при росте параллелизма процессора. Здесь для тестирования мы пользовались четырьмя задачами. Adobe After Effects CC 2017 – тестирование скорости рендеринга методом трассировки лучей. Измеряется время, затрачиваемое системой на обсчёт в разрешении 1920 × 1080@30fps заранее подготовленного видеоролика. Adobe Premiere Pro CC 2017 - тестирование производительности при нелинейном видеомонтаже. Измеряется время рендеринга в формат H.264 Blu-Ray проекта, содержащего HDV 1080p25 видеоряд с наложением различных эффектов. x264 r2744 - тестирование скорости транскодирования видео в формат H.264/AVC. Для оценки производительности используется исходный 1080p@50FPS AVC-видеофайл, имеющий битрейт около 30 Мбит/с. И x265 2.2+17 8bpp - тестирование скорости транскодирования видео в перспективный формат H.265/HEVC. Для оценки производительности используется тот же видеофайл, что и в тесте скорости транскодирования кодером x264.

При работе с видео, как и при финальном рендеринге Ryzen 7 1700X очень хорош. Он действительно может тягаться с тысячедолларовым Core i7-6900K, что делает новинку AMD просто идеальным выбором для пользователей, которые создают мультимедийный контент.

Для измерения быстродействия процессоров при компрессии информации мы выбрали два архиватора: 7-zip 16.04 и WinRAR 5.40. В обоих случаях измерялось время, затрачиваемое на сжатие с максимальной степенью компрессии директории с различными файлами общим объёмом 1,7 Гбайт.

Для быстрой работы архиваторов важна хорошая пропускная способности и низкая латентность подсистемы памяти. Контроллер памяти процессоров Ryzen же получился крайне неудачным, поэтому в этих тестах Ryzen 7 1700X можно сопоставить лишь с интеловскими четырёхъядерниками.

Производительность работы браузера Microsoft Edge была проверена в специализированном тесе WebXPRT 2015, реализующий на HTML5 и JavaScript реально использующиеся в интернет-приложениях алгоритмы.

Задача однопоточная, но Ryzen 7 1700X держится на неплохом уровне, уступая лишь процессорам Intel на базе микроархитектуры Kaby Lake.

В заключение мы проверили скорость работы криптографических алгоритмов в утилите VeraCrypt 1.19 Здесь был задействован встроенный в программу бенчмарк, задействующий тройное шифрование Serpent-Twofish-AES.

Задача однопоточная, плюс реализация набора AES-инструкций в Zen очень эффективна. Результат не заставляет себя ждать: Ryzen 7 1700X – на первом месте.

Игровая производительность

До недавних пор производительность платформ, оснащенных современными процессорами, в подавляющем большинстве актуальных игр определялась возможностями графической подсистемы. Однако произошедший за несколько последних лет бурный рост производительности игровых видеокарт привёл к тому, что теперь нередко производительность стала ограничиваться не столько видеокартой, сколько центральным процессором. И если раньше, чтобы понять геймерский потенциал того или иного CPU, нам приходилось использовать уменьшенные разрешения, то с современными видеокартами это делать совсем не обязательно.

Для комплектации нашей процессорной тестовой системы компания NVIDIA предоставила нам свой новейший ускоритель GeForce GTX 1080, который благодаря беспрецедентно высокой мощности хорошо подходит и для 4K-разрешений, и для виртуальной реальности, а уж для FullHD – и подавно. В результате мы смогли отказаться от игровых тестов в разрешении 1280 × 800, которые нередко не встречали понимания у наших читателей. Теперь зависимость частоты кадров от мощности CPU отлично можно проследить в абсолютно реальных, а не искусственно созданных условиях: в FullHD-разрешении 1920 × 1080 и с максимальными настройками качества изображения. Этот подход мы и взяли на вооружение.

Игры особого повода для оптимизма в отношении Ryzen не дают. Нет, конечно это – не процессоры серии FX, игровая производительность которых уже стала поводом для насмешек. Ryzen 7 1700X выдаёт более чем приемлемый на современном этапе уровень игровой производительности, и видеокарты класса GeForce GTX 1080 он, безусловно, вытягивает без вопросов. Но если смотреть на относительные показатели быстродействия, то окажется, что любые актуальные процессоры Intel Core i7 и даже Core i5 имеют более высокий игровой потенциал – при высоком качестве графики это видно даже в самом обычном FullHD-разрешении. Причины такого положения дел хорошо понятны: медленный контроллер памяти Ryzen и более слабая, чем у интеловских процессоров, скорость работы FPU-части.

Тем не менее, нужно ещё раз подчеркнуть, что на данный момент мощности Ryzen 7 1700X прекрасно хватает для того, чтобы обеспечивать высокую частоту кадров в играх. И поэтому считать его недостаточно производительным игровым CPU всё же не следует. К тому же у нового продукта AMD в наличии восемь полноценных ядер, которые могут стать хорошим подспорьем в новых геймерских проектах, которые хоть и робко, но всё-таки движутся в сторону полноценного задействования многопоточности и перехода на DirectX 12.

Энергопотребление

Ситуация с энергопотреблением – ещё один интригующий раздел сегодняшнего тестирования. AMD перевела свои процессоры на современный 14-нм техпроцесс и оптимизировала архитектуру с явным прицелом на энергоэффективность. В результате теперь компания заявляет, что восьмиядерные Ryzen вписываются в 95-ваттный тепловой пакет. То есть, они должны быть заметно экономичнее интеловских LGA 2011-3-процессоров с типичным тепловыделением на уровне 140 Вт. Стала ли ситуация с реальным энергопотреблением тем местом, где Ryzen 7 1700X cможет одержать безоговорочную победу над конкурентом? Давайте проверим.

Используемый нами в тестовой системе новый цифровой блок питания Corsair RM850i позволяет контролировать потребляемую и выдаваемую электрическую мощность, чем мы и пользуемся для измерений. На графике ниже приводится полное потребление систем (без монитора), измеренное «после» блока питания и представляющее собой сумму энергопотребления всех задействованных в системе компонентов. КПД самого блока питания в данном случае не учитывается.

В простое платформа Socket AM4 действительно выглядит очень экономичной. И это неудивительно, в Ryzen применены передовые энергосберегающие технологии, не отличается особыми энергетическими аппетитами и сопровождающие его наборы логики.

А вот при рендеринге в Blender ситуация с потреблением выглядит немного не так, как ожидалось. Под нагрузкой система с Ryzen 7 1700X требует энергии примерно столько же, сколько и платформа на базе Core i7-6900K. А это вызывает сомнения в том, что Ryzen 7 действительно вписывается в 95-ваттный тепловой пакет.

А вот как выглядит ситуация с потреблением при максимально возможной нагрузке: в утилите Prime 28.10, которая активно использует чрезвычайно энергоёмкие FMA- и AVX2-инструкции.

В предельном потреблении Ryzen 7 1700X всё же удаётся немного отстать от Core i7-6900K. Речь, конечно, идёт не о 30-процентной разнице, о которой говорится в спецификациях, а об отличии на уровне всего нескольких ватт. В теории Ryzen 7 1700X должен был быть ближе к Core i7-7700K, тепловой пакет которого установлен в 91 Вт, однако на практике предложение AMD заметно прожорливее.

Разгон

Гонится Ryzen, к сожалению, плохо. Очевидно, что номинальные частоты у этих процессоров задраны до предела ещё на заводе. Поэтому рассчитывать на то, что производительность удастся дополнительно повысить несложными манипуляциями, не приходится.
Стабильный максимум, которого удалось добиться с нашим экземпляром Ryzen 7 1700X, составил всего лишь 3,85 ГГц, то есть выйти за пределы турбо-режима нам удалось лишь на самую малость. Более же высокую частоту процессор уже не брал.

Да и то, для того, чтобы система могла пройти тестирование на стабильность в Prime 95 28.10, напряжение питания процессора пришлось задирать более чем серьёзно – до 1,5 В. В том, что долговременная эксплуатация 14-нм чипа при таком напряжении не будет приводить к деградации полупроводникового кристалла, есть вполне обоснованные сомнения.

Кроме того, не слишком благоприятным оказался и температурный режим при таком, казалось бы, незначительном разгоне. Несмотря на то, что у Ryzen под крышкой припой, а не паста, встроенный в процессорный кристалл термодатчик фиксировал нагрев до 99 градусов.

Выводы

Все мы очень на это надеялись, и это случилось: AMD смогла. Новые процессоры Ryzen кардинально отличаются от Bulldozer. Микроархитектура в них полностью обновилась, и теперь Ryzen 7 – это продукт высокого уровня. Как и было обещано, однопоточная производительность в новинке выросла примерно в полтора раза, а энергопотребление примерно так же понизилось. В итоге, у AMD получился высокопроизводительный восьмиядерный процессор, который действительно можно ставить на одну ступень с интеловскими предложениями для платформы LGA 2011-3. Кроме того, AMD, похоже, в свете своего возвращения на рынок имеет весьма амбициозные планы, поскольку попутно пытается сломать устоявшееся ценообразование, и начать предлагать качественные восьмиядерники по небывало низким ценам.

В результате новая платформа AMD может стать очень привлекательным решением для тех пользователей, которым требуется высокая многопоточная производительность. Как показали наши всесторонние тесты, лучшие результаты Ryzen 7 показывает при работе над цифровым контентом – при рендеринге и в обработке видео. И это значит, что профессионалы и любители, которые выбирают конфигурации для работы, а не для развлечений, должны серьёзно задуматься о том, чтобы выбрать для себя процессоры Ryzen 7. Однако эта рекомендация не распространяется на фотографов: с графическими редакторами новая микроархитектура AMD показывает себя неважно.

Что же касается более массовых применений компьютеров – игр, то для них Ryzen является далеко не лучшим выбором. В дизайне новых процессоров AMD есть два слабых места: контроллер памяти и относительно слабый блок FPU. И то, и другое в игровых задачах имеет очень большое значение. Поэтому в них восьмиядерные процессоры AMD выдают лишь производительность уровня Core i5. Конечно, это отнюдь не приговор, потому что такой скорости в целом для современных графических карт вполне достаточно.

И тем не менее, по итогам рассмотрения можно сказать, что Ryzen 7 – это однозначный успех AMD. Компания возвращается в верхние ценовые сегменты, а большего пока и не нужно. Будем надеяться, что инженеры компании теперь смогут придерживаться установленного ими же самими графика и будут ежегодно выдавать усовершенствованные версии Zen, в которых все узкие места этой микроархитектуры будут постепенно исправляться.

На своей собственной стороне на этой неделе AMD пригласила избранных представителей прессы и аналитиков прийти и обсудить следующий уровень дзэн-данных. В этой части мы обсуждаем анонсы микроархитектуры, которые были сделаны, а также посмотрите, как это сравнивается с предыдущими поколениями основных конструкций AMD.

AMD Zen

Прогнозирование, декодирование, очереди и выполнение

Прежде всего, давайте погрузимся прямо в блок-схему, как показано:

Если мы сосредоточимся только на левом, чтобы начать, мы можем увидеть большинство деталей микроархитектуры высокого уровня, включая базовые кэши, новое включение op-cache, некоторые подробности об декодерах и диспетчерах, планировщиках, портах выполнения и загрузке / хранении договоренности. Несколько слайдов позже в презентации говорят о пропускной способности кэша.

Во-первых, одно из больших отклонений от предыдущих архитектур микроархитектуры AMD - это наличие микро-операционного кеша (может быть, стоит отметить, что эти слайды иногда говорят о том, когда это означает микрооперацию, что создает небольшую путаницу). Дизайн Bulldozer AMD не имел кэша операций, требуя, чтобы он извлекал детали из других кешей для реализации часто используемых микроопераций. Intel реализовала аналогичную договоренность в течение нескольких поколений с большим эффектом (некоторые из них стали основным шагом для Conroe), поэтому увидеть ее здесь достаточно многообещающе для AMD. Нам не сообщили о масштабах или объеме этого буфера, и AMD, возможно, предоставит эту информацию со временем.

Помимо ожидаемых «усовершенствований предсказания ветвей», которые так же неопределенны, как они звучат, AMD пока не раскрыла устройства декодера в Zen, но указала, что они могут декодировать четыре команды за цикл для подачи в очередь операций, Эта очередь, с помощью op-cache, может доставлять 6 ops / cycle для планировщиков. Причины, по которым очередь может отправлять больше за цикл, - это то, что декодер может предоставить инструкцию, которая затем попадает в два микрооператора (что упрощает определение команд и микроопераций). Тем не менее, эта очередь микроопераций помогает подавать отдельные целые и сегменты с плавающей запятой CPU. В отличие от Intel, которая использует комбинированный планировщик для INT / FP, диаграмма AMD предполагает, что в это время они останутся отдельными со своими собственными планировщиками.

На стороне INT сердечника будут выполняться операции ALU, а также операции AGU / загрузки и хранения. Устройства загрузки / хранения могут выполнять 2 16-байтовые нагрузки и один магазин 16-Byte за цикл, используя 32 KB 8-путь, набор ассоциативной записи L1 Data cache. AMD явно сделала это кешем обратной записи, а не кешем записи, который мы видели в Bulldozer, который был источником большого количества времени простоя в определенных кодах. AMD также заявляет, что нагрузка / магазины будет иметь более низкую задержку в кэшах, но не объяснила, в какой степени они улучшились.

Сторона FP ядра обеспечит два порта с несколькими портами и два ADD-порта, что должно предусматривать две объединенные операции FMAC или один 256-бит AVX за цикл. Комбинация сегментов INT и FP означает, что AMD собирается для широкого ядра и хочет использовать значительное количество параллелизма на уровне инструкций. Насколько он будет зависеть от кэшей и буферов переупорядочения - реальных данных о буферах не было дано в настоящее время, за исключением того, что в ядрах будет добавлено окно планировщика команд большего размера + 75% для операций упорядочения и + 50 % более широкая ширина вопроса для потенциальной пропускной способности. Более широкие ядра, при прочих равных условиях, позволят AMD одновременно использовать многопоточность, чтобы потенциально использовать несколько потоков с линейным и, естественно, низким уровнем IPC.

Чего нам ждать от компании в 2017 году?

Некоторое время назад AMD поделилась с широкой общественностью очередной порцией данных о новой микроархитектуре Zen, а также платформе AM4, которая (вкупе с новыми процессорами и APU) со следующего года должна стать основным продуктом компании для десктопного рынка. Понятно, что предварительная информация исчерпывающей не является, однако она достаточно интересна, поскольку позволяет примерно понять, чего следует ждать от новых продуктов (а чего - не стоит). Это и явилось поводом для написания данного материала, посвященного не микроархитектурным тонкостям (безусловно, важным, но далеко не всем), а, скажем так, потребительским характеристикам новой платформы.

Текущие проблемы

Как мы уже писали почти два года назад , последние несколько лет ситуация с настольными платформами AMD выглядела несколько странной. Фактически основные события происходили в области APU (как компания называет процессоры с интегрированной графикой), где с 2011 года сменились две с половиной платформы: FM1, FM2 и совместимая с последней сверху вниз FM2+. Впрочем, все перечисленные решения (даже платформу FM1 , на рынке не слишком задержавшуюся) можно считать современными: высокая степень интеграции позволяет создавать законченные системы, используя буквально пару чипов - собственно процессор (большинство которых снабжено отличными по меркам интегрированных решений GPU) и чипсет. Линейка же чипсетов также соответствует современным требованиям - в плане интеграции функциональных возможностей AMD очень часто опережала Intel, первой снабдив свои микросхемы и встроенной поддержкой USB 3.0, и скоростью в 6 Гбит/с для всех SATA-портов, например. Единственное, что мешало широкой экспансии решений для этой платформы - относительно невысокая производительность и высокое энергопотребление процессорной части APU в сравнении с конкурирующими решениями. Более высокую производительность можно было получить, выбирая решения для платформы АМ3+, по сути восходящей еще к платформам начала века. Да и сами по себе многомодульные процессоры для нее существенно не обновлялись с 2012 года, так что могли продаваться лишь благодаря низким ценам при относительно высокой себестоимости, обусловленной использованием уже порядком устаревшего техпроцесса 32 нм. Последнее в какой-то степени касалось и APU, которые за время существования «перешли» с упомянутых норм лишь на 28 нм, что тоже пиком технологий давно не является - во многом именно это вызывало упомянутые проблемы с энергопотреблением.

Стоит отметить, что такое положение дел компания «нормальным» не считала никогда: унификация платформ изначально планировалась как раз на 2012 год. Однако на практике этого не случилось, так что своеобразное «сидение на двух стульях» продолжается до сих пор. Таким образом, по сути, ныне уже устарели и процессоры, и платформы AMD, так что ситуацию нужно менять радикально. Это компания и планирует сделать.

АМ4: наконец-то единая платформа

AMD полностью подтвердила существующие предположения о характеристиках новой платформы, причем даже «с горкой». В частности, к ключевым особенностям AM4 компания относит следующее:

Память типа DDR4
Полная поддержка PCIe 3.0
USB 3.1 («полноценный», т. е. Gen2 со скоростью до 10 Гбит/с)
NVMe и SATA Express

Что касается последнего пункта, то, в принципе, серьезные аппаратные доработки для его реализации не требовались: она возможна и в рамках существующих платформ. В частности, многие производители системных плат даже ассортимент моделей с АМ3+ обновили, предусмотрев для них загрузку с NVMe-накопителей. Более важным для полноценного функционирования NVMe-накопителей на максимальной скорости является поддержка PCIe 3.0, которой в рамках АМ3+ не было вообще, а APU для FM2+ поддерживали лишь 24 линии данного интерфейса, часть которых «уходила» на связь с чипсетом, а 16 могли потребоваться видеокарте. Кроме того, как уже было сказано выше, высокопроизводительных процессоров для FM2+ не существовало, так что платформа давно и прочно обосновалась в бюджетном секторе, где протокол NVMe не слишком актуален (просто потому, что пока все поддерживающие его накопители исключительно «небюджетны»). АМ4 же по планам должна стать решением для всех сегментов рынка, так что для нее это может стать необходимым - особенно учитывая тягу AMD к созданию «долгоживущих» платформ, что весьма ценят многие пользователи. Ровно то же самое относится и к поддержке USB 3.1: пока она необходимостью не является, однако в будущем может пригодиться. Опять же, как уже было сказано выше, предыдущую версию стандарта AMD реализовала в чипсетах на год раньше, чем Intel, так что логично того же ожидать и для новой версии USB.

Освоение DDR4 - это давно ожидавшийся шаг, поскольку производительность интегрированных GPU сильно зависит от пропускной способности памяти. Ранее решать эту проблему приходилось повышением частот DDR3, но такой подход, мягко говоря, не идеален с точки зрения цены и энергопотребления модулей. Собственно, именно поэтому разговоры о внедрении поддержки DDR4 в APU AMD шли еще с 2013 года (тогда высказывалась масса предположений о двух вариантах в ожидающихся Kaveri), но долгое время новые модули памяти были слишком дороги для использования в массовых системах. На данный момент отгрузки DDR4 уже превосходят DDR3, так что цены сравнялись - с тенденцией в пользу DDR4. В общем, пришло время прощаться со старыми стандартами, причем, судя по всему, AMD планирует это сделать более резко, чем Intel - та, напомним, пока полностью от DDR3 не отказывается. С другой стороны, последнее серьезное обновление LGA115x было в прошлом году, а наиболее интересные продукты для АМ4 появятся в следующем, так что такая разница в подходах вполне объяснима.

Bristol Ridge: промежуточное решение

Впрочем, «обкатка» платформы уже практически началась: как и предполагалось, некоторое количество процессоров для нее выпущено прямо сейчас и уже отгружается крупным производителям. Все они по-прежнему относятся к бюджетному сегменту, так что и самый функциональный из чипсетов (Х380) компания пока «зажала», поставляя лишь пару недорогих модификаций - А320 и В350. Тем не менее, на практике многим будет достаточно и их. Чего в них нет, так это поддержки PCIe 3.0 - лишь 4 или 6 линий PCIe 2.0 соответственно. С другой стороны, 10 линий PCIe 3.0 (не считая нужных для связи с чипсетом) поддерживаются самими нынешними процессорами/APU, а наличие в этих APU мощной (для решений такого класса) графики в недорогом компьютере точно оставит процессорные линии PCIe свободными для периферии.

Вообще же, по сути, можно наблюдать унификацию мобильных и настольных решений: APU семейства Bristol Ridge - это наследники уже знакомых нам Carrizo . Кроме упомянутых 10 линий PCIe 3.0 (х8+х1+х1, две последние можно одновременно «отдать» NVMe-накопителю), они сами поддерживают 4 порта USB 3.0 (оно же USB 3.1 Gen1) и 2 порта SATA600. Использование младшего чипсета А320 добавляет к вышеуказанному разъем USB 3.1 (полноскоростной, как уже было отмечено выше), 2 порта USB 3.0, 6 портов USB 2.0, 4 линии PCIe 2.0, 2 порта SATA600 и 1 разъем SATA Express (который можно использовать как пару SATA). В В350 функциональные возможности аналогичны, но добавлен еще 1 порт USB 3.1 и 2 линии PCIe 2.0. Кроме того, по доброй традиции все решения AMD поддерживают создание RAID-массивов уровней 0, 1 и 10.

Как это соотносится с бюджетными предложениями Intel, типа H110 и B150? Для упрощения понимания соберем характеристики платформ в таблицу, добавив к ней и массовый A78 для уходящей с рынка FM2+.

Чипсет	AMD A78	AMD A320	AMD B350	Intel H110	Intel B150
Линий PCIe 3.0 (сумм.)	8/16	10	10	16	24
Линий PCIe 2.0	4	4	6	6	0
Портов SATA600	6	до 6	до 6	4	до 6
RAID 0/1/10	да	да	да	нет	нет
Портов SATA Express	0	1	1	0	0
Портов USB 3.1	0	1	2	0	0
Портов USB 3.0	4	6	6	4	6
Портов USB 2.0	14	6	6	6	6

Итак, единственное формально слабое место новой платформы - количество линий PCIe 3.0, обеспечиваемых процессором: всего 10 против обычных в массовом сегменте 16. Но это место слабое лишь пока - просто на данный момент других моделей APU нет, но в будущем они появятся. В конце концов, у решений на FM2+ (A78) линий PCIe 3.0 может и вовсе не оказаться - если установить в плату процессор под FM2, каковые поддерживали только PCIe 2.0. А у платформ Intel другая проблема: все процессоры для LGA1151 поддерживают PCIe 3.0 x16, но на платах с бюджетными чипсетами такая конфигурация линий будет единственной - «расщеплять» эти линии по слотам/устройствам не положено. AMD придерживается иной практики, так что в системе с А320 можно, например, «гонять» два NVMe-накопителя на PCIe 3.0 - а в системе с Н110 нельзя (впрочем, PCIe 3.0 x2 по пропускной способности равно PCIe 2.0 х4, но во многих ли недорогих платах на Н110 найдется возможность реализовать хотя бы такой слот?). Насколько это (равно как и поддержка SATA Express или RAID-массивов) востребовано в недорогих системах - вопрос отдельный. Но факт остается фактом: по сути, даже самые младшие варианты новой платформы сравнимы по функциональности со старшими решениями Intel.

Что же касается возможностей подключения внешней периферии, то по общему количеству USB-портов рекордсменом продолжают оставаться чипсеты для FM2+. Но рекорд этот чисто теоретический - на самом деле столько USB 2.0 в конечных решениях просто не бывает востребовано. А вот четырех высокоскоростных USB-портов иногда уже маловато, что «бьет» и по Intel Н110. При этом самый младший чипсет для АМ4 поддерживает семь портов USB 3.0 (один из которых вообще USB 3.1, что пока, как уже было сказано выше, является в основном заделом на будущее, однако на скорости USB 3.0 этот порт можно использовать уже сейчас) - даже больше, чем В150. Возможно, в «двухсотой» серии чипсетов Intel «подрихтует» и младшие модификации, но пока ее нет, а А320 и В350 уже отгружаются производителям.

Новыми красками должна заиграть разработка компактных компьютеров на базе процессоров AMD, поскольку часть функциональных возможностей традиционных чипсетов уже перенесена в собственно процессоры, что в какой-то степени роднит АМ4 не только с FM2+ или АМ3+, но и с АМ1. В АМ1, правда, функциональность SoC была сильно ограниченной, да и возможности ее расширения отсутствовали, но сейчас эта проблема снята. Точнее, она была снята в ноутбучных Carrizo год назад, и нет ничего удивительного в том, что при разработке новой настольной платформы эти достижения были учтены и унаследованы. Что это дает на практике? Например, без каких-либо особых сложностей можно выпускать платы формата Mini-STX с заменяемым процессором, но «сэкономив» на микросхеме чипсета - четырех портов USB 3.0 и пары SATA600 (один из которых в сочетании с PCIe 3.0 x4 разумно отвести под слот M.2) там хватит. Раньше с этим были сложности - теперь нет.

Процессор	AMD A12-9800	AMD A12-9800E	AMD A10-9700	AMD A10-9700E	AMD A8-9600	AMD A6-9500	AMD A6-9500E	AMD Athlon X4 950
Технология пр-ва	28 нм
Частота ядра std/max, ГГц	3,8/4,2	3,1/3,8	3,5/3,8	3,1/3,5	3,1/3,4	3,5/3,8	3,0/3,4	3,5/3,8
Кол-во модулей / потоков вычисления	2/4	2/4	2/4	2/4	2/4	1/2	1/2	2/4
Кэш L1 (сумм.), I/D, КБ	192/128	192/128	192/128	192/128	192/128	96/64	96/64	192/128
Кэш L2, КБ	2×1024	2×1024	2×1024	2×1024	2×1024	1×1024	1×1024	2×1024
Оперативная память	2×DDR4-2400
TDP, Вт	65	35	65	35	65	65	35	65
Графика	Radeon R7	Radeon R7	Radeon R7	Radeon R7	Radeon R7	Radeon R5	Radeon R5	-
Кол-во ГП	512	512	384	384	384	384	384	-
Частота std/max, МГц	1108	900	1029	847	900	1029	800	-

Но почему при всех этих интересных особенностях мы текущую реализацию платформы склонны считать промежуточным решением? Дело в том, что сильно ограничены существующие сейчас для нее процессоры. AMD, конечно, высоко оценивает APU «седьмого поколения», но то же самое говорилось и про предыдущие модели. А на практике это лишь дальнейшее развитие все той же модульной архитектуры, дебютировавшей еще в 2011 году, и все тот же техпроцесс 28 нм, используемый с 2014 года. Да, как показали наши тесты, процессоры Carrizo нередко оказываются (благодаря оптимизациям) быстрее Kaveri, работающих на более высокой тактовой частоте, а поддержка памяти типа DDR4 должна их еще немного «подстегнуть». Интегрированный GPU и ранее был одним из лучших в своем классе, а с 2015 года получил обновленный блок видеообработки с аппаратной поддержкой VP9 и H.265/HEVC с разрешением до 4К. Все это верно - но тянет лишь на эволюционные изменения, не меняющие принципиально класс решения. Так, единственный на данный момент Athlon X4 для новой платформы, модель с индексом 950, во всем, кроме типа оперативной памяти, идентичен Athlon X4 845 для FM2+, да и другим новым процессорам более-менее близкие аналоги подобрать можно. Поэтому настоящий старт платформы АМ4 ожидается лишь в следующем году - во всяком случае, если планы AMD будут выполнены.

Zen: что нового?

Итак, какие проблемы стояли перед компанией? Первоочередным спорным моментом разработанной модульной архитектуры были сами модули: для экономии транзисторного бюджета входящая в них пара «х86-ядер» зависит друг от друга, поскольку разделяет некоторые блоки. В частности, в первых реализациях единым был даже декодер команд и кэш инструкций. Второе слабое место - система памяти. На момент разработки первых процессоров сделать быстрый кэш второго уровня получалось, а вот L3 так и остался внешним по отношению к основной части процессора, так что работал асинхронно с ней и на более низких тактовых частотах. В итоге в старших конфигурациях процессоров семейства FX суммарная емкость L2 оказывалась равной L3, что вынуждало AMD продолжать использование эксклюзивной архитектуры кэш-памяти. Та прекрасно работала во времена одноядерных процессоров, но затрудняла обмен данными между вычислительными потоками в многоядерных, усложняя алгоритмы: если чего-то нет в L3, оно может быть в L2 одного из модулей, а может - только в памяти. И даже единый L2 на пару ядер, столь удобный у Core 2 Duo, для синхронизации использовать не выходило: наибольшую эффективность демонстрировал модуль, выполняющий всего один поток команд, т. е. загружать «вторые половинки» (на самом деле, меньшую их часть) работой имело смысл только при слишком большом ее количестве, но не на привычных для массовых нагрузок двух-четырех потоках.

А в APU бо́льшую часть кристалла занимало графическое ядро, так что эти модели остались вовсе без единой кэш-памяти, пусть даже медленной, поскольку иначе процессор получился бы слишком большим. Собственно, при использовании одинаковых норм производства APU по себестоимости конкурировали со старшими четырехъядерными моделями массовой линейки процессоров Intel, а старшие процессоры с четырьмя модулями оказывались еще более дорогими. Но при этом о конкуренции в плане производительности можно было говорить, только сравнивая четыре модуля AMD с четырьмя же ядрами Intel - масла в огонь подливал и всего один SIMD-блок на модуль. При этом процессоры Intel и сами по себе были дешевле в производстве, а из-за особенностей платформ стоили существенно меньше. APU же «воевали» только с совсем дешевыми двухъядерными процессорами Intel, да и это делали с переменным успехом. Конечно, они имели преимущество в производительности графической части, но далеко не всегда оно было востребовано.

Что меняется в новом поколении (как мы и обещали - простым языком, не вдаваясь в технические дебри)? «Базовый элемент» Zen чем-то напоминает двухмодульный процессор предыдущей архитектуры, но с существенными доработками. Во-первых, он включает не четыре попарно объединенных «х86-ядра», а четыре полноценных и независимых ядра - независимых даже в плане кэш-памяти второго уровня, суммарная емкость которой уменьшилась вдвое, зато теперь у каждого ядра появился свой L2 (и, разумеется, собственный декодер команд вместе с кэш-памятью инструкций). Во-вторых, кэш-память третьего уровня стала неотъемлемой составляющей такого вот «кирпичика». Судя по всему, работать она будет существенно быстрее, чем в предшественниках, а ее емкость составляет 8 МБ. В-третьих, что немаловажно, в AMD тоже сумели реализовать технологию симметричной многопоточности, так что каждое ядро может выполнять команды не одного, а двух потоков.

Фактически, как видите, в «базовом» варианте Zen сильно напоминает топовые процессоры Intel массовых серий, т. е. четырехъядерные Core i7. При этом такой «модуль» во второй половине следующего года будет использоваться и в APU, где сейчас всего-навсего, напомним, два модуля «старого образца», причем без кэш-памяти третьего уровня вообще. Графическое ядро, возможно, «не дотянется» до топовых решений Intel (тем более, снабженных кэш-памятью четвертого уровня - ничего подобного AMD пока не обещает), но будет производительнее массовой интегрированной графики Intel. Причем, судя по имеющимся данным о внутренней организации процессоров, компания сможет освоить и бюджетную модификацию с парой ядер и уменьшенным до 4 МБ L3, т. е. выпустить непосредственных конкурентов для разнообразных Core i3 и прочих двухъядерных процессоров (особенно мобильных). Сейчас соперничать с ними могут только двухмодульные (в терминологии AMD - «четырехъядерные») процессоры, а в будущем это будут делать и «обычные» двухъядерные.

Однако нельзя сказать, что компании полностью удалось достичь «паритета по ядрам». В частности, блоки для работы с числами с плавающей запятой и прочими SIMD-инструкциями изменились в меньшей степени, чем хотелось бы. Нормальной поддержки работы с векторами по 256 бит у них нет, т. е. на AVX2-коде ожидать высоких результатов не приходится. С другой стороны, на данный момент преждевременно утверждать о производительности хоть что-либо - новая микроархитектура дебютирует в готовых изделиях только в следующем году. Тогда-то и будет полная ясность с их тактовыми частотами, ценами, да и производительностью в реальных задачах. Пока же мы можем оценивать лишь планы AMD.

А в них нашлось место и любителям высокой процессорной производительности, поскольку вариантов компоновки готовых изделий будет как минимум два (а если учесть возможность выпуска двухъядерных моделей, которые легко найдут свое место в бюджетном сегменте, то и три): кроме APU, где, как уже было сказано выше, один четырехъядерный «модуль» Zen будет соседствовать с GPU, планируется также выпуск «чистых» CPU - с двумя модулями. То есть такие решения получат 8 ядер, способных выполнять одновременно 16 потоков вычисления и снабженных кэш-памятью третьего уровня емкостью 16 МБ. С L3 полной ясности нет - будет ли это единый объем, доступный всем ядрам «составного» процессора, или два отдельных блока (что присуще «склейкам»), но емкость будет именно такой. При этом топовые процессоры сохранят совместимость со все той же платформой АМ4, что является немаловажным конкурентным преимуществом перед процессорами Intel для LGA2011-3 и их последователями, с массовой линейкой механически несовместимыми. Да, разумеется, верным будет сказанное выше насчет производительности векторных инструкций, да и контроллер памяти у этих новых моделей останется двух-, а не четырехканальным, но последнее имеет и свои достоинства: платы будут дешевле. Причем это будут те же самые платы, что и для недорогих APU, т. е. давно ожидаемая единая платформа AMD, вероятно, сможет использоваться еще шире, чем Intel LGA115x. А если компании удастся еще и «зафиксировать» ее лет на пять (реализуя хотя бы совместимость «сверху вниз»), превратив в «долгожителя» класса АМ3 - тем лучше для многих потребителей.

Возникает, разумеется, закономерный вопрос: если все изменения настолько логичны и ожидаемы, то почему «ожидание» затянулось так надолго? Ведь, по-хорошему, такие устройства нужны еще «вчера», а компания планирует их поставки только «завтра». Проблема есть, но собственно разработки она не касается - только производства. Фактически, всё, что до последнего времени было доступно AMD - техпроцесс с нормами 32 нм, которого достаточно разве что для FX. В лучшем случае - достижение уровня Intel Sandy Bridge, которому тоже уже больше пяти лет. Последние модели APU, впрочем, используют нормы 28 нм, но это не намного лучше, чем 32 нм. Поэтому и в производстве запланирован «большой скачок» - переход на техпроцесс 14 нм. Переход совершится с некоторым отставанием от Intel (которая использует этот техпроцесс уже два года), но понятным и объяснимым. В общем, сделать такие процессоры без освоения новых норм производства было невозможно - а их освоение требует времени. Нам же хочется верить, что у AMD все получится.

Итого

Итак, что мы получим? Во-первых - наконец-то! - переход на единую платформу, чего не было пять лет. Причем и в этом случае можно говорить о «большом скачке»: АМ4 по планам должна быть универсальнее, чем Intel LGA115x. Во-вторых, существенное изменение микроархитектуры - с ростом производительности и общей эффективности основанных на ней процессоров. В-третьих, резкое улучшение норм производства, что хорошо и само по себе, и без чего такие изменения были бы невозможны. То есть, как видите, AMD планирует одним махом ликвидировать все недостатки сегодняшних массовых систем своего производства. Получится ли? Это покажет только практика - пока мы можем оценивать лишь планы и предварительную информацию. Впрочем, в каком-то виде платформа АМ4 уже существует, причем в своем ценовом сегменте имеет ряд преимуществ перед конкурирующими разработками. В основном они унаследованы у предшественников (это не удивительно - выпускаемые сейчас APU «новыми» назвать сложно), но с добавлением (хотя бы потенциально) модернизируемости и более длинного жизненного цикла. А окончательный ответ на вопрос, насколько удачным окажется переход, мы получим в следующем году. Хочется верить, что ответ будет положительным - так, как минимум, интереснее:)

В 2017 году компания AMD представила процессоры Ryzen с новой микроархитектурой Zen. Сегодня редакция сайт детально разберет микроархитектуру Zen, проследив как изменились задержка и пропуск инструкций с K10.

Помимо привычных способов повышения производительности процессора (повышение тактовой частоты, увеличение ширины исполнительного тракта, расширение разрядности ИУ и векторизация инструкций), существует неочевидный способ - снижение таймингов инструкций, то есть сокращение времени выполнения инструкций. Например, снижение времени выполнения операции деления вдвое будет условно равно удвоению тактовой частоты процессора при выполнении деления (с большим количеством допущений). Таким образом, снижение таймингов выполнения инструкций может быть вполне действенным способом, хоть и весьма ограниченным и специфичным (так как для повышения быстройдествия всего процессора необходимо снизить тайминги всех инструкций, тогда как в реальности обычно происходит снижение таймингов лишь определенных инструкциий, что ускоряет процессор только в узком круге задач).
Всего существует два наиболее важных тайминга: задержка (latency) и пропуск (reciprocal throughput). Где задержка выражается в тактах, которые необходимы для выполнения инструкции, а пропуск - количество тактов, которые необходимо пропустить для выполнения следующей инструкции в данном ИУ. Сравним тайминги некоторых инструкций для K10, Bulldozer и Zen, используя справочные данные Agner Fog .

Таблицы будут построены следующим образом: в колонке «Инструкция» будет указана инструкция и операнды (m, m32, m64, m128, m256 - память; r, r32, r64 - РОН; mm - регистры MMX; xmm - регистры SSE; ymm - регистры AVX); в колонках K10, Bulldozer и Zen будут указаны непосредственно тайминги в тактах для данных микроархитектур по схеме «задержка (пропуск)».

Инструкции X86

Инструкция

MOV: перессылка данных из памяти в регистры у Zen на уровне K10 - 3 такта, в то время как у Bulldozer - 4 такта.
XCHG: обмен данными между регистрами у Zen «бесплатный» (с пропуском в 0.33 такта), в то время как у K10 и Bulldozer 2 и 1 такта соответственно. Обмен данными между регистром и памятью у Zen больше, чем у K10 - 30 тактов против 21, но меньше, чем у Bulldozer - 50.
PUSH: для помещения числа в стек всем участникам требуется 1 такт.
POP: извлечение числа из вершины стека у Zen происходит за полтакта, в то время как раньше это требовало 1 такт.
ADD: операция сложения чисел у K10, Bulldozer и Zen требует 1 такт, но необходимо отметить, что у K10 пропуск 1/3 такта, Bulldozer - 1/2, а у Zen - 1/4 такта.
Аналогичная ситуация и с вычитанием (SUB), изменением знака числа (NEG), инкрементом (INC), декрементом (DEC), логическим И (AND), логическим ИЛИ (OR), логическим исключающим ИЛИ (XOR), инверсией битов (NOT).
MUL: беззнаковое умножение на Zen стало вдвое быстрее, чем на Bulldozer - 3 такта против 6.
IMUL: умножение на Zen требует всего 3 такта, в то время как на Bulldozer - 6, а на K10 - 4.
DIV: деление беззнаковых чисел также ускорилось: Zen требует 14-46 тактов; Bulldozer - 16-75; K10 - 15-78.
IDIV: операция деления существенно ускорилась в Zen - 14-47 тактов против 22-79 у Bulldozer.
Подводя промежуточный итог, основные инструкции из набора Х86 стали выполняться на Zen быстрее, чем на предшественниках, то есть Zen даже на одинаковой частоте с предшественниками будет показывать большую производительность (при преобладании представленных инструкций в коде).

Инструкции X87

На сегодняшний день набор инструкций Х87 почти не используется в современных программах, а в процессорах он оставлен для совместивости (тот самый «+» архитектуры х86). Данный набор инструкций уже давно не разивается - не добавляются ни новые инструкции, ни регистры.

Инструкция

FLD: загрузка вещественного числа в стек в Zen стала быстрее - 1 такт против 2 тактов, но пропуск увеличился - в K10 и Bulldozer пропуск равнялся 0,5 такта, а в Zen - 1 такт.
FST: с копированием вещественного числа из стека ситуация аналогичная FLD.
FILD: загрузка целого числа в стек в Zen стала быстрее, чем в Bulldozer - 8 тактов против 12, но медленнее, чем в K10 (6 тактов).
FIST: с копированием целого числа из стека ситуация аналогичная FILD.
FISTP: со считыванием целого числа из стека ситуация аналогичная FILD.
FADD: сложение вещественных чисел в Zen происходит за 5 тактов, тогда как в Bulldozer - 5-6, а в K10 - 4.
FSUB: с вычитанием вещественных чисел ситуация аналогичная FADD.
FMUL: с умножением вещественных чисел ситуация аналогичная FADD.
FDIV: деление вещественных чисел действительно стало быстрее - как по задержке, так и по пропуску: Zen выполняет операцию за 8-15 тактов, а Bulldozer - 10-42 и K10 - 31.
FSQRT: извлечение квадратного корня также ускорилось: Zen выполняет операцию за 8-21 тактов, а Bulldozer - 10-53 и K10 - 35.
FXTRACT: извлечение экспоненты и мантиссы у Zen стало медленнее, чем в Bulldozer - увеличился пропуск на 2 такта, при сохранении задержки на прежнем уровне в 10 тактов.
FCOS: вычисление косинуса в Zen происходит быстрее, чем в Bulldozer - 50-115 тактов против 160.
FSIN: с вычислением синуса ситуация аналогичная FCOS.
Как отмечалось выше, набор инструкций Х87 не развивается и сохраняется для совместимости - это видно по времени исполнения инструкций в Zen, где скорость выполнения многих инструкций хоть и выше, чем в Bulldozer, но ниже, чем в K10, который вышел в 2007 году. Из рассмотренных инструкций существенное ускорение получили только деление вещественных чисел FDIV и извлечение квадратного корня FSQRT.

Инструкции MMX

Набор инструкций MMX был анонсирован 1997 году и предложил восемь 64-битных регистров mm и 57 инструкций. На сегодняшний день данный набор инструкций устарел и не развивается - оставлен в современных процессорах для совместимости.

Инструкция

MOVD: перессылка данных в Zen в зависимости от операндов стала либо быстрее, либо осталась на уровне K10, например: пересылка из РОН в регистры mm в Zen осуществляется за 3 такта, тогда как в K10 - за 6 тактов.
MOVQ: пересылка учетверенных слов между регистрами mm в Zen вдвое быстрее, чем в K10 - 1 такт против 2 (аналогично и пропуск - 0.25 такта против 0.5).

С логическим ИЛИ (POR), логическим И (PAND), побитовым логическим НЕ (PANDN) ситуация аналогичная PXOR.
PMADDWD: умножение четырех слов в Zen происходит с той же скоростью, что и в K10 (но быстрее, чем в Bulldozer).
PCMPEQB: проверка равенства байтов в Zen требует 1 такт, а в K10 и Bulldozer - 2 такта.
Как можно заметить, из рассмотренных инструкций значительная часть стала выполняться быстрее в Zen, чем у предшественников.

Инструкции SSE

Наборы инструкций SSE (SSE, SSE2, SSE3, SSSE3, SSE4.1, SSE4.2) получили широкое распространение и до последнего времени (до появления AVX) активно развивались. Данные наборы инструкций решили основные недостатки MMX (работа только с целыми числами и невозможность параллельной работы с MMX и X87) и предоставили восемь (в последствии 16) 128-битных регистров. Большое количество инструкций (около 300), 128-битные регистры, работа с вещественными числами и удобство работы (по сравнению со стеком в Х87) позволили отказаться от MMX и Х87. Рассматротрим некоторые инструкции из наборов SSE.

Инструкция

MOVD: перессылка данных в Zen в зависимости от операндов стала либо быстрее, либо осталась на уровне K10, например, пересылка из РОН в регистры xmm в Zen осуществляется за 3 такта, тогда как в K10 - за 6 тактов.
MOVQ: пересылка учетверенных слов между регистрами xmm в Zen в 2,5 раза быстрее, чем в K10 - 1 такт против 2.5.
PXOR: побитовое логическое исключающее ИЛИ в Zen осуществляется за 1 такт против 2 в K10.
ADDPS: параллельное сложение четырех пар чисел с плавающей точкой в Zen происходит за 3 такта, тогда как в K10 - 4, а в Bulldozer - 5-6.
Аналогично и с инструкциями сложения вещественных чисел (ADDSS), параллельного вычитания вещественных чисел (SUBPS) и параллельного умножения вещественных чисел (MULPS и MULSS).
DIVPS: параллельное деление вещественных чисел в Zen стало существенно быстрее, чем в K10 - 10 тактов против 18 (аналогично и с пропуском).
SQRTPS: извлечение квадратных корней из четырех чисел требует 9-10 тактов у Zen, в то время как у K10 - 21 такт, а у Bulldozer - 14-15.
ANDPS: операция побитового логического И в Zen осуществляется за 1 такт, а в в K10 и Bulldozer - за 2 такта.
Аналогично и с операциями побитового логического ИЛИ (ORPS) и побитового логического исключающего ИЛИ (XORPS).
Инструкции AVX Наша Редакция не включила по причине того, что они отсутствуют в K10, а следовательно, не получится проследить развитие микроархитектур.

Заключение

Как можно заметить, компания AMD основательно поработала над микроархитектурой Zen, изменив не только концепцию построения ядра, количество ИУ, декодеров и прочее, но и также сократила тайминги выполнения многих инструкций, что также положительно скажется на производительности в различных приложениях. При этом важно понимать, что «ускорились» далеко не все инструкции, так например, если классические инструкции Х86 в большей своей мере (из рассмотренных) стали выполняться в Zen быстрее по сравнению с предшественниками, то инструкции Х87 практически не получили какого-либо ускорения (что еще раз говорит о том, что набор инструкций Х87 устарел, хотя и остается необходимым для совместимости). Векторные инструкции (MMX и SSE) также стали выполняться быстрее. Таким образом, AMD не просто «скопировала» части K10 и Bulldozer в Zen, а существенно переработала ИУ, сделав их быстрее (интересно будет сравнить по таймингам Intel и AMD).

Остальные материалы по микроархитектуре Zen собраны .

В одном квартале от места, где сейчас проходит ежегодная конференция IDF 2016, компания AMD организовала собственное небольшое мероприятие, куда позвала избранных представителей массмедиа и аналитиков. Несложно догадаться, что главной и единственной темой «приватной вечеринки» AMD стала микропроцессорная архитектура Zen.

Итак, AMD в лице своей руководительницы Лизы Су дала ясно понять, что с долгожданными процессорами Zen все хорошо, отгрузки ограниченных партий чипов партнерам уже начались, а появление настольных процессоров AMD Zen (кодовое название Summit Ridge) на прилавках магазинов ожидается уже в первом квартале следующего года. Интересно, что компания нацеливается непосредственно на сегмент высокопроизводительных настольных процессоров, тогда как нынешние чипы AMD больше подходят для использования в бюджетных системах.

«Мы делаем упор на процессоры и графику для высокопроизводительных систем», – сказала глава AMD Лиза Су перед тем, как перейти к перечислению недавних достижений компании.

Среди этих достижений была названа поставка чипов для игровых консолей PlayStation 4 и Xbox One (а также One S и грядущей Project Scorpio), а также выпуск невероятно мощной видеокарты Radeon RX480 стоимостью всего $200.

Преисполненный гордости за свою работу, главный инженер компании Марк Пейпермастер взялся перечислять главные сильные стороны процессоров на архитектуре Zen. Он отметил, что разработка архитектуры велась «с нуля» с акцентом на «производительность, пропускную способность и энергоэффективность». Количество исполняемых микропроцессором инструкций за такт (IPC) выросло на 40% по сравнению с моделями нынешнего поколения. При этом потребление энергии снизилось (насколько именно не уточняется). Добиться этого удалось благодаря 14-нм техпроцессу с использованием транзисторов с вертикально расположенным затвором (FinFET - Fin Field Effect Transistor), также известных как транзисторы с трехмерной структурой затвора или 3D-транзисторы. Также AMD наконец-то удалось внедрить поддержку технологии многопоточной обработки данных SMT, обеспечивающей выполнение инструкций из различных независимых потоков несколькими функциональными модулями одновременно.

«Будучи самым мелким игроком, мы обязаны быть быстрее, демонстрировать бо льшую гибкость и находчивость», – сказал Пейпермастер.

Углубляясь в технические подробности микроархитектуры AMD Zen компания упомянула о повышении быстродействия планировщика (x1,75) и приросте вычислительных ресурсов (х1,5), 8 МБ кэш-памяти третьего уровня и 512 Кбайт кэша второго уровня на каждое ядро. Отметим, что AMD обещает пятикратный рост пропускной способности кэшей по сравнению с предыдущей архитектурой Excavator.

Для обычного потребителя все эти цифры означают более высокий уровень быстродействия при выполнении трудоемких задач (читай – воспроизведение 4K-видео, игры в том числе VR) и сниженное потребление энергии, то есть более высокая автономность мобильных ПК. На бумаге все выглядит замечательно и действительно похоже на тот самый прыжок, который позволит AMD если не обойти, то хотя бы сравняться с Intel, хотя многие параметры еще предстоит узнать. Например, нет данных по тепловой мощности, по которым можно было бы оценить энергоэффективность. И, естественно, AMD пока не готова поведать о рабочих частотах и ценах. Марк Пейпермастер пообещал раскрыть больше технических подробностей об архитектуре Zen на грядущей конференции Hot Chips.

Первым процессором AMD, основанным на микроархитектуре Zen, станет настольная модель под кодовым наименованием Summit Ridge. Она получит восемь процессорных ядер и сможет одновременно выполнять до шестнадцати потоков команд. Будучи рассчитанным на установку в процессорный разъем AM4, процессор поддерживает память DDR4 и следующее поколение интерфейсов ввода/вывода.

Также компания возлагает большие надежды на архитектуру Zen в других сегментах. В частности, компания рассчитывает вернуться в более прибыльный серверный сегмент. Серверные процессоры под кодовым названием Naples будут иметь 32 ядра и смогут обрабатывать до 64 потоков команд. Они будут доступны со второго квартала 2017 года. В будущем процессоры семейства Zen найдут применение в трансформируемых мобильных ПК с пассивной системой охлаждения, а также встраиваемой технике. К слову, AMD уже вовсю работает над ее преемником – архитектурой Zen+.

Презентация также включала «живую» демонстрацию возможностей процессоров AMD Summit Ridge. Компания столкнула инженерный образец 8-ядерного процессора Summit Ridge лицом к лицу с конкурирующим 8-ядерным процессором Intel Core i7-6900K (Broadwell-E). Для сравнения использовали тестовые средства 3D-моделирования ПО Blender. Инженерный образец 8-ядерного процессора Summit Ridge работал на частоте 3 ГГц, поэтому рабочая частота Intel Core i7-6900K также была снижена до 3 ГГц. Это было сделано для того, чтобы уравнять шансы соревнующихся сторон. Система на базе процессора AMD Summit Ridge справилась с рендерингом сцены на полсекунды быстрее своего конкурента на Intel Core i7-6900K. Презентация также включала демонстрацию командной работы AMD Summit Ridge и AMD R9 Fury X в игре Deux Ex: Mankind Divided при разрешении графики 4K. Разумеется, присутствующим не показали точное число кадров в секунду, выдаваемых системой, но в целом игра шла плавно.

Главный аналитик исследовательской компании Tirias Research, которому удалось побывать на презентации, назвал AMD Summit Ridge «самым интересным процессором компании за последние 10 лет».

Просто о сложном. Программы. Железо. Интернет. Windows