OCClub

NVIDIA Pascal: обзор архитектуры

На прошлой неделе Дженсен Хуанг (Jen-Hsun Huang) вышел на сцену и официально представил видеокарты Nvidia GeForce GTX 1070 и GTX 1080. Помимо презентации самих ускорителей и их разгонного потенциала, демонстрировались новые технологии, примененные в архитектуре Pascal. Именно им и посвящен этот материал. Конечно, будут рассмотрены не все новшества. О некоторых новых и/или обновленных технологиях будет рассказано в обзоре GTX 1080, который появится уже в совсем скором времени.

Pascal и GPU GP 104
Первое и самое важное изменение в Pascal – уход от 28-нм техпроцесса, который использовался в потребительских видеокартах с момента выхода GeForce GTX 600-серии, с марта 2012 года. Архитектура Pascal основывается на новом 16-нм FinFET техпроцессе производства TSMC, и с переходом на более тонкую литографию приходят впечатляющие улучшения в области энергопотребления и масштабирования производительности.
Но прежде всего более тонкий техпроцесс, зачастую, позволяет нарастить частоту. В «стоке» видеокарта работает более чем при 1700 МГц. Также, судя по многочисленным обзорам, GTX 1080 способен разгоняться до 2100+ МГц, а это референс, еще и серьезно ограниченный по питанию.

gtx1080 ghz 01

Стоит отметить, что не только уменьшение техпроцесса позволило так поднять частоту. По словам Иона Альбена (Jonah Alben) – старшего вице-президента подразделения GPU Engeneering, после перехода на 16-нм FinFET техпроцесс новые графические процессоры могли работать на частоте около 1325 МГц, и команда Nvidia долгое время работала над наращиванием частот. Итогом работы стала GTX 1080, которая функционирует при 1733 МГц.

Как же удалось добиться такого уровня улучшения тактовой частоты и производительности относительно архитектуры Maxwell? Pascal сочетает в себе несколько интересных нововведений, позволяющих существенно увеличить эффективность.
Оптимизации позволили не только увеличить тактовую частоту, но и эффективность CUDA-ядер GPU GP104 относительно предшественника – GM204. Доказательство тому – прирост производительности в 70% (относительно GTX 980) и это еще на не до конца доведенных до ума драйверах.

Одно из изменений можно рассмотреть на блок-схеме, которая представлена выше. Теперь в одном кластере GPC заместь четырех SM-s (simultaneous multiprocessor) блоков их пять.
PolyMorphEngine 4.0
Существенное дополнение в самом кристалле GPU лишь одно – добавление нового модуля к PolyMorph Engine. Добавился синхронный блок мультипроекцирования. Новый блок находится в самом конце тракта обработки кадра и создает несколько схем проекции из одного потока геометрии.

Если не вдаваться в подробности, а там все очень сложно, то новый блок берет обработку геометрии на себя, не всю, но существенную часть. Таким образом нагрузка на другие блоки графического процессора уменьшается. Помимо этого, PolyMorph помогает формировать картинку под корректными углами на мультимониторных конфигурациях, но об этом позже.

Память GDDR5X
Если вы считаете, что 28-нм техпроцесс устарел, то помните: память типа GDDR5 была впервые выпущена в 2009 году.
В то время как AMD сделал шаг к многослойной HBM-памяти, с высочайшей пропускной способностью, Nvidia в GTX 1080 решила пойти по другому пути, и воспользовалась GDDR5X.

GDDR5X был стандартизирован только в начале этого года, и впечатляет, что реализация новой памяти в уже готовом продукте случилась так быстро. Несмотря на то, что GDDR5X работает даже на меньше частоте (5 ГГц), чем GDDR5 (7 ГГц), новый тип памяти передает за такт вдвое больше информации. В итоге суммарная пропускная способность равна 320 Гбит/с, что немало. И это со «стыдной» для 2016 года шиной данных в 256 бит.
Инженеры провели титаническую работу по разработке новой разводки, новой схемы питания и нового контроллера памяти для GDDR5X.

Nvidia также доработала алгоритм сжатия данных в памяти, чтобы увеличить пропускную способность. В свое время с архитектурой Maxwell пришло сжатие 2:1, а новые видеокарты способны сжимать данные по нескольким алгоритмам – 2:1, 4:1, 8:1, все зависит от самого типа данных и от желания разработчиков ПО.

Более наглядно эффект демонстрирует скриншот из игры Project CARS, где розовый цвет – сжатые данные. Результат заметен «не вооруженным глазом».

Обновленный алгоритм на 20% увеличил пропускную способность, что в совокупности с на 40% более быстрой памятью дало ускорение в 1,7 раза.

Асинхронные шейдеры
В ускорителях GTX 900-й серии с архитектурой Maxwell, новый API DirectX 12 был реализован посредственно, за что Nvidia получила немало критики. Дело в том, DirectX 12 позволяет более эффективно использовать вычислительную мощность GPU за счет асинхронных шейдеров. Но в Maxwell с DX12 и, соответственно, асинхронными шейдерами «кинули». И пусть игры с поддержкой нового API можно пересчитать по правой руке фрезеровщика, получилось все равно неприятно.

Pascal, в свою очередь, существенно доработан в этом плане. Конечно, в архитектуре Nvidia это реализовано иначе, чем в AMD GCN. Интернет-дебаты по этому поводу точно будут.

Для понимания работы асинхронных шейдеров в реализации «зеленых» приведу пример:
Видеокарта проводит графические и физические просчеты каждой сцены. Сцены бывают разные, где-то больше физики, где-то графики. Соответственно, графическая часть может просчитаться быстрее физический, или наоборот. Предположим, графики меньше. Блоки, которые взяли на себя обработку графики, справятся с задачей быстрее, и пока не будет досчитана физическая часть, и не начнется обработка следующего кадра, блоки будут простаивать. GPU Pascal научился перераспределять нагрузку с уже посчитанной части, на не посчитанную. Кроме того, графический процессор теперь может прерывать некоторое задачи, и переключаться на более приоритетные.
Асинхронные вычисления и прочие доработки архитектуры существенно повысили производительность, особенно с очками виртуальный реальности. В обычных играх GTX 1080 лучше GTX 980 в 1,7 раза, при использовании VR – в 2,7 раза.

 

Означает ли это, что Nvidia продвинулась дальше AMD в асинхронных расчетах? Трудно сказать. К тому же, AMD еще официально не показала свою новую линейку ускорителей – Polaris.

Мультимониторные конфигурации и VR
Как упоминалось ранее, к PolyMorph Engine добавился новый блок – Simultaneous MultiProjection, и он приносит существенные новшества для мультимониторных конфигураций в VR.

Если в системе три монитора – изображение делится на три зоны. На центральном мониторе изображение выводится без коррекций, а на боковые мониторы с учетом углов, относительно центральной части. С Simultaneous Multi-Projection достаточно всего одной обработки геометрии, а не трех «прогонов» как это было ранее (в случае с тремя мониторами). В случае с очками виртуальной реальности, на каждый глаз формируется отдельное изображение – просто два экрана.
В очках виртуальной реальности линза изогнута, в соответствии с формой глаза. На сам дисплей очков изображение выводится плоское и полностью прямоугольное, более овальным его оптически делает линза. Видеокарта формирует изображение размером 4,2 мегапикселя, но фактически очки Oculus Rift отображают 2,2 мегапикселя. Ускоритель просто зря обрабатывает некоторые части кадра.

Технология Lens Matched Shading (LMS) позволяет частично компенсировать проблему. Размер изначально формируемого изображения уменьшается до 2,8 мпх, за счет небольшого обрезания краёв изображения. В итоге, аппаратные ресурсы высвобождаются, а на качестве изображения и его итоговом размере никак не сказывается.

Изменение SLI
В дополнение к доработке асинхронных вычислений и всех прочих улучшений, был существенно изменен механизм работы SLI. Для начала начнем с технических изменений.

При соединении двух видеокарт GTX 1080 с помощью новых мостиков скорость обмена данными между видеокартами вырастет вдвое. Скорость увеличится только при использовании видеокарт семейства Pascal. Если поставить «старые» мостики – работать тоже будет, но чуть медленнее. Есть даже определенные рекомендации:

Более того, мостиками SLI HB Bridge (так их назвали) можно объединить только две видеокарты, да и вообще: официально в SLI теперь могут быть только два ускорителя, даже если их в системе четыре. При этом, есть «энтузиаст ключ». Чтобы его получить нужно просто зайти на сайт, скачать и установить. Конфигурации 3-way и 4-way разблокируются.
Окееееееееей, и зачем это сделали?
HDR
Технология HDR позволяет расширить цветовой спектр практически в два раза, существенно увеличить яркость и контрастность дисплеев. Уже сейчас есть телевизоры с поддержкой HDR и не поверьте, это действительно прорыв. Сложно описать красоту картинки, которую показывает такой телевизор. Действительно различия видно сразу. Мониторов, правда, пока нет. Зато наконец появились видеокарты. Nvidia сотрудничает с разработчиками игр для скорейшей реализации технологии. В их число входят: The Witness, Rise of the Tomb Raider, Paragon, The Talos Principle и другие.

Кроме того, стримить в HDR-качестве тоже можно.


Выводы
В основном нововведения направлены на улучшение игрового опыта в играх с разрешением 4K, и с помощью очков виртуальной реальности. К этому располагает и увеличенный до 8 ГБ объём видеопамяти, и улучшенный алгоритм работы, да в общем новый тип памяти. Это еще не упоминая другие дополнения. И такой ход верен. Поскольку видеокарта GeForce GTX 1080 – самое лучшее предложение на рынке, и для разрешения Full-HD (1920х1080 пикселей) она избыточна, да и для WQHD (2560×1440) тоже.
С приходом архитектуры Pascal рынок видеокарт однозначно пободрел. Новое поколение GPU действительно получилось удачным, привнеся помимо существенно возросшей производительности решение многих давних проблем, да еще и с серьезным снижением тепловыделения. А вспомним еще совершенно новый тип памяти и самый передовой техпроцесс. И пусть некоторые решения сомнительны, инженеры и программисты Nvidia действительно провели огромную работу.
Достойно высшей похвалы.

Exit mobile version