В начала января на конференции CES в Лас-Вегасе компания NVIDIA официально представила долгожданную серию видеокарт GeForce RTX 5000, которая характеризуется значительным прогрессом в части производительности и энергетической эффективности GPU как в настольном, так и в мобильном сегменте. Эта линейка базируется на новой архитектуре NVIDIA Blackwell и обещает революционные преобразования в таких сферах, как компьютерный гейминг, разработка контента и приложения, использующие ИИ. Опираясь на такие инновации, как ядра RT 4-го поколения, продвинутые нейрошейдеры и новая графическая память GDDR7, NVIDIA собирается радикально модернизировать как игровую практику, так и профессиональный опыт применения пользовательских видеокарт.
В свой Editor's Day на CES компания представила подробный обзор 50-й серии RTX, где были отмечены ключевые архитектурные инновации и их значение для реальных приложений. Помимо презентации аппаратной части, NVIDIA показала возможности DLSS 4, новейшей версии своей технологии суперсэмплинга на базе глубокого обучения. Обновленная технология обеспечивает генерацию нескольких кадров за время текущего и использует модели на основе трансформеров, которые повышают частоту кадров и качество изображения. В презентации также раскрываются инициативы компании в направлении развития ИИ – показано, каким образом инновации NVIDIA простираются за пределы гейминга и находят применение в различных продуктивных, научных и креативных приложениях.
В этой статье мы коротко пройдемся по содержанию презентации NVIDIA и посмотрим, какие аспекты улучшения производительности захватывают новые видеокарты, какие усовершенствования в части охлаждения этому способствуют и какие дополнительные возможности предлагает DLSS 4. Также мы посмотрим на новые фишки для разработчиков контента, включающие в себя улучшенную производительность генеративного ИИ и аппаратное ускорение процессов, из которых складывается редактирование видео. Наконец, NVIDIA предлагает более комплексный подход к количественной оценке игрового опыта (не только по частоте кадров), где уделяется большее внимание таким параметрам, как задержка и качество изображения.
На CES в Лас-Вегасе NVIDIA анонсировала четыре новые десктопные видеокарты RTX 50-й серии: RTX 5070, 5070 Ti, 5080 и флагманскую модель 5090.
Карта RTX 5090 выделяется в новой линейке как потрясающе мощное решение для геймеров. Благодаря продвинутому нейрорендерингу и DLSS карта 5090 способна обеспечивать в требовательных играх гладкий геймплей с изумительными показателями FPS (с использованием апскейлинга и генерации кадров). Графический процессор снабжен 32 ГБ видеопамяти GDDR7, быстрейшей на сегодняшний день, которая использует 512-разрядный интерфейс. В совокупности это дает фантастическую пропускную способность памяти – 1.8 терабайт в секунду. Все видеокарты Blackwell поддерживают PCI-Express 5.0.
Количество ядер GPU в этой карте – 21760, что на 33% больше, чем в RTX 4090, где их 16384. Ширина шины памяти также была увеличена на треть – 512 бит у RTX 5090 против 384 бит у RTX 4090, что позволило еще больше повысить производительность.
NVIDIA также подчеркивает улучшение эффективности, обеспечиваемое DLSS 4. Включив DLSS, геймеры могут не только наслаждаться более высокой частотой кадров, но также использовать преимущество снижения задержки, если рассматривать абсолютные показатели в миллисекундах. Непосредственное сравнение с предыдущим поколением показывает 30-40%-ное увеличение производительности на RTX 5090 без DLSS 4 и более чем двукратное при включении генерации мультикадров. Однако подождем – что покажут наши обзоры.
Конструкция кулера на RTX 5090 была всесторонне модернизирована в целях усиления воздушного потока и снижения уровня шума. Видеокарта использует двухпоточную схему воздушного охлаждения, которая повышает эффективность теплорассеяния и снижает уровень выходного шума вентиляторов, даже на высоких скоростях. Этот дизайн стал возможным благодаря уменьшению размеров печатной платы карты – более компактная плата оставляет больше пространства для воздушного потока и повышает общую эффективность системы. Насколько мне известно, референсная модель FE – единственная с такой маленькой PCB, тогда как кастомные карты от партнеров имеют более привычный дизайн кулера.
Карта RTX 5080 оснащена 16 ГБ памяти GDDR7, которая имеет впечатляющую скорость 30 Гбит/с. Число графических ядер у этой карты составляет 10752, что на 5% больше, чем у RTX 4080 Super (10240 ядер), и на 10% больше, чем у RTX 4080 (9728 ядер).
В части обычной растеризации прибавка к производительности относительно RTX 4080 невелика – в районе 10-15%. Но с DLSS 4 дело обстоит намного лучше.
RTX 5070 Ti имеет на борту 16 ГБ памяти GDDR7 и 8960 шейдеров (для сравнения: у RTX 4070 было 7680 шейдеров, а у RTX 4070 Ti Super – 8448 шейдеров). В отличие от трех остальных упомянутых здесь карт, у RTX 5070 Ti не будет версии Founders Edition.
Прирост производительности: около 20% без DLSS 4 и двукратное увеличение при включении DLSS 4.
RTX 5070 оснащается 12 ГБ памяти GDDR7 – эта карта, вероятно, будет выставлена против карты AMD RX 9070.
Прирост производительности относительно предшествующего аналога примерно такой же, как у RTX 5070 Ti.
При включении DLSS 4 с генерацией мультикадров RTX 5070 обеспечивает частоту кадров на уровне RTX 4090 (которая поддерживает только DLSS 3 Frame Generation).
Кроме того, 50-я серия поддерживает PCI Express Gen 5 и DisplayPort 2.1, что гарантирует совместимость этих карт с новейшими высокоскоростными дисплеями и другими подключаемыми устройствами. Также добавлено три новых кодера и два декодера следующего поколения.
Что касается цен на видеокарты 50-й серии GeForce, то, взяв за 100% тысячу долларов, назначенную за RTX 5080, имеем следующие относительные расценки: RTX 5090 – 200%, RTX 5070 Ti – 75%, RTX 5070 – 55%.
Инновации NVIDIA не ограничиваются десктопным сегментом. Компания также представила карты 50-й серии RTX для ноутбуков с целевыми показателями энергетической эффективности без компромиссов со стороны производительности. Новая архитектура позволяет получить на ноутбуке игровую производительность уровня 4090 при значительно меньшем энергопотреблении и, соответственно, увеличить время автономной работы в широком диапазоне пользовательских сценариев.
Ноутбуки RTX 50-й серии предлагают вдвое большую производительность ИИ по сравнению с предыдущими машинами, обеспечивая более быстрый процессинг в моделях ИИ большего размера. Кроме того, приложения для редактирования видео, такие как DaVinci Resolve, идут на них на 40% быстрее. Время автономной работы также заметно выросло, и многие ноутбуки теперь предлагают на 40% большую энергетическую эффективность в играх и креативных приложениях.
Камнем преткновения на пути к фотографически точному рендерингу является тот факт, что кривая закона Мура, предсказывающая удвоение вычислительных мощностей каждые два года, в последнее время значительно замедлила свой рост. Отсюда очевидно, что для выхода на следующий качественный уровень реалистичности картинки нужны новые вычислительные методы. Нейрорендеринг, получивший развитие в последние несколько лет, может стать ключом к решению этой проблемы.
Технологии рендеринга с использованием нейросетей, такие как DLSS (Deep Learning Super Sampling), успешно применяются для улучшения качества изображения при одновременном снижении вычислительной нагрузки. Эти инновационные алгоритмы позволяют генерировать изображение высокого качества, используя только часть тех ресурсов, которых требуют традиционные методы рендеринга.
Чтобы оптимизировать архитектуру Blackwell под нейрорендеринг, нужно было решить ряд ключевых задач.
SM Blackwell удваивает пропускную способность для INT32 благодаря тому, что все шейдерные ядра могут работать и с данными INT32, и с FP32, в отличие от архитектуры Ada, где эта способность была только у половины ядер. Кроме того, при использовании нового API DirectX Cooperative Vectors ядра Tensor доступны непосредственно из шейдеров.
Технология переупорядочивания выполнения шейдеров (Shader Execution Reordering, SER), в которой, по существу, шейдеры задают работу другим шейдерам, стала вдвое эффективнее и, кроме того, использует преимущества Work Graphs.
Одно из выдающихся достижений архитектуры Blackwell – интеграция новейшего стандарта памяти GDDR7. Разрабатываемая несколькими компаниями, память GDDR7 характеризуется значительными усовершенствованиями относительно предыдущего стандарта, GDDR6. Она не только вдвое быстрее GDDR6, но также потребляет вдвое меньшую мощность на каждый бит передаваемых данных.
Самая значительная инновация относится к технологии модуляции. GDDR6X использует PAM4, которая при формировании сигнала опирается на четыре уровня логики. Эта схема обеспечивает определенную «скважность» уровней сигнального напряжения ("data eye"), которая является мерой помехоустойчивости сигнала. Чем больше data eye, тем потенциально чище сигнал и тем быстрее он может быть передан.
Стандарт GDDR7 перешел на модуляцию PAM3, которая использует три уровня логики вместо четырех. В результате плотность уровней сигнального напряжения уменьшается, а data eye увеличивается, что позволяет повысить частоту сигнала и производительность памяти. За счет более высокой частоты PAM3 обеспечивает более быструю передачу, чем PAM4: данных за секунду передается больше, несмотря на меньшее количество данных, передаваемых за такт.
Рейтрейсинг (RT) в Blackwell также был серьезно усовершенствован благодаря ядрам RT 4-го поколения. Эти ядра содержат движок расчета пересечений треугольных кластеров, разработанный специально для обработки «мегагеометрии». Интеграция формата сжатия треугольных кластеров и движка распаковки без потерь позволила ускорить обсчет сложной геометрии.
NVIDIA подчеркивает, что эти усовершенствования ведут к значительному повышению производительности – обработка треугольников осуществляется вдвое быстрее по сравнению с предыдущим поколением. Это позволяет рендерить намного более сложные сцены и делает метод трассировки лучей намного эффективнее.
Ядра Tensor в Blackwell поддерживают форматы пониженной точности INT4 и FP4, то есть операции RT могут выполняться над более короткими данными, что не только вдвое ускоряет вычисления, но также вдвое сокращает потребление памяти. Издержками здесь являются некоторые потери в точности, которые, скорей всего, не столь важны для игровой интерактивной графики в реальном времени.
Интеграция ИИ-моделей в игровой сегмент сопряжена с новыми вызовами в части обеспечения гладкого и отзывчивого геймплея. Планировка задач становится критическим фактором как для рендеринга, так и для ИИ-сценариев, таких как использование больших языковых моделей (LLM) в цифровых аватарах (ИИ-агентах), поскольку эти процессы конкурируют между собой за вычислительные ресурсы. Увеличение задержки отклика ИИ, или "времени ответа", может нарушить иммерсивность, а прерывания в части отрисовки кадров могут привести к запинкам. Для решения этой проблемы был разработан программируемый блок AI Management Processor (AMP). Расположенный на входе GPU, AMP точно определяет очередность задач, гарантируя, что ИИ-процессы, такие как генерирование диалогов, не станут помехой для рендеринга, и обеспечивая одновременно гладкую картинку и непрерывный интерактивный игровой опыт.
Идеология NVIDIA Max Q имеет перед собой две основные цели: максимизация производительности в рамках определенного бюджета мощности и эффективное управление питанием в периоды простоя. Совершенствуя эти технологии в каждом поколении, NVIDIA продолжает расширять горизонты эффективности.
Еще одно заметное усовершенствование – новая версия DLSS (DLSS 4), представляющая собой технологию нейрорендеринга, которая не только ускоряет традиционные процессы рендеринга, но также повышает энергетическую эффективность. Разрабатывая аппаратные решения специально под DLSS 4, NVIDIA может достичь значительных успехов в аспекте энергосбережения, примером чему уже служит память GDDR7, по энергетической эффективности вдвое превосходящая GDDR6.
Кроме того, видеокарты Blackwell делают шаг вперед и в части управления питанием. Благодаря усовершенствованному механизму настройки частоты – который работает более чем в тысячу раз быстрее, чем у предыдущих поколений – и реализации более дифференцированных режимов сна NVIDIA достигает высочайшей точности в управлении энергообеспечением карты. Это значит, что видеокарта может входить в энергосберегающий режим и выходить из него практически мгновенно, что снижает энергопотребление в целом.
Подход NVIDIA к менеджменту питания базируется на многоуровневой стратегии. Вместо использования одного режима deep power видеокарта по мере необходимости постепенно переключается на более глубокие градации сна. Этот метод гарантирует максимальное энергосбережение без потерь в производительности. Например, в периоды простоя видеокарта может быстро переключаться между состояниями clock gating и power gating, выключая компоненты чипа для экономии энергии и в то же время оставаясь в режиме готовности к отклику.
Кроме того, в Blackwell предусмотрена вторая линия напряжения, что позволяет подсистемам ядер и памяти работать на различных напряжениях под определенными нагрузками. Это разделение улучшает производительность в рамках данного бюджета мощности и обеспечивает 15-кратное сокращение времени, которое требуется для перевода в пассивный режим ядер, не используемых в данный момент; в результате время автономной работы игровых ноутбуков возрастает.
Еще один аспект инноваций от NVIDIA – ускоренное переключение режимов тактовой частоты. Благодаря динамической подстройке частоты в реальном времени GPU может эффективно адаптироваться к различным нагрузкам. В режиме легкой нагрузки, например, физического моделирования, графический чип может ускориться, тогда как в режиме тяжелых нагрузок, задействующих больше активных ядер, частоты настраиваются на балансное значение, что позволяет экономить энергию.
С этой технологией видеокарты NVIDIA достигают большей производительности не в ущерб энергетической эффективности, поддерживая оптимальный режим производительности и энергопотребления.
Одно из самых заметных нововведений – поддержка DisplayPort 2.1. Эта новая фишка позволяет пользователям наслаждаться высокой частотой обновления экрана на большом мониторе всего с одним кабелем, и в целом потенциал качества изображения будет существенно выше. DisplayPort 2.1 предлагает большую пропускную способность, поддерживая более быстрые дисплеи с лучшим откликом, что важно для гейминга, разработки контента и других сценариев использования высокопроизводительных мониторов.
Еще одна впечатляющая фишка – высокоскоростной аппаратный Flip Metering. Эта технология особенно важна для приложений с DLSS 4 (Deep Learning Super Sampling), и ИИ, который используется для повышения качества изображения и частоты кадров. Аппаратный Flip Metering оптимизирует темп генерации кадров, так, чтобы они наиболее эффективно вписывались в геймплей или визуальный поток других приложений, использующих DLSS 4. Это помогает поддерживать скорость и качество картинки даже в требовательных сценариях.
В части кодирования и декодирования видеоформатов архитектура Blackwell предлагает несколько усовершенствований, направленных на повышение эффективности. Отметим, что компания добавила поддержку AV1 Ultra High Quality для высокоточной передачи стримов. Архитектура также обеспечивает вдвое большую скорость декодирования H.264, популярного формата сжатия видео. Кроме того, Blackwell поддерживает формат Multi-view AQBC (Adaptive Quality-Based Compression) и кодирование/ декодирование с цветовой субдискретизацией по схеме 4:2:2, наиболее популярной среди разработчиков видеоконтента, гарантируя высокое качество видео при подъемных размерах файлов.
Эволюция технологии DLSS 4 и ее влияние на развитие нейрорендеринга может оцениваться по трем составляющим базиса интерактивной компьютерной графики: качество изображения, гладкость движущейся картинки и время отклика. Нахождение баланса между этими тремя осями часто требует компромиссов. Повышение разрешения и/или качества рендеринга обычно снижает частоту кадров и замедляет отклик.
Один из способов улучшить интерактивность – снизить разрешение, например, с 4K до 1080p, что сделает геймплей более отзывчивым ценой потерь в части качества изображения. Другой путь – подключить дополнительные вычислительные мощности, например, использовать несколько видеокарт. Хотя этот подход может обеспечить высокое качество картинки, он сопряжен со значительными затратами и техническими сложностями.
Технология DLSS 4 разработана с целью продвижения вперед по всем трем осям за счет использования искусственного интеллекта для оптимизации рендеринга. Вычисления в рендеринге часто избыточны, так как объекты в сцене обычно изменяют свое положение от кадра к кадру с очень малым шагом. ИИ может распознать эти паттерны перемещений и предсказать их наперед, что позволяет уменьшить количество вычислений и повысить производительность графики в реальном времени.
С момента своего первого применения в серии RTX Turing в 2018 году технология DLSS непрерывно совершенствовалась. Хотя ранние версии столкнулись с рядом сложностей, последовательная оптимизация самих алгоритмов и их интеграции в приложения дала результат в виде все более широкого внедрения DLSS. В настоящее время DLSS применяется в более чем 540 играх и приложениях, включая 15 игр из топ-20 по итогам 2024 года. Статистика показывает, что более 80% пользователей карт RTX включают DLSS во время игр – в сумме это дает 3 миллиарда часов гейминга с DLSS.
Эти достижения стали результатом работы специализированной инфраструктуры суперкомпьютинга, которая анализирует отказы моделей, расширяет тренировочные датасеты и совершенствует алгоритмы. Этот итерационный процесс привел к созданию DLSS 4, самой амбициозной на сегодняшний день версии, которую отличает полностью обновленная архитектура нейросетей – первый раз за время с момента выхода DLSS 2 в 2020 году.
В DLSS 4 введена модель на базе трансформера, принципиально отличающаяся от традиционных сверточных нейросетей (CNN), которые применялись в предыдущих версиях. Трансформеры используют специальные механизмы внимания, которые концентрируют вычислительные ресурсы на наиболее ответственных участках, что позволяет оптимизировать сложные сценарии рендеринга, поставив в приоритет наиболее нагруженные области изображения.
Трансформеры будут использоваться в DLSS Ray Reconstruction, DLSS Super Resolution и DLAA.
Масштабируемость и эффективность моделей-трансформеров позволяют DLSS 4 работать с большими датасетами и запоминать больше примеров с тренировок. Такая модернизация нейросетевой архитектуры обеспечивает лучшую графическую производительность и визуальную точность, устанавливая новый ориентир для технологий рендеринга в реальном времени.
DLSS 4 делает значительный шаг вперед в части вычислительной мощности, выполняя в 4 раза больше вычислений по сравнению с предыдущими версиями DLSS. Это выводит поиск баланса между гладкостью, отзывчивостью и качеством изображения на новый уровень.
NVIDIA продемонстрировала видео, показывающее лучшую производительность модели-трансформера DLSS 4 по сравнению с CNN.
Эти усовершенствования вносят совокупный вклад в повышение стабильности качества картинки, точности движений и четкости мелких деталей.
Новая версия Super Resolution на базе трансформеров в DLSS 4 значительно повышает возможности сохранения детализации. Например, позволяет воспроизводить высокодетализированные текстуры, такие как сложный узор на сумке. Более продвинутые модели улучшают опыт использования таких популярных функций, как Ray Reconstruction и Super Resolution.
Опираясь на идеологию DLSS 3, DLSS 4 предлагает генерацию мультикадров: два отрисованных кадра анализируются несколькими моделями на предмет корреляций. В результате генерируются три дополнительных кадра на каждые два отрисованных. В целом, из каждых 16 выводимых на дисплей пикселей 15 являются сгенерированными DLSS Multi-Frame Generation, что эквивалентно восьмикратному повышению эффективности рендеринга.
Новая ИИ-модель для генерации кадров на 40% быстрее, использует на 30% меньше видеопамяти и нуждается только в одном прогоне каждого кадра для генерации нескольких дополнительных. Например, в Warhammer 40000: Darktide на разрешении 4K с максимальными настройками DLSS Frame Generation обеспечивает 10%-ную прибавку к частоте кадров и экономию 400 МБ видеопамяти. Кроме того, процесс генерации поля оптического потока был ускорен путем замены аппаратного генератора оптического потока высокоэффективной ИИ-моделью, что значительно снизило вычислительные затраты на производство дополнительных кадров.
При генерации такого большого количества кадров возникает проблема темпа ввода этих кадров в общий поток – нерегулярные интервалы вывода кадров на дисплей отрицательно влияют на гладкость картинки. В DLSS 4 эта проблема решается путем использования специального аппаратного блока в архитектуре Blackwell, который обеспечивает контроль смены кадров (Flip Metering), уменьшая разброс в периодичности вывода кадров на дисплей в 5-10 раз. Это гарантирует более гладкий геймплей и более иммерсивный опыт использования Multi-Frame Generation.
Например, в Cyberpunk обеспечиваются следующие показатели:
Таким образом, DLSS 4 обеспечивает восьмикратное увеличение производительности, делая возможным, в случае использования видеокарты RTX 5090, гейминг на мониторе 4K@ 240 Гц. Исключительно высокая частота кадров достигается в таких играх, как Alan Wake 2, Black Myth: Wukong и Cyberpunk 2077.
На момент выхода DLSS 4 будет поддерживаться 75 играми и приложениями, и в дальнейшем их станет больше. Также гарантирована обратная совместимость новых видеокарт с DLSS 3, что облегчит интеграцию.
Технология DLSS 4 разработана в расчете на бесшовную совместимость с играми, в которых ранее была введена поддержка более ранних версий DLSS – 3 и 3.5. Обратите внимание, что NVIDIA App позволит геймерам обходить настройки DLSS в отдельных играх. Пользователи смогут активировать функции DLSS 4 даже в тех играх, которые пока не поддерживают эту версию.
Чтобы это сделать, нужно выбрать игру в NVIDIA App и настроить DLSS Override. Можно выбрать более ранние модели CNN, которые обеспечивают более высокую скорость ценой незначительных потерь в качестве изображения, или использовать технологию Frame Generation в конфигурации 2X, 3X или 4X. В приложение также вводятся настройки Override для разрешения, позволяющие геймерам переключаться между режимами ультравысокой производительности и максимального качества изображения с настройками DLAA, независимо от наличия нативной поддержки этих опций в пользовательском интерфейсе самой игры.
NVIDIA также сознает важность античитерских мер и совместно с издателями работает над механизмами индивидуальной валидации многопользовательских игр в целях обеспечения гарантированной защиты их от читов.
Стартовая версия DLSS 4 предусматривает поддержку различных серий видеокарт RTX. Опция Multi-Frame Generation доступна исключительно на видеокартах 50-й серии RTX, поскольку для ее реализации необходим аппаратный блок Blackwell Flip Metering и тензорные ядра новейшего поколения, которые поддерживают INT4. В то же время многие преимущества усовершенствованной технологии DLSS доступны пользователям карт и 40-й, и 50-й серии – это улучшенное качество изображения, более высокая скорость и более экономичное использование памяти. Кроме того, всем пользователям RTX доступны такие фишки, как Ray Reconstruction, Super Resolution с использованием модели-трансформера и антиалиазинг на базе глубокого обучения (DLAA), что с самого начала гарантирует DLSS 4 широкую область применения.
NVIDIA также особо отмечает свое внимание к снижению задержки ввода – еще одному критическому аспекту игровой производительности. Компания сообщила, что технология NVIDIA Reflex интегрирована уже более чем в 120 игр, причем девять из десяти топовых шутеров поддерживают эту технологию. Интеграция Reflex также является ключевым компонентом Frame Generation, так как минимизирует задержку в пайплайне рендеринга.
В этом выпуске NVIDIA представляет Reflex 2, которая предлагает на 75% более быстрый отклик по сравнению с первой версией. Новая система более эффективно синхронизирует CPU и GPU и использует метод под названием "Frame Warp" для обновления положения камеры в зависимости от действий пользователя в реальном времени. Система регистрирует положение курсора мышки и изменяет всю картинку непосредственно перед выводом кадра на экран, настолько, насколько переместилась мышка с момента первичной отрисовки кадра.
Наиболее заметной технической проблемой при реализации Frame Warp стали так называемые «дырки» – области сцены, которые становятся видимыми при изменении угла положения камеры. Для решения этой проблемы NVIDIA использует технологию «закрашивания» на основе данных предыдущих кадров и общей 3D-обстановки. Хотя эта технология выглядит перспективной, NVIDIA признает, что она может подходить не для всех игр, и планирует работать над дальнейшим ее совершенствованием.
На данный момент они просто записывают один или несколько предыдущих кадров и используют эти данные для заполнения «дырок». Очевидно, что это не сработает в ситуации, когда вы поворачиваете за угол, который в этой игровой сессии ранее не встречался; интересно, как в этом случае будут заполнены "недостающие" пиксели.
Reflex 2 дебютирует в нескольких играх, среди которых The Finals и Valorant. Каждый из этих тайтлов демонстрирует возможность системы уменьшать задержку ввода как в сценах с большой нагрузкой на GPU, так и в сложных CPU-ограничиваемых условиях.
Джон Спитцер (John Spitzer), одна из ключевых фигур компании NVIDIA с 1999 года, напомнил о временах шейдеров с фиксированными функциями. Тогда разработчики игр сталкивались с существенными ограничениями на пути визуального воплощения своих творческих замыслов. Появление программируемых шейдеров в поколении GeForce 3 стало поворотным пунктом, который открыл возможности кастомизации вершинного и пиксельного шейдинга. Дальнейшие разработки, как то – появление высокоуровневых языков программирования шейдеров (HLSL) и усовершенствования DirectX, от геометрических шейдеров в DX10 до рейтрейсинга в DX12 – последовательно расширяли творческий инструментарий программистов и гейм-дизайнеров.
Но сегодня серия NVIDIA GeForce 5000 "Blackwell" собирается снова перевернуть игровой ландшафт. В Blackwell вводится концепция нейрошейдеров, создаваемых самими разработчиками, и это открывает массу возможностей для графических нейроэффектов – нейроматериалов, нейрообъемов и даже нейроосвещения.
До сих пор обращение к ядрам Tensor в рамках графического API было невозможно. Теперь, в результате сотрудничества NVIDIA с Microsoft, ситуация изменилась – с появлением API Cooperative Vectors для DirectX. В комбинации с новым языком программирования шейдеров под названием Slang этот революционный продукт позволяет разработчикам интегрировать нейроалгоритмы непосредственно в свои рабочие потоки, которые потенциально могут заменить часть традиционного графического пайплайна. Slang позволяет разбивать большие сложные функции на ряд более простых, которыми легче оперировать.
И, с учетом того, что это стандартная опция API DirectX, ничто не помешает AMD и Intel интегрировать нейрорендеринг (Cooperative Vectors) в свои графические драйверы.
Впечатляющая инновация – нейроматериалы. Обычно для отрисовки материалов в реальном времени используются сложные коды шейдеров, которые часто требуют больших вычислительных ресурсов для воспроизведения эффектов как в высокобюджетных фильмах с компьютерной графикой. Нейроматериалы решают эту проблему путем конвертирования кода шейдера и слоев текстур в сжатый нейрообраз. Степень сжатия может достигать 7:1, и это позволяет небольшим нейросетям генерировать на базе этого образа в режиме реального времени потрясающие изображения материалов, как в кино.
Например, если шелк рендерится с помощью традиционных шейдеров, на нем может отсутствовать блестящее переливание разных оттенков, которое наблюдается в жизни. Однако модели нейроматериалов схватывают сложные детали, такие как переливания оттенков и отражения, благодаря чему достигается беспрецедентная реалистичность изображения таких поверхностей, причем – с использованием только части обычно расходуемого на это количества памяти.
Еще одна впечатляющая технология – Neural Radiance Cache (NRC), которая во время геймплея обеспечивает динамическую тренировку нейросети, используя игровую видеокарту. Это делает возможным пространственное кэширование распространения света, с почти бесконечным числом отражений от объектов сцены. Что в результате? Более реалистичные эффекты непрямого (рассеянного) освещения и тени с минимальным влиянием на производительность. NRC тщательно трассирует один или два луча, перед тем как записать их в кэш освещения, и выводит бесконечное число лучей и отражений для максимально точного воспроизведения картины рассеянного освещения в игровой сцене. В демонстрационном примере эта технология даже позволила повысить частоту кадров за счет снижения вычислительной нагрузки рейтрейсинга, при одновременном повышении визуальной точности и реалистичности.
NRC сегодня доступна в SDK RTX Global Illumination и позднее появится в Portal with RTX и (в ближайшие месяцы) в RTX Remix.
Рендеринг просвечивающих материалов, таких как кожа лица и рук, всегда был сложной задачей для графики в реальном времени. Технология NVIDIA RTX Skin опирается на подповерхностное рассеяние – метод, заимствованный из компьютерной графики в кино – с помощью которого моделируется прохождение и рассеивание света на материалах. Тонкие участки кожи излучают легкое сияние, что придает персонажам дополнительную глубину и реалистичность. Художники могут подшлифовать эти эффекты исходя из своего видения.
NVIDIA также продемонстрировала усовершенствования в части реалистичного рендеринга лиц и волос – две извечные проблемы игровой графики. Крайне большое число треугольников делает эти объекты трудными и для рейтрейсинга, поскольку сложно удерживать и обновлять структуру BVH. С помощью диффузионных моделей NVIDIA удалось создать инструменты, которые могут генерировать выразительную мимику персонажей в реальном времени с фотографической точностью, побеждая эффект неестественности. Для волос серия Blackwell предлагает Linear Swept Spheres – технологию более эффективных графических примитивов, которая очень существенно снижает нагрузку на память без ущерба для качества изображения. В Blackwell для этих фишек используется GPU-ускорение.
Сложность геометрии в играх растет экспоненциальными темпами: сегодня сцены содержат уже миллиарды многоугольников. В Blackwell эту проблему решает технология RTX Mega Geometry, позволяющая разработчикам использовать сетки высокого разрешения непосредственно в сценах с рейтрейсингом, аналогично тому, как это делается в Unreal Engine 5 Nanite. Это снимает необходимость в использовании прокси-сеток низкого разрешения, сохраняя высокую детализацию и одновременно оптимизируя производительность за счет эффективного сжатия и кластеризации.
В то время как NVIDIA празднует первую годовщину выхода RTX Remix, моддеры продолжают пользоваться этим инструментарием, расширяя границы возможного в гейминге и не только. С такими технологиями, как нейрошейдинг, Mega Geometry и RTX Skin, компьютерная графика в перспективе станет еще более иммерсивной, доступной и впечатляющей.
ИИ стал главным двигателем инноваций во многих областях, и его значимость для персонального компьютинга сегодня бесспорна. С момента выпуска в 2018 году своих первых видеокарт RTX компания NVIDIA идет в авангарде движения сторонников интеграции ИИ в различные приложения. Видеокарты RTX оснащаются ядрами Tensor, специализированными аппаратными компонентами для ИИ, и поддерживают такие технологии, как суперсэмплинг на базе глубокого обучения (DLSS), которые используют ИИ для улучшения качества изображения в играх путем генерации пикселей и кадров.
Сегодня ИИ внедряется в бесчисленное множество аспектов использования ПК, включая разработку контента, видеостриминг, видеосвязь и продуктивные приложения. Сегодня в мире установлено более 600 миллионов ПК с видеокартами RTX, которые предлагают аппаратную поддержку ИИ и способны ускорить более 600 различных ИИ-приложений. В то же время, поскольку технологии ИИ продолжают развиваться, возможности и массовая доступность этих карт также выходят на новый уровень, открывая потрясающие перспективы как для разработчиков, так и для пользователей различного софта.
В основе всего лежит принципиальное изменение концепции написания этого софта. Традиционные методы подразумевают, что разработчик пишет программный код, который затем компилируется в машиночитаемые инструкции, исполняемые в основном центральным процессором (CPU). Хотя такой подход эффективен для многих задач, он с большим трудом распространяется на современные сложные сценарии.
ИИ, прежде всего в ходе машинного обучения, перерабатывает огромные объемы данных для тренировки нейросетей, которые запускаются на графических процессорах (GPU). Этот подход является более гибким, адаптивным и лучше подходит для современных сценариев использования ПК. Вместо того, чтобы опираться на статические инструкции, модели ИИ на миллиардах примеров учатся решать задачи с большим диапазоном вариативности и масштабируемости условий.
Появление генеративного ИИ сделало разработку софта еще более доступной. Используя инструменты с минимумом кода или вообще бескодовые, разработчики сегодня могут подключать различные функции ИИ через простые API, которые поддерживают текст, изображения, 3D-модели и речь. Эти инновации позволяют намного более широкому кругу пользователей – от опытных программистов до медиакриэйторов и студентов – погрузиться в мир разработки ИИ-приложений.
В ответ на вызовы текущего дня в сфере разработки ИИ-приложений NVIDIA представила NIM on RTX – решение, упрощающее процесс использования разработчиками ИИ на своих ПК. Микросервисы NIM (NVIDIA Inference Models) представляют собой готовые оптимизированные модели ИИ, которые запускаются на видеокартах RTX. По сути, это Docker-контейнеры (продвинутые пользователи Linux понимают, о чем речь). Эти модели загружаются в уже готовом виде и легко интегрируются в различные приложения, предлагая ряд функций, специально разработанных для максимально легкой адаптации процесса разработки ИИ-приложений к среде ПК. Каждый микросервис NIM включает в себя оптимизированные модели, среди которых есть как популярные модели, развиваемые силами комьюнити, так и модели от NVIDIA. Эти модели настроены под видеокарты RTX и упакованы в предварительно собранные контейнеры, что освобождает разработчиков от необходимости заниматься сложными процедурами оптимизации, адаптации и интеграции моделей.
NVIDIA планирует выпустить первую волну микросервисов NIM в феврале, расширив диапазон модальностей в пользу развития ПК-отрасли. Модели будут доступны бесплатно и снабжены демократичными лицензиями, позволяющими разработчикам использовать, модифицировать и развертывать эти модели на ПК с RTX. Эта инициатива знаменует собой большой шаг на пути демократизации ИИ-разработок, давая каждому – от любителей до профессионалов – необходимые инструменты для сборки ИИ-приложений.
NVIDIA также поддерживает широкий набор ИИ-библиотек, включая низкокодовые и бескодовые, в том числе Crew AI, ComfyUI и Flow Wise AI. Эти инструменты упрощают процесс сборки ИИ-приложений и совместимы с микросервисами NIM, что гарантирует разработчикам возможность быстрой экспериментальной проверки и отладки своих проектов.
Идеальной реализацией концепции "RTX AI PC" в представлении NVIDIA является бесшовная интеграция ИИ-нагрузок в экосистему Windows, что возможно с WSL (Windows Subsystem for Linux). ИИ-приложения традиционно разрабатываются преимущественно в среде Linux, и такие микросервисы, как NVIDIA NIM, запускаются на Linux. Использование WSL сегодня позволяет эффективно работать с этими нагрузками также на Windows-ПК, благодаря чему разработчики могут запускать одни и те же приложения как локально, так и в облаке. Это существенно расширяет возможности развертывания ИИ-моделей в гибридных сценариях, когда одни задачи запускаются локально, а другие выгружаются в облако.
Двигаясь в русле этих инноваций, NVIDIA представила «ИИ-кальки» для RTX. Эти модифицируемые референсные проекты служат для разработчиков отправным пунктом, предоставляя им необходимые инструменты, исходный код, образец данных и законченный образец приложения, по которому они смогут создавать собственные ИИ-проекты. Эти кальки позволяют разработчикам сделать быстрый старт, расширив или модифицировав базовый образец в соответствии со своими целями и задачами. На примерах этих калек был продемонстрирован потенциал новой платформы для ИИ-разработок.
Пример "PDF для подкаста" показывает, как извлеченный контент, сначала преобразованный в аудиоформат, может быть модифицирован путем выбора различных тем подкаста, таких как «наука», «технологии» или «здоровье». Этот уровень персонализации позволяет пользователям адаптировать контент под свои интересы или для конкретной аудитории. Простота использования очевидна – система обеспечивает бесшовный опыт, где пользователь просто перетаскивает содержимое PDF-файла, а остальное делает ИИ.
В другом примере цифровой аватар пользователя, также известный как R2X, демонстрирует свои возможности в различных практических сценариях. R2X работает как виртуальный ассистент, помогая пользователю в таких делах, как аннотирование документов, организация встреч через Microsoft Teams и даже подробное консультирование по вопросам редактирования изображений в Photoshop.
Например, в ответ на вопрос, как поменять куртку на фотографии, R2X расскажет, как пользоваться функцией умной заливки в Photoshop; это наглядно показывает, как ИИ может помочь в рационализации творческого процесса. В другом сценарии аватар помогает анализировать страховой документ, отвечая на вопрос, является ли по условиям данной страховки страховым случаем протекание крыши в результате снегопада.
На будущее NVIDIA отметила, что они работают вместе с Adobe над тем, чтобы у R2X был прямой доступ к функциям Photoshop и он мог активировать их сразу, без запроса со стороны пользователя.
Также были продемонстрированы возможности R2X в части предоставления информации в реальном времени, например, где находится ближайший Starbucks.
Всем разработчикам и энтузиастам ИИ, которым не терпится попробовать все эти новые фишки в действии, NVIDIA предлагает простое стартовое решение. ИИ-кальки и NIM будут доступны онлайн на игровом полигоне NVIDIA, где пользователи смогут поэкспериментировать с различными моделями и конфигурациями. Кроме того, скоро будет доступна установка в один клик, упрощающая этот процесс для пользователей ПК с RTX.
Концепция "интерактивных игровых миров" сама по себе не нова, но NVIDIA собирается ее радикально модернизировать. Их идея заключается в том, что интерактивность не ограничивается простым присутствием в игре так называемых неигровых персонажей (non-playable characters, NPC). Они выдвигают концепцию игрового мира, который непрерывно реагирует на действия пользователей и ИИ-персонажей, с которыми пользователи взаимодействуют по ходу игры.
NVIDIA замахивается на то, чтобы «цифровые человечки» на базе ИИ не просто обслуживали диалоги реальных игроков, но активно участвовали в развитии сюжета, в том числе совершая ошибки, и вносили в игровой мир дополнительный элемент непредсказуемости. Основная сложность в достижении этого – ИИ-моделирование процесса принятия решений человеком, так, чтобы это выглядело естественным и органично вписывалось в игровой контекст.
Моделирование процесса принятия решения охватывает три основные стадии: восприятие, размышление и действие.
Чтобы лучше вооружить знаниями своих ИИ-агентов, NVIDIA разработала продвинутые модели слухового и визуального восприятия. Эти модели позволяют агентам более адекватно понимать игровой мир и реагировать на него в стиле человека.
NVIDIA разработала несколько систем на базе ИИ, предназначенных для совершенствования игровой интерактивности.
Проект цифровых игровых персонажей от NVIDIA – амбициозен и интересен одновременно. Компания работает над созданием ИИ-персонажей, которые функционируют не просто как NPC. С помощью технологий встроенных механизмов принятия решений, эмоциональной глубины и продвинутой мимики цифровых персонажей NVIDIA намерена открыть новую эру интерактивного гейминга. Эти инновации потенциально позволяют создавать более иммерсивные, непредсказуемые и эмоционально захватывающие игровые миры, которые установят новый стандарт сосуществования и взаимодействия игроков и ИИ.
Процесс разработки контента за последние десятилетия претерпел ряд значительных трансформаций, обусловленных развитием графических технологий. Переход от линейного видеомонтажа к нелинейному в 1990-х годах революционизировал отрасль, позволив редакторам работать в более гибком режиме. Следующий большой скачок произошел в конце 2010-х, когда пришел искусственный интеллект: инструменты на базе ИИ позволили автоматизировать многие процедуры, требующие больших затрат времени, например, перемещение объектов в видео, что раньше осуществлялось путем покадрового редактирования. И с этого момента роль ИИ в разработке контента только возрастает.
Как уже было упомянуто, в серии Blackwell тензорные ядра поддерживают форматы данных FP4 и INT4. Эти форматы обеспечивают половинную точность, но в то же время занимают вдвое меньше места, благодаря чему модели больших размеров теперь вписываются в бюджет графической памяти пользовательских видеокарт – раньше для этого требовались супердорогие серверные карты с большим объемом VRAM.
Технически меньшая точность слегка ухудшает результат на выходе, но эта проблема практически нивелируется за счет большего количества циклов обучения, которое теперь возможно, потому что скорость процессинга в целом значительно выросла.
Еще одна перспективная область применения генеративного ИИ – создание изображений. Раньше художникам приходилось надеяться только на текстовые описания той картинки, которую должен нарисовать ИИ. Это не самый точный метод взаимодействия с ИИ, особенно если пытаться подробно описать композицию со многими элементами. Теперь «инструкцией» для ИИ может служить 3D-сцена, которую он может тщательно изучить для лучшего понимания пространственных соотношений между объектами и в итоге выдать более релевантный и визуально впечатляющий результат.
Что касается редактирования видео, то здесь важным достижением является поддержка формата цветовой субдискретизации 4:2:2, который обеспечивает большую глубину цвета и лучшее качество изображения. Благодаря 4:2:2 медиакриэйторы могут добиться более точной цветопередачи и лучшей резкости, особенно в зеленых сценах или изображениях с текстом. Недостатком этого формата является сравнительно большой размер файлов. Для решения этой проблемы новая графическая архитектура Blackwell предлагает продвинутые декодеры, которые позволяют проигрывать и редактировать контент 4:2:2 в высоком качестве без существенных потерь в скорости.
Благодаря усовершенствованиям в части кодирования и декодирования видео видеокарты Blackwell могут обеспечивать одновременную трансляцию нескольких потоков 4K. Это особенно актуально для тех, кто использует конфигурации из нескольких камер, например, в подкастинге или в организации прямых трансляций с места событий. Если кодируется один поток, вы получите еще лучшую производительность, потому что отдельные кадры будут обрабатываться параллельно несколькими кодерами. Кроме того, новая технология кодирования на 5% улучшает качество видео, оптимизируя размеры файлов без потерь в визуальной точности.
Одна из творческих областей, где медиакриэйторы столкнулись с серьезными вызовами, – это стриминг. Современные требования к стримам – интересный контент, который транслируется гладко и в высоком качестве, – могут поставить в тупик даже опытных стримеров. Однако новые разработки в сфере ИИ помогают стримерам решать эти задачи более эффективно. Компания Streamlabs в партнерстве с Vol AI представила Streamlabs Intelligent Streaming Assistant – цифрового ассистента, который разработан специально для стриминг-менеджмента. Он может управлять такими вещами, как смена плана, настройка звука и техническая поддержка, позволяя стримеру полностью сконцентрироваться на контенте. Пока находящийся на стадии разработки, этот ИИ-ассистент предназначен для того, чтобы преобразовать ландшафт стриминга путем автоматизации технических аспектов прямого эфира.
Источник: www.techpowerup.com