进入全面AI化的图形时代:NVIDIA RTX 50系列Blackwell架构深入解读
GPU的发展正沿着两条截然不同的路径前进,这一点从NVIDIA每年推出的产品线中可见一斑:一方面,随着AI计算和HPC需求的激增,NVIDIA为众多企业级用户推出了包括H100、A100以及最新的B200等产品。这些产品在设计、规格和成本上都极为奢华,主要目标是满足企业级计算那深不可测的需求。另一方面,在视觉计算领域,传统的光栅化计算模式似乎已接近极限。继续扩大光栅化计算规模,在技术和最终呈现效果上要么遇到了工程上的瓶颈,要么难以获得比前代产品更显著的优势。因此,从RTX 20系列开始,视觉计算开始融合AI功能,对GPU传统的光栅化和后处理过程进行AI优化,例如DLAA和早期的DLSS等。到了RTX 30系列,我们注意到GPU的发展方向逐渐更倾向于AI对视觉计算的影响,例如更强大的DLSS 2。随后,RTX 40系列引入了DLSS 3和AI帧生成技术,GPU的发展路线开始逐渐“全面AI化”。这里的“全面AI化”意味着新增技术不再仅限于在传统光栅化画面处理之后进行,如抗锯齿、帧生成、AI像素缩放等,而是AI开始深入光栅化过程,对整个视觉计算领域展开了更全面和深入的革新。
▲AI算力、神经网络渲染开始成为GPU和视觉计算最重要也是发展最快的部分。
▲Blackwell的设计目标,神经网络变得更为重要。
▲GeForce Blackwell神经网络渲染架构的特性一览。
自Blackwell架构问世以来,我们对GPU计算的传统认识和定义正经历着深刻的变革。在先前的GPU,例如RTX 30系列及更早的产品中,传统的光栅化视觉计算是GPU能力的体现,与最终图形性能的展现紧密相连。然而,在Blackwell架构以及RTX 50系列和后续的GPU中,光栅化视觉计算将不再是GPU视觉计算能力的全部,而仅仅是其关键组成部分之一。除了少数老旧应用仍然采用纯粹的光栅化技术外,新一代游戏、渲染以及其他视觉计算相关应用中,传统光栅化计算将大量融合AI技术进行“革新”,这将显著提高计算效率并减少资源消耗;同时,光栅化计算产生的数据将成为AI计算的“素材”,经过AI的整合和处理后,输出我们所需的图像。在这一过程中,AI计算已经成为视觉计算核心的关键部分,利用AI生成的图像将在新一代应用中占据主导地位,并成为GPU性能的关键制约因素。
在本文中,我们将深入探讨AI计算相关的DLSS 4、神经网络着色器以及其他视觉计算技术对Blackwell架构以及RTX 50系列的影响,并对其最终应用情况进行展望。
Blackwell和GB202 GPU架构图和工艺信息解读
Blackwell是NVIDIA新一代GPU的架构代号,其具体的产品芯片代号以“GB”作为前缀。其中顶级的芯片就是GB202,这也是RTX 50系列显卡中RTX 5090使用的芯片。我们先来简单了解一下GB202 GPU的相关内容,再深入解读其中的特色技术。
GB202:承载Blackwell架构的全新大核心
NVIDIA给出了GB202内核架构的简图。从上向下看的话,GB202顶端依旧是PCIe 5.0接口界面,接下来,NVIDIA带来了两个重要的处理单元,分别是AMP(AI Management Processor,AI管理处理器)以及传统的Giga Thread Engine(极线程单元)。在这里,NVIDIA新增了AMP单元,这在之前的Ada架构上是不存在的。
▲GB202芯片微架构简图。
▲传统GPU上下文结构,可能会带来帧时间的不一致,整体延迟也比较高。
▲在增加了AMP之后,整体管理会更为协调一致,同时对DLSS多帧生成和延迟降低都有显著效果。
▲Blackwell的GPC结构简图。
▲Blackwell的SM架构简图,可见光线追踪单元发生了巨大变化。
▲Blackwell的SM单元对比ADA的SM单元,计算结构发生了变化。
▲对比Ampere架构的SM单元,可以得出更多的细节变化之处,尤其是光线追踪模块。
AMP:专用的GPU上下文硬件管理器
NVIDIA新推出的AMP主要负责GPU上下文(Context)的调度任务,这一任务之前是由CPU承担的。根据NVIDIA在CUDA编程模型中对GPU上下文的定义,GPU上下文类似于CPU的进程概念,驱动程序将GPU的所有资源和操作封装在上下文中,同时上下文还包含了执行一个或多个任务所需的全部状态信息。在执行多个任务时,可以利用多个上下文以增强任务隔离性,并确保多个应用程序能够并行使用GPU而不产生冲突。简而言之,当系统或应用程序需要访问GPU资源时,运行在CPU上的应用程序会发起请求(或指令),随后CPU通过PCIe总线向GPU发送这些指令,指令被提交到GPU的命令缓冲区(FIFO)队列中,GPU根据队列中的指令和相应的命令来分配资源并执行计算。任务完成后,上下文可以被销毁,GPU系统会自动清理相关资源。除了模块和纹理或表面引用等对象外,每个上下文都拥有独立的地址空间。在图形密集型计算,如游戏中,CPU需要频繁地向GPU发出指令,这给CPU带来了一定的负担。
AMP采用了一颗定制的RISC-V处理器来实现硬件功能。其主要作用是与Windows的硬件加速GPU调度(HAGS)和驱动程序协同工作,显著提升GPU上下文调度的效率。这不仅减轻了CPU在频繁GPU上下文操作中的负担,还实现了更高效的GPU上下文管理。配备了AMP后,专用硬件处理使得整体GPU上下文效率更高、性能更优、延迟更低。此外,AMP还减少了CPU与GPU之间信息传递的通信压力,使得CPU能够将性能释放到其他任务上,从而提升了CPU的整体性能表现,并最终增强了游戏性能。在DLSS 4的帧生成技术方面,AMP结合游戏引擎和渲染模型,对玩家的行动方向进行预测,并综合运用RT核心、CUDA核心以及Tensor Core进行多帧生成的相关操作,这也是DLSS 4的关键技术之一。
图中展示的第三层级包含了三个独特的组件,其中Optical Flow Engine是其中之一。在Ada架构中,这一结构被称作Optical Flow Accelerator。它是DLSS 3帧生成技术的关键组成部分:光流处理单元。在ADA架构中,它被命名为“光流处理加速器”,而在Blackwell架构中,则被称为“光流处理引擎”。光流处理单元的主要功能是利用前一帧的结果和运动矢量方向来生成新的帧运动信息,这有助于提升帧率并使视觉效果更加平滑。该单元最初应用于视频相关设备(例如电视机),其主要作用是在视频播放时插入帧以增强视觉平滑度,它也常见于传统GPU中。从命名上来看,Blackwell的光流处理单元性能得到了显著提升,因此NVIDIA赋予了它“引擎”的称号。
此外NVENC和NVDEC两个和媒体编解码相关的单元,在Ada架构中最多分别有3个,但是在GB202中最多配置了4个,并且整体架构也进行了更新。我们还会在后文详细介绍有关Blackwell或者GB202媒体单元的内容。
紧随前端部分之后,我们进入了包括GPC(图形处理集群)、L2缓存以及内存控制器在内的后端部分。一个完整的GB202单元由12个GPC组成,每个GPC内含8个TPC,从而总计达到96个TPC。每个TPC进一步包含2个SM单元,因此整个单元总计拥有192个SM单元。除此之外,GB202示意图的两侧还配备了16个32位的GDDR 7内存控制器,共同构成了512位的GDDR 7内存规格。
针对图形处理核心(GPC),除了包含8个纹理处理核心(TPC)之外,还整合了图形核心前端的1个光栅化引擎,以及后端的2个光栅化操作(ROP)分区。每个ROP分区内部含有8个ROP单元,因此总共配备了16个ROP单元。ROP单元与图形显示输出以及传统抗锯齿技术(如多重采样抗锯齿MSAA、全屏抗锯齿FSAA等)紧密相关。
NVIDIA特别指出,每个SM单元配备了2个FP64核心,尽管这些未在图表中标示。FP64核心指的是双精度浮点运算单元,这类计算主要用于高精度的科学计算领域,而在常规图形处理和人工智能计算中使用较少,且占用大量晶体管资源。因此,除了针对顶级市场的GPU产品如GB202之外,其他高端或中高端GPU型号可能不会配备如此多的FP64核心,甚至可能完全不包含它们。毕竟,FP64核心仅限于支持那些包含FP64指令集的计算任务,以确保其正常运行。此外,GB202还配备了少量支持FP64运算的Tensor Core,其功能与FP64核心相似。
在L2缓存方面,从ADA架构开始,NVIDIA开始设置大容量L2缓存。GB202内包含了128MB L2缓存,相比前代AD102的96MB提升了大约33%,考虑到本代在AI相关算力方面的提升,L2缓存继续大幅度增加也是合理的。
进一步来看SM单元。从微观角度来说,SM单元包含着每一代GPU最核心的变化。Blackwell的SM单元的两大显著变化在于:
首先,关于计算核心,即CUDA Core部分,现在已全面升级为全功能单元。在Blackwell架构的每个SM单元中,计算单元能够执行FP32或INT32计算任务,这与Ada架构不同,后者将计算单元分为两部分,一部分能同时处理INT32和FP32计算,而另一部分仅限FP32计算。然而,考虑到GPU的工作模式,每个SM中的计算核心在任何给定时刻只能执行FP32或INT32计算,无法同时进行混合计算。这种改变显著提升了INT32计算能力的上限,对于那些涉及大量INT计算的应用来说,在Blackwell架构上将获得更优的性能表现。对于芯片本身而言,全功能计算单元会消耗更多的晶体管资源,因此Blackwell架构的每个计算单元相比Ada架构的对应单元会更大一些。
二是在架构优化方面,Blackwell SM为神经计算而优化,这部分内容NVIDIA在白皮书中没有更深入地描述,但是我们确信SM内部结构或者软件定义的SM结构发生了变化。我们后文还针对神经网络优化的光栅化计算进行了解读。
在Blackwell的SM单元中,包含了128个CUDA核心,1个第四代光线追踪(RT)核心,4个第五代Tensor Core,以及4个纹理单元。此外,它还拥有一个512KB的寄存器和128KB的L1/共享缓存。与Ada架构相比,新的SM单元的寄存器容量翻了一番(Ada架构为256KB,尽管NVIDIA提供的Blackwell架构图中仍标注为256KB,但文字介绍显示为512KB,这可能是图像未及时更新所致)。L1/共享缓存的容量保持不变,其配置依然灵活,可以根据实际需求设置为全部L1、全部共享缓存,或32KB+96KB的组合。在纹理单元方面,Blackwell单元的双线性过滤纹理采样率是前代产品的两倍,这将显著提升部分随机纹理访问算法的性能,并且可以与神经纹理压缩技术相结合,这是Blackwell架构的一个独特优势。
另外,光线追踪单元现在是第四代,相比Ada的第三代,增加了1个单元,并且整体示意图也进行了更新,我们会在后文光线追踪的部分进行详细描述。
我们将Ampere架构、Ada架构到现在的Blackwell架构列在这里进行对比。可能只是看示意图的话,会发现其整体变化似乎没有那么大,比较明显的只有CUDA Core部分以及光线追踪引擎部分的变化,但实际上,三代SM核心在不断地AI化,整体AI加持的内容已经越来越多了。
好了,我们总结一下整个Blackwell GB202芯片的所有参数和信息。完整的GB202相关的单元数据如下:
●24576个CUDA核心
●384个FP64核心
●192个RT核心(包含少量FP64 Tensor Core)
●768个Tensor Core
●786个纹理单元
●512bit GDDR7内存接口
GDDR7存储:PAM 3带来更高速率
在RTX 4080、RTX 4090系列GPU上,由于规模庞大的GPU核心对显存带宽的渴求,NVIDIA采用了当时全球最快的GDDR6X显存,实现了高达1TB/s的带宽,但是从RTX 4090的测试来看,显存带宽依旧是超大规模GPU计算的瓶颈之一。
▲GDDR7极大地缓解了Blackwell GPU显存带宽不足的问题。
▲相比前代产品,GDDR7带来了显著的性能提升。
为了进一步提高显存带宽,释放核心计算性能。在Blackwell以及RTX 50系列显卡上,NVIDIA选择了GDDR 7显存来进一步拓宽显存带宽。在RTX 5090上,在512bit显存位宽和28Gbps GDDR7显存的帮助下,显存带宽峰值来到了1.792TB/s,相比前代产品提升了70%。
在这里,除了GPU显存位宽从384bit提升至512bit所带来的性能提升外,显存带宽的进一步增长还得益于采用更高数据传输速率的GDDR7显存。GDDR7显存之所以能实现如此高的数据传输速率,其核心在于采用了PAM 3信号调制技术。尽管与GDDR6X的PAM 4技术相比,PAM 3每次传输的数据量较少——后者每个周期有4个电平位置,可传输2位数据,而前者每个周期仅有3个电平位置,平均只能传输1.5位数据——但PAM 3的电平位更少,却带来了更强的抗干扰能力,显著提升了整体传输信号的信噪比。这使得传输频率得以大幅提升,从而弥补了单次传输数据量减少所导致的带宽降低,实际上,频率的显著提升反而增加了传输速率。此外,GDDR7显存采用了更先进的引脚编码方案,数据传输通道数量翻倍,同时降低了与IO相关的功耗,整体性能得到了增强。
GDDR7在GPU上的应用,在很大程度上缓解了显存带宽不足带来的性能损失,不过相比企业级产品的HBM存储,GDDR7还是略显不足,但是综合成本、性能等,GDDR7的确也是当前消费级产品的最佳的选择了。
TSMC 4N:工艺放缓的现状以及NVIDIA的选择
关于晶体管的规模和芯片的面积,NVIDIA官方并未提供具体数据。在最近的发布会上,NVIDIA透露,其RTX 50系列显卡中的GB202型号采用定制的TSMC 4nm 4N工艺。据推测,这一改进版工艺可能在频率和功耗方面进行了优化,但在晶体管密度上可能未有显著提升。据第三方信息,GB202的晶体管总数达到922亿个,芯片封装尺寸为7平方毫米,每平方毫米的晶体管密度为1.24亿个,这使得GB202成为NVIDIA史上第二大芯片,仅次于754平方毫米的TU102。此外,这一尺寸也几乎达到了光刻光罩的最大面积限制,大约为850平方毫米。
▲TSMC N5的相关改进工艺,比如TSMC 4N,几乎已经成为NVIDIA的“御用”工艺了。
▲GB202 GPU核心简图。
关于GB202的工艺与先前的AD102,我们可以进行一些比较。AD102芯片的晶体管数量达到768亿,封装尺寸为608.5平方毫米,同样采用TSMC的4N工艺,这是TSMC为NVIDIA定制的优化工艺。AD102的晶体管密度为1.25亿个/平方毫米,而GB202的密度略有下降。这种差异并不显著,可能是由于封装过程中的面积变化所致,因此可以认为这两颗芯片使用的是相同的工艺。实际上,在AD102推出市场时,NVIDIA已经预先发布了H100芯片,其封装面积达到了814平方毫米。
对于现代半导体行业来说,没有更多的晶体管,实现显著的性能提升和变革是相当困难的。所有新功能、更强大的性能乃至更多特性,均需依赖于更多的晶体管。晶体管数量的增加意味着芯片面积的扩大、功耗和成本的上升。可以推测,在ADA发布之际,NVIDIA已经意识到TSMC N3工艺在成本和产能方面存在巨大挑战,即便到了2025年,这一工艺也难以支撑NVIDIA实现GB202芯片的大规模生产。因此,NVIDIA选择了一条更为务实的道路,转而生产尺寸较小的AD102芯片,并为正在研发中的Blackwell架构预留了晶体管资源和空间,以支持其新增功能和技术。在GB202芯片上,我们见证了136平方毫米面积的增加以及相应的154亿晶体管资源的投入,正是这些新增的晶体管数量,带来了GB202芯片在功能和性能上的大幅提升。
当前,半导体制造技术正逐渐逼近物理极限,整体发展速度明显减缓。目前,TSMC 4N工艺代表了高性能芯片在性能、能效和成本方面的最高水平,值得注意的是,TSMC 4N工艺源自2021年,尽管过去四年中工艺技术有了显著的提升——例如TSMC N3工艺已经实现量产,英特尔的18A工艺也在大规模生产中——但这些工艺在产能、成本和价格方面可能难以满足GPU这类大面积、面向消费者的高性能芯片的生产需求。预计NVIDIA下一代消费级芯片很可能采用TSMC N3工艺,而下下一代采用GAA技术的N2级别工艺的可能性仍然较低。由于生产成本高昂,即便是企业级的Blackwell芯片(如B200、B300系列)目前仍停留在N5工艺。企业级芯片何时能够采用新一代工艺,消费级芯片才能紧随其后。正如我们所言,只有新一代工艺显著增加晶体管数量,我们才能期待GPU性能实现更进一步的飞跃。
神经网络着色器时代的来临:Blackwell改革视觉计算
在了解了整个Blackwell架构以及GB202芯片的信息后,我们来进一步深入Blackwell架构。Blackwell在整体架构上的改进核心的技术点在于引入了大量神经网络相关的技术,并对在光栅化道路上持续了至少20年的图形计算过程开始进行根本意义上的变革。
▲NVIDIA展示了视觉计算相关发展历史,Blackwell将AI深度融入视觉计算。
▲微软和NVIDIA一起,将一起推进神经网络着色器的发展。
▲RTX Neural Materials(神经网络材质)的应用,以珠宝材质渲染为例。
▲RTX Neural Texture Compression(RTX神经网络纹理压缩)技术,NTC为神经网络压缩的结果,数据更少,质量更高。
▲RTX Neural Radiance Cache(RTX神经网络辐射缓存)可以大幅度节约类似场景的光线、阴影计算量,并提升质量。
▲RTX Skin(RTX表皮材质)借助于光线追踪技术,带来了非常高质量的半透明质感。
▲RTX Neural Faces(RTX神经网络面孔),强化了模拟的人脸部视觉呈现,避免“恐怖谷”效应的出现。
光栅化技术走到了尽头:简化算法无法解决太多问题
NVIDIA在其发布会上概述了图形技术的发展历程。2001年推出的GeForce 3系列引入了顶点着色器和像素着色器。随后,DirectX 10引入了统一渲染架构和几何着色器等新特性。DirectX 11进一步带来了计算着色器和曲面细分技术。DirectX 12则引入了网格着色器和更深层次的可编程性。此后,2018年标志着硬件实时光线追踪计算首次集成到GPU中。直至今日,神经网络技术已融入Blackwell架构,Tensor Core能够访问着色器部分,并且结合了着色器重排序技术。AI相关的图形计算和模型计算预计将在下一代游戏中,在Blackwell平台上并行运行。
回顾历史和技术演进,特别是光栅化技术的发展历程,我们可以清晰地看到,视觉计算在当前的技术和实施层面,尤其是广为人知的光栅化技术,实际上反映了人类在现有技术限制下对世界的极度简化模拟。在图形学领域,光栅化过程指的是从三维空间向二维空间的转换。光栅化计算的初始阶段,即几何场景的构建,是在三维坐标系中完成的。随后,便是将三维场景映射到二维平面的光栅化步骤。完成光栅化之后,才涉及像素计算、纹理映射以及各种高级计算。在三维到二维的转换过程中,几乎所有的三维位置信息都被舍弃,这也导致了后期着色器在处理像素计算时,其过程甚至可以被视为一种“虚拟”的计算。例如,阴影的生成,由于缺乏三维位置信息,必须预先计算或依据二维图像的状态进行估算,所谓的动态阴影也是基于这样的估算。同样地,由于丢失了三维位置信息,光栅化生成的图像往往呈现出不自然的均质和稳定状态,这促使人们开发了次表面散射、环境光遮蔽、渐变阴影、软边阴影等技术来加以改善。
本文之所以详细阐述,旨在向大家阐明,光栅化技术是在过去计算能力和技术条件受限的情况下,人们采用的一种简化算法。它在当时具有其价值。然而,如今光栅化技术已基本达到其发展的极限。对于现代工程学而言,判断一项技术是否已至尽头,关键在于观察其复杂性。当技术或系统的复杂性不断攀升,且越来越多的问题变得难以解决时,这通常意味着基础技术理论已无法支撑其进一步发展。光栅化图形技术和半导体制造工艺均是如此。
人工智能和神经网络技术在视觉计算领域的应用,目前主要依赖于使用真实世界素材进行大规模训练,从而生成具有大量参数的模型,并利用这些模型产生模拟结果。相较于光栅化计算,这一路径已经显示出其显著的优势。自2010年起,行业内关于将AI技术应用于图形渲染的论文便不断涌现,其中一些热门话题包括CNN在降噪、重新着色等方面的应用,以及O-CNN在形状识别上的能力提升,还有CNN在烟雾处理和相关着色渲染方面的贡献。近年来,随着Transformer和扩散模型的出现,AI模型在视觉计算方面的能力进一步增强,其优势相较于传统光栅化计算不仅没有减少,反而大幅扩大。既然我们无法从基本粒子层面构建从微观到宏观的系统性模拟方程,只能通过类比其他方法来寻找视觉计算的捷径,那么为何还要固守光栅化技术,而不引入AI技术来革新视觉计算呢?
这可能就是NVIDIA在GPU上引入AI或者神经网络相关技术的初心。既然AI技术迟早都会颠覆光栅化计算,那还不如现在就从自己开始,从Blackwell开始。
在发布会上,NVIDIA给出了部分目前比较成熟的应用了神经网络的着色器案例,在NVIDIA官网还公开了更多的神经网络渲染的应用,网址为
https://research.nvidia.com/labs/rtr/tag/neural-rendering/,有兴趣的读者可以自行查看。
RTX Neural Materials(神经网络材质)
在光栅化计算中,如果要体现出复杂材质的观感,整体计算相当麻烦。比如半透明材料、水晶杯、珠宝甚至皮肤等,需要多个“补丁层”以及大量的约束条件,才能得到近似计算结果,整体算力的耗费、数据存储空间的需求要求都非常高。
但是通过神经网络进行对应材质的学习,GPU可以利用相应的模型直接生成人们想要的材质,并最终正确呈现在画面上。在资源消耗方面,NVIDIA数据显示传统算法需要47MB的内存消耗,而新的RTX神经网络算法只需要16MB。
RTX Neural Texture Compression(RTX神经网络纹理压缩)
纹理压缩是目前光栅化计算的一个难题。如果熟悉游戏开发,那么一定知道一个上百GB的游戏文件中,除了音乐、视频等素材占据较大内容外,高精度的纹理一定占有最巨大的容量。
巨大的纹理体积不但对存储产生了体积的要求,还在内存、显存以及数据传输方面带来了巨大的压力。因此实现对纹理文件的高压缩比无损压缩就非常有必要了。NVIDIA演示了利用AI模型进行纹理压缩的方案,相比传统数字压缩算法,新的神经网络或者AI介入的压缩算法,在压缩同样一个纹理材质的时候,仅使用了相比传统压缩算法1/3不到的空间,同时还拥有更高的视觉质量。
不仅如此,诸如STF(Stochastic Texture Filtering,随机纹理过滤)这样的技术,可以在无法使用三线性过滤或者各向异性过滤的场合,来减少纹理表面的摩尔纹或者锯齿等。在Blackwell中,STF的运行效率受益于点采样纹理过滤速率的显著提升,拥有更好的计算速度。
RTX Neural Radiance Cache(RTX神经网络辐射缓存)
在处理辐射度计算时,传统的光栅化方法由于缺乏三维信息,导致计算复杂且效果不尽如人意,通常需要借助光线追踪技术进行繁琐的计算。然而,经过训练的神经网络在执行这类任务时表现得相当出色。这是由于神经网络能够利用反弹路径追踪技术获取的光线路径结果作为输入,进而推断出经过多次反弹后的光照效果。该技术的关键在于,神经网络能够在光线仅反弹一次后就将其结果存储于缓存中,并预测多次反弹后场景中的光线分布。因此,无需进行大量光线数据的复杂计算,也能获得相应的结果。
借助RTX神经网络辐射缓存技术,系统能够直接且自适应地计算出间接照明光线应有的外观。得益于其卓越的适应性,即便在多样化或复杂的场景中,该技术的表现依旧出色。与传统的光栅化或光线追踪技术相比,RTX技术显著降低了计算资源的需求,并且能够准确地呈现场景细节,实属优秀。
RTX Skin(RTX表皮材质)
NVIDIA提出了一种创新的半透明材质处理方案,其核心技术基础是光线追踪技术。简而言之,在处理传统皮肤或类似半透明材质时,由于材质的半透明特性,计算和呈现过程中必须考虑材质内部的散射和反射,这使得整体计算变得相当复杂。在光栅化时代,虽然有次表面散射技术能在一定程度上改善这类材质的质感呈现,但效果并不完美,并且会显著增加系统资源的消耗。
借助于光线追踪技术,NVIDIA在RTX GPU上实现了电影行业级的“真实”次表面散射效果,对半透明表皮材质进行实时光线追踪处理,从而创造出卓越的视觉效果和高效的计算性能。在发布会上,NVIDIA展示了Half-Life 2中的猎头蟹表皮,其呈现效果生动地再现了皮肤半透明质感的自然之美。
RTX Neural Faces(RTX神经网络面孔)
在NVIDIA的发布会上,RTX神经网络脸部处理技术作为AI应用的压轴展示,其核心价值在于运用神经网络算法减少传统渲染技术在人脸部渲染时产生的不自然感和异样感,从而避免触发所谓的“恐怖谷”现象。NVIDIA声称,通过结合光栅化的人脸图像和3D姿态数据,其AI技术能够实时生成更为逼真、自然的人脸图像。这一成就得益于技术人员使用成千上万张在各种角度和光照条件下拍摄的人脸图片训练出的AI模型。经过NVIDIA TensorRT的优化,该模型现已准备好应用于游戏和3D软件中。
实际上,NVIDIA在发布会上所展示的神经网络着色器技术仅仅是冰山一角。在其官方网站上,神经网络着色器的相关页面还涵盖了包括神经网络反射场纹理、神经网络外观模型、神经网络场景图渲染以及用于阴影推理的组合神经网络场景表征等众多先进技术。这些技术的推出,表明了神经网络,即人工智能相关技术,有望在不久的将来深入并大幅改造现有的光栅化技术,引领视觉计算效能的革命性提升。这无疑是一个令人期待的未来。
第五代Tensor Core:支持FP4和第二代FP8 Transformer
NVIDIA在GPU中引入Tensor Core堪称划时代的壮举。在RTX 20系列产品上,部分玩家对Tensor Core的引入还表示疑惑不解。但是现在来看,Tensor Core或者是AI相关能力对GPU视觉计算的帮助甚至远超传统光栅化单元。
▲第五代Tensor Core的特点在于新增了针对FP4、FP6的支持以及第二代FP8 Transformer模型的支持。
▲更低的计算精度在保证一定正确率的情况下,带来了更高的计算速度。
在Blackwell中NVIDIA带来了第五代Tensor Core。第五代Tensor Core的特点在于新增了针对FP4、FP6的支持以及第二代FP8 Transformer模型的支持。
为何要增强对低精度格式,如FP4或FP6的支持?原因在于,随着对大型模型及其压缩技术的深入研究(显然,工业进步的核心在于成本降低),人们发现模型压缩能够提升模型的运行效率、减少资源消耗,并加速推理过程,同时对结果的准确性影响微乎其微,甚至可以忽略不计。因此,支持更多格式,特别是低精度格式下的AI计算,已成为AI行业发展的主要趋势。通常,模型压缩有三种主要方法,首先是降低计算精度,其他方法还包括应用稀疏计算和模型蒸馏等技术。
在减少计算精度的策略上,业界普遍采用的方法是将原本使用的BF16数据格式降低至INT4或FP4。这种做法能够有效提升计算速度,并显著减少内存占用和相应的计算资源需求。在精度降低的情况下,鉴于精度对最终结果的重要性,人们可以采用量化感知训练来补偿量化误差,确保压缩前后的模型在最终结果上保持基本一致。
Blackwell对FP4/FP6的支持主要体现在与NVIDIA的TensorRT-LLM和NeMo框架的紧密结合,通过共享缩放系数等技术手段,实现了模型的整体缩放和高效计算。在混合精度方面,Blackwell同样能够自动执行混合精度缩放,以保证计算效率。NVIDIA将这些功能整合进TensorRT模型优化器,并提供了一整套先进的量化技术,这些技术在不牺牲最终输出质量的前提下,显著降低了计算精度和所需的计算资源。
NVIDIA的最新数据揭示,通过运用TensorRT模型优化器,许多原本采用FP32精度的层现在可以被FP16替代,FP16替代的层越多,整个模型的性能就越接近NVIDIA所宣称的5倍性能提升,同时资源占用率也显著降低。例如,NVIDIA指出,FLUX.dev模型在传统模式下运行需要23GB的显存,但经过优化后,在FP16精度下仅需不到10GB的显存。在速度方面,FLUX.dev在RTX 4090上运行,15秒内可以完成30步的图像生成,而在FP16与RTX 5090的组合下,仅需5秒即可完成相同任务。
总的来说,Blackwell针对FP4、FP6以及第二代FP8 Transformer模型、相应缩放技术的支持等,进一步大幅度提升了AI计算的效率,这也是NVIDIA可以有勇气在DLSS 4中带来多帧生成技术的技术底气之一。
第四代RT Core(光线追踪核心):分组计算更高效,毛发计算更真实
光线追踪技术已经成为新一代3A游戏的核心技术。尽管在实际应用中,它仍面临一些挑战,例如对GPU的高要求以及游戏应用的普及程度有限,但无可否认的是,光线追踪技术正在根本性地改变我们的游戏光影生成方式,为玩家带来前所未有的、接近现实的互动视觉体验。
▲第三代RT Core的两大新功能中,DMME被替换升级。
▲第四代RT Core带来了三个全新的功能。
▲RTX Mega Geometry使得光线追踪整体所需计算划分更为高效,大量重复计算不再进行。
▲第四代RT Core拥有了CLAS这个全新的“簇”。
▲NVIDIA在发布会上展示了名为“Zorah”的Demo,采用的就是RTX Mega Geometry技术进行优化。
▲PTLAS将整个画面进行分区,没有变动的部分不再计算。
作为一项新兴的“老”技术,在GPU上实现游戏中的光线追踪,核心挑战在于实现“实时”渲染。例如,在离线渲染领域,光线追踪技术已经应用超过30年。得益于其离线渲染的特性,开发者可以利用庞大的计算资源和成本,逐帧计算画面,以达到极致的细节表现。然而,实时渲染的游戏画面无法采用这种方法,必须通过创新的方案和技术来克服光线追踪过程中的难题,并显著提升计算效率,以满足“实时”渲染的需求。
在Ada架构的第三代光线追踪单元中,NVIDIA引入了不透明微图(Opacity Micromap)检测功能。该功能能够评估物体的不透明度,并据此进行适当的处理。它将原本需要SM和CPU参与的过程转移到了GPU上,由一个高效的专用模块来完成,显著提升了光线追踪的计算效率。此外,第三代光线追踪单元还配备了DMME(Displaced Micro-Mesh Engine微置换网络引擎)。DMME的主要作用是根据需求生成三角形,解决光线追踪与微小三角形交叉的问题。DMME能够批量处理三角形的相关计算,并将结果反馈给GPU,避免了光线追踪单元对每一个微小三角形进行深入计算,从而在很大程度上提高了计算效率。
得益于这些技术的融入,我们见证了在图灵架构的初代光线追踪单元以及安培架构的第二代光线追踪上,引入了专门用于加速BVH过程的Box Intersection包围盒相交引擎,以及用于计算光线与目标三角形是否相交的Triangle Intersection三角形相交引擎。在ADA架构的第三代光线追踪单元中,新增了用于检测不透明微图的Opacity Micromap技术以及用于处理微置换网络的Displaced Micro-Mesh Engine引擎。
目前,NVIDIA在其第四代光线追踪单元上仅保留了包围盒相交引擎和不透明微图检测两项功能。同时,对三角形相交引擎进行了升级,推出了更先进的三角形簇相交引擎,并引入了两项创新技术:三角形簇压缩引擎(Triangle Cluster Compression Engine)和线性球体扫描(Linear Swept Spheres)。从工作原理上分析,三角形簇相交引擎与三角形簇压缩引擎的结合,不仅继承了原有三角形相交引擎和DMME的功能,还实现了更高的标准化和统一性,并获得了行业标准游戏引擎如UE5的支持。NVIDIA因此推出了RTX Mega Geometry (“几何巨块”)处理技术,该技术在处理几乎无限细分的三角形细节时,显著提升了光线追踪的效率。
RTX Mega Geometry:对光线追踪的计算进行高效率的优化
在了解有关光线追踪的两个新技术之前,我们先来看看目前光线追踪技术遇到的问题。
当我们参观诸如山西小西天或故宫角楼这样的古建筑,以及欣赏精美的青铜器时,常常会对它们复杂的细节感到惊叹。这些作品代表了人类艺术的巅峰,以其极致的复杂性和细节多样性闻名。要在GPU驱动的视觉计算世界中完整呈现这些细节,实际上是一项挑战。难点在于,GPU构建的虚拟世界或线性视觉计算技术是基于数以亿计的三角形来塑造三维物体的。细节越多、越丰富,意味着需要的三角形就越小、越密集。在技术进步的过程中,包括曲面细分(Tessellation)在内的技术被广泛采用,GPU能够在指令限制下自动生成一组细节丰富的三角形,使画面更加逼真。然而,这些密集的三角形也给整个系统带来了巨大的压力。
在游戏体验中,我们常常遇到这样的情况:一个精致的建筑在远距离观察时显得美观且细节丰富,但一旦靠近,粗糙的材质和贴图便暴露无遗,令人失望。这种现象通常是由于模型的精度不足所导致。那么,是否采用全高精度模型就能解决问题呢?实际上并非如此。问题在于,当观察者处于远处或物体被遮挡时,如果系统仍然加载全局高精度资源,那么这些不可见或无关紧要的资源也会占用系统性能,这无疑是一种浪费。幸运的是,解决这一问题的方法相对简单。我们可以根据观察者的距离以及场景中的实际遮挡情况,采用不同精度等级的模型。例如,当观察者处于远处时,目标可以使用较为粗糙、细节较少的模型;而当观察者靠近时,则切换到更为精细的模型。这种技术在图形学领域被称为LOD(Level of Detail,细节层次)。
LOD(Level of Detail,细节层次)技术的引入,是图形计算领域的一项重大技术革新。它不仅提升了性能,还保持了高精度,显著提高了处理效率。在LOD技术的众多应用案例中,最引人注目且成功的当属UE 5中的Nanite技术。Nanite技术被誉为实现了“几乎无限的细节”。其技术核心在于优化LOD效果和高效利用LOD。简而言之,Nanite能够将画面划分为多个区域(这些区域被称为“簇”),并根据显示需求对每个区域进行适时的计算。每个簇内还包含多达128个子簇,这些子簇能够根据具体情况展示高精度或低精度细节。Nanite的灵活性极高,它能够在几乎不增加整体画面三角形数量的前提下,展现出极致精细的场景,并且能够轻松地融入现有的模型体系。
Nanite技术的问世带来了卓越的几何形态表现,然而,它也对光线追踪计算提出了挑战。首先,光线追踪中的BVH(Bounding Volume Hierarchy)计算稳定性不足。这是由于LOD(Level of Detail)技术的应用导致画面中的三角形体系根据观察者的视角实时变化。在光线追踪过程中,BVH的构建是一次性的,需要利用整个画面的所有三角形信息来构建BVH,以完成光线追踪计算。对于应用了LOD技术的画面,传统的光线追踪方法需要不断地根据LOD的变化重新构建BVH,这在性能上几乎无法承受。其次,对于Nanite技术能够展现的近乎无限细节的场景,对象数量庞大,在画面变化时,每次都需要重新计算所有光线追踪的细节信息,包括每个微小三角形的光照结果等,这导致了巨大的重复计算压力。
鉴于此,如果需要Nanite这类LOD技术和光线追踪进行有效地结合,那么必须对现有的光线追踪技术予以优化和改进,在Blackwell的第四代光线追踪单元中,NVIDIA提出了名为RTX Mega Geometry (“几何巨块”)的技术,来解决类似Nanite技术遇到的问题。
RTX Mega Geometry的技术思路和LOD其实基本一致。LOD有簇的结构,RTX Mega Geometry也提供了簇的结构,新的“Cluster-level Acceleration Structures”,简写为CLAS的簇级加速结构(CLAS和之前第三代光线追踪单元的DMM也就是Displaced Micro-Mesh置换微网络存在一定相似性,都是一群用于描述细节的微小三角形的集合)可以从空间中相邻的最多256个三角形中批次生成。CLAS可以用于构建最终的BVH数据,并且根据需要生成。CLAS还可以将信息储存在缓存中,以方便未来使用。在这种情况下,整个物体都会被划分为不同的CLAS,比如CLAS 0、CLAS 1、CLAS 2等等。每个CLAS包含了大约100个小三角形,因此从宏观结果来看,整个系统一次性接受的BVH渲染数量少了2个数量级,这样一来就可以接受更多目标的BVH构建。这也是NVIDIA在发布会上提到的RTX Mega Geometry带来了100倍BVH效率提升的数据来源。
那么,LOD相关的细节问题解决了,大家都采用了层级结构,那么这个过程如何控制呢?我们推测,游戏引擎将结合LOD的信息,选择合适的CLAS进行显示,并只计算那些在LOD观察内高精度的且由于观察者变动后受到影响的CLAS的BVH。在整体控制方面,LOD都采用低精度计算的部分,CLAS自然也不需要进行详细到每个细节的BVH计算,只需要在CLAS层级计算就可以了,并且整个RTX Mega Geometry完全自动化、批处理,整个参数完全由GPU驱动,GPU可以自主执行LOD相关的选择、剔除以及动画等,几乎不需要CPU参与,很大程度上可以降低CPU开销以及通信负担。
得益于CLAS(层级加速结构)的引入,RTX Mega Geometry能够通过增加更多层级来实现画面的有效分隔。这种做法允许我们避免对那些无需新BVH(边界体积层次结构)操作的区域进行不必要的重复计算,从而显著减少了计算需求。RTX Mega Geometry引入了一种新的顶级加速结构,即PTLAS(分区的顶层加速结构,Partitioned Top-Level Acceleration Structure)。在游戏开发中,并非每次画面切换都需要对所有画面内存进行重新计算。实际上,大多数对象在连续的帧之间是不需要重复计算的。因此,RTX Mega Geometry可以专门管理PTLAS对象,仅更新那些发生变化的区域。此外,RTX Mega Geometry构建了由两个不同PTLAS对象组成的区域:一个区域包含完全静态的内容,这些内容不受环境变化影响,因此可以仅读取数据;另一个区域则包含受全局影响的内容,每次都需要重新绘制。通过这种方式,先前计算的信息得以有效保留并重用,即便面对更高的复杂度,RTX Mega Geometry也能够高效地处理和计算。
除了上述针对光线追踪的应用之外,RTX Mega Geometry在曲面细分领域也进行了创新构建。传统的曲面积分技术由于视角变化等因素,导致细分的三角形需要频繁地进行BVH构建,这会消耗大量的计算资源。如今,RTX Mega Geometry能够直接将细分过程映射到簇生成,使得曲面细分的光线追踪过程能够构建CLAS层级,从而显著提升了曲面细分光线追踪的计算效率。
在硬件支持上,RTX Mega Geometry是一项基于软件的技术,NVIDIA所有支持光线追踪的GPU都可以在驱动和软件更新后使用RTX Mega Geometry技术,包括Turing、Ampere、ADA以及Blackwell,对于其他厂商而言,只要支持Vulkan并更新了针对PTLAS的扩展或者支持OptiX 9.0的话,也都能够支持RTX Mega Geometry。
不过,由于Blackwell的第四代光线追踪单元加入了专用的硬件模块,能够实现新的几何图形和BVH数据压缩方案,并在光线和三角形相交计算方面效率翻倍,因此Blackwell架构的GPU还是可以在Nanite这类典型场景拥有最小的显存占用,以及相对最出色的性能。
以圆化缺:线性球体扫描(Linear Swept Spheres)功能
线性球体扫描(Linear Swept Spheres,简称“LLS”)技术,专为细长且随物理场景变化而不断摆动的物体设计,旨在实现更高品质的光线追踪计算。这类物体包括毛发、草地、海藻以及细丝等。LLS技术的引入,显著提高了这些物体光线追踪的计算效率,并且提升了图像的显示质量。
▲对毛发的传统计算方法采用三角形替换,会有计算错误的情况出现。
▲线性球体扫描技术解决了毛发计算的光线追踪难题。
▲第四代光线追踪单元的性能相比前代产品翻倍,是第一代光线追踪单元的8倍。
在引入LLS技术之前,处理毛发这类以曲线形态存在的物体对光线追踪来说是一项挑战。由于需要计算曲线与光线的交点,这通常伴随着庞大的计算量。曲线采样点的设置并不简单,过于密集会导致计算负担过重,而采样点稀疏则会影响渲染效果。因此,光线追踪与曲线的交点计算通常仅限于离线渲染场景。对于实时渲染,研究者们提出了近似模拟算法,例如使用纹理卡片(textured cards)或者采用三角形来模拟,比如不相交正交三角形带(简称为“DOTS”)的方法。DOTS方法通过多个不相交的三角形来模拟毛发,每个三角形都拥有独立的顶点系统。虽然DOTS算法相较于纹理卡片有所提升,但仍然不如曲线相交计算的效果,且在三角形分段的边缘处,由于三角形不相交,可能会出现伪影或渲染错误,这需要额外的技术来弥补。
在Blackwell的第四代光线追踪单元中,通过引入一种名为LLS的新型计算模型,成功解决了相关问题。LLS模型的核心优势在于,它针对三角形不相交的情况,在节点处根据三角形的分布生成不同大小的球体来填补空隙。这一方法确保了最终渲染的三角形带既均匀又光滑,消除了渲染中的缝隙。因此,对于传统上难以处理的细长弯曲物体,光线追踪计算现在能够找到实时渲染的有效方案。此外,毛发在渲染过程中通常被视作两端为球体、中间为线段的圆柱球头结构。当线段长度缩减至零时,结构简化为单一球体,这使得粒子系统也能被整合进LLS的计算框架内。在这种情况下,粒子可被视为长度为零的毛发,从而简化了计算过程。在性能方面,LLS通过算法优化,相较于DOTS,其计算速度提升了约两倍,同时所需存储几何图形的VRAM空间也减少了80%以上。
着色器重新排序2.0:光线追踪计算效率更高
Shader Execution Reordering,简称SER,是NVIDIA在Ada架构中引入的一项技术,旨在解决光线追踪过程中由于大量无关任务导致的计算效率下降问题。该技术通过重新排序那些相似度和相关性较低的任务,显著提高了并行计算GPU中的执行效率。
▲全新的SER 2.0将光线追踪计算中相关诸多内容进行综合统一的排序,实现整体效率的提升。
在Blackwell上,NVIDIA带来了SER 2.0技术。相比SER,全新的SER 2.0不再着眼于光线追踪的局部内容,而是将光线追踪计算中相关的动画、材质、光照、几何以及神经网络等诸多内容进行综合统一的排序,实现整体效率的提升。NVIDIA的信息显示,SER 2.0的逻辑重排序效率相比前代产品翻倍,整体开销大幅度降低,精度也更高。另外,SER 2.0现在由一个小型API进行控制,方便开发人员使用SER 2.0功能,当然如果之前的应用程序支持SER话,不需要任何操作就可以直接应用到SER 2.0的优势,这极大地提高了SER 2.0应用的方便性,加快了新技术的推广。
DLSS 4:更强的模型、更多的帧
NVIDIA在人工智能驱动的超分辨率和帧生成技术领域确实领先于全球所有竞争对手。在第一代RTX GPU,即Turing架构上,初代的DLSS超分辨率技术初露锋芒。后来,采用Ada架构的RTX 40系列推出了划时代的DLSS 3/3.5技术,它整合了DLSS帧生成、DLSS RR、DLSS超分辨率、DLAA以及DLSS延迟降低等多项技术,直接引发了AI驱动视觉计算的革命性变革。自DLSS 3技术发布至今已三年,尚无竞争对手在这一领域对NVIDIA构成实质性竞争或追赶,这表明NVIDIA将在未来相当长的一段时间内继续巩固其技术优势,并将DLSS相关技术确立为行业标准。
在Blackwell架构上,NVIDIA带来了DLSS 4技术。DLSS 4技术在多个方面都进行了更新,其核心包括下列六个技术。
1.全新的DLSS多帧生成技术
2.增强的DLSS帧生成技术
3.增强的DLSS光线重建技术
4.增强的DLSS超分辨率技术
5.增强的DLAA技术。
6.全新的Reflex 2延迟降低技术
DLSS多帧生成技术:基于强悍的AI算力以及显示重排序
DLSS帧生成技术带来的卓越效果我们已经不用再多解释了,在Ada架构上,DLSS帧生成技术利用Tensor Core、光流处理器以及相应的AI模型,结合DLSS超分辨率缩放,使得大量需要高算力的新一代光线追踪游戏能够在现有的技术架构上实现流畅运行,功不可没。
▲DLSS 3的帧生成只能生成单帧,且需要光流处理加速器的帮助。
▲DLSS 4的多帧生成技术带来了更多的生成帧,光流加速场由AI计算完成。
▲DLSS 4在最极端条件下,利用AI生成了15/16的像素。
▲Blackwell架构直接接管原来由Windows执行的画面Flip Metering(刷新计量)功能,进一步平滑了帧时间,让帧率表现更加优秀。
▲DLSS 4在帧率和画质上都带来了极佳的表现。
▲借助DLSS 4,RTX 5090可以满足4K@240Hz游戏的要求。
▲目前已经有75款游戏在发布后就直接支持DLSS 4。
▲理论上,NVIDIA App可以凭借Override模式实现对DLSS 3游戏变身支持DLSS 4的全覆盖调节支持(需要RTX 50系GPU)。
▲除了多帧生成需要RTX 50系GPU支持之外,DLSS 4带来的多项强化技术系列功能不仅在Blackwell GPU上有用,也能惠及之前的RTX GPU产品。
DLSS多帧生成技术能够最多生成3帧图像,相较于以往的单帧生成方法,显著提升了游戏的帧率。通过结合显示重新排序等先进技术,DLSS多帧生成技术为玩家带来了更加流畅的游戏体验。值得注意的是,DLSS技术并非简单地在前后两帧之间进行“插帧”,而是基于前一帧的内容以及系统对玩家未来操作的预测,利用AI技术预先“生成”接下来可能出现的帧。传统插帧技术通常依赖于已计算出的帧进行补间处理,但DLSS技术,包括DLSS 4和DLSS 3,实际上是在“生成帧”,因为它们不依赖于后续帧,而是能够直接利用AI从第一帧开始进行预测和生成。这种生成帧的方法对系统的AI计算能力和画面预测精度提出了极高的要求。
首先,在AI算力和帧生成速率方面,DLSS 4帧生成采用了先进的新模型,相较于先前的模型,帧生成速度提升了40%,同时显存占用量减少了30%。此外,传统的光流处理器生成画面的方式已被AI生成画面的方式所取代,光流场的生成速度也得到了显著提升。这一进步离不开Blackwell第五代Tensor Core和第二代FP8 Transformer模型的强力支持。从实际应用的角度来看,原始帧与生成帧之间的整体画面变化微小。以1920x1080的原始渲染分辨率为基准,在大多数情况下,AI需要生成的像素数量通常不会超过画面的30%,整体计算量保持在较低水平,因此帧生成的难度相对较小。
其次,针对生成帧的显示排序以及其与渲染帧之间的同步问题,Blackwell架构引入了一种创新的解决方案。该方案的核心在于直接接管了原本由Windows负责的画面Flip Metering(刷新计量)功能。画面刷新计量是一个功能模块,负责将GPU输出的画面与显示器的显示画面进行同步匹配。例如,当GPU输出30帧/秒而显示器显示60帧/秒时,画面刷新计量功能会将GPU输出的画面重复显示两次,以确保与显示器的刷新率相匹配。在传统的系统中,这一功能通常由Windows进行管理。然而,在Blackwell架构中,NVIDIA通过引入新的画面刷新计量硬件,将这一功能的控制权转移到了Blackwell的显示引擎。通过这种方式,GPU得以结合DLSS多帧生成技术,对计算出的前后帧之间的生成帧显示速率进行精确排序,从而实现整体画面的流畅和稳定显示。
除了DLSS 4相关的硬件外,我们前文介绍的AMP单元,也在DLSS 4的多帧生成中起到了非常重要的作用。AMP单元参与了多帧生成之前的AI相关指令控制,也相应地在多帧生成中起到了针对时序、队列排序相关的功能。可以看出,整个DLSS 4的多帧生成技术是一个体系,并不是单独的一个技术内容,其他厂商想模仿还是很困难的。
Transformer模型全面启用:DLSS技术大更新
NVIDIA在RTX 20系列显卡上推出DLSS早期版本的时候,使用的是当时比较流行的CNN卷积神经网络技术,这个技术的特点在于通过局部聚合像素,以树状图的结构来从低层次到高层次对画面进行分析和统计,整体计算效率非常高。不过在2025年的现在,Transformer模型的流行,尤其是视觉相关Transformer模型的大发展,让NVIDIA也开始对DLSS的底层模型“动刀”。
▲NVIDIA的DLSS在发布后6年内,不断提升性能和表现。
▲DLSS技术之前基于CNN模型。
▲拥有自注意力机制的Transformer模型现在成为DLSS 4的技术基座。
▲ 更新模型后的DLSS拥有了更强悍的性能和更好的质量。
▲使用Transformer模型的DLSS光线重建技术在特殊场景上的表现更优秀。
▲使用Transformer模型的DLSS超分辨率技术画质更好。
从技术层面分析,尽管CNN在视觉计算领域仍然占据一席之地,但其模型在获取全局信息方面存在局限性,难以实现与Transformer模型相当的并行化处理。此外,由于缺乏自注意力机制,CNN的适应性有待提高,其输出结果也容易受到卷积核配置的影响。在多模态应用中,CNN通常需要与其他模型配合才能达到理想的性能。这些因素共同作用,使得CNN在整体人工智能计算领域的影响力逐渐减弱。与此同时,具备自注意力机制的Transformer模型经历了飞速的发展,在图形图像处理方面超越了CNN,并且其架构天然地更适合GPU并行计算。因此,在多年的稳步发展之后,NVIDIA宣布计划在2025年对DLSS的核心技术进行更新,以采用Transformer模型。
NVIDIA阐述,Transformer模型将应用于DLAA、DLSS超分辨率、DLSS光线重建等几乎所有DLSS技术家族成员。引入Transformer模型后,相关设计序列和结构化数据的计算任务表现得到显著提升。计算的分配和分析由数据本身驱动,使得系统能够更轻松地识别更多像素,并深入理解更长距离像素之间的关系,从而整体性能得到明显提升。
因此,DLSS相关技术在本次更新后,将全部加入新的、以Transformer模型为基础的新模型,新的模型拥有之前模型2倍的参数量,同时可以更充分地利用Tensor Core的处理能力,带来了更稳定的帧时间、细节更丰富的光照效果和细腻的动态效果,整体图像质量得到了显著提升。
NVIDIA给出了一些案例。比如在DLSS超分辨率中,新模型带来了更好、更清晰和正确的细节呈现。在DLSS光线重建中,DLSS RR现在拥有更为正确尤其是一些复杂、独特场景下细节的正确呈现能力(比如铁丝网和后面物体的关系等),同时还降低了噪点、伪影存在的概率。DLAA整体更为逼真、边缘更为平滑,抗锯齿的时间稳定性、动态细节和边缘表现都显著优于之前的模型。
值得一提的是,有关DLSS家族更换模型,并非RTX 50系列显卡独享。目前DLSS 4技术中,只有多帧生成技术由RTX 50系列独享,考虑到RTX 50系列更强的AI算力以及更好的Tensor Core支持等,这也是合理的。其余的DLSS帧生成、DLSS光线重建、DLSS超分辨率以及DLAA等,RTX 40以及之前的RTX 30、RTX 20等显卡,都能够享受到全新模型架构带来的优势,不过仅限于之前显卡拥有的技术,比如DLSS帧生成依旧只有RTX 40系列能够实现。这一点对老旧的RTX 30乃至RTX 20系列来说是个好消息,毕竟六七年前发布的显卡还能吃上最新的“细粮”,AI技术进步以及NVIDIA的技术研发能力功不可没。
Reflex 2:极致最低延迟,AI帮你补画面
DLSS整体技术带来的一个优势在于画面帧率更高、更流畅了。但是对FPS游戏而言,画面延迟也会由于DLSS技术的使用,尤其是DLSS帧生成技术的使用而提高。NVIDIA之前的解决方案是Reflex技术,也就是延迟降低技术,这个技术被用于大幅度降低FPS游戏的输入和显示延迟。在Blackwell发布后,NVIDIA公布了全新的Reflex 2技术,通过Frame Warp这个新技术的介入,带来了画面的极致最低延迟,其技术思路令人瞠目结舌。
▲传统的延迟产生主要由于存在CPU到GPU之间的指令的排序过程。
▲Reflex采用直接渲染,去掉了排序,大幅度降低了延迟。
▲Reflex 2采用了Frame Warp技术补完画面,使得鼠标点击到画面显示的延迟降低至最低。
▲NVIDIA展示了Frame Warp修补像素微小变化的过程。
NVIDIA解释到,延迟的存在是整个系统自己的问题。比如鼠标点击后,CPU接受信息,然后CPU将信息储存在自己的排序队列中,再提交给GPU,GPU计算完成后再交给显示器显示,这就带来了传统意义上的延迟。对一般的游戏玩家来说,几十甚至一百毫秒的延迟并不会影响太多,但是对顶尖游戏玩家而言,十几毫秒的延迟将在很大程度左右游戏的结局。
有没有什么办法进一步降低延迟呢?NVIDIA提出了Reflex 2技术,走了另一条道路。
Reflex 2的巧妙之处在于,鼠标的指令不再通过CPU和GPU,也不再进入排序队列,在玩家鼠标、键盘或者手柄按下并向CPU传递了下一帧新的位置的时候,Frame Warp会根据这个直接由玩家操作得到最新的位置,将原有GPU渲染的画面扭转到新的位置。Frame Warp的这个扭转将尽可能快的进行,尤其是和玩家操作保持同步。这种扭转会降低延迟,但是会带来画面显示错误,或者部分像素缺失。NVIDIA开发了一种优化了延迟的预测算法,这个算法会搭配Frame Warp针对画面的扭曲,结合前一帧画面、深度数据以及色彩数据等,将鼠标位移造成的画面错误修复出来,再直接交给显示器显示,这样一来,除了算法修复的时间外以及显示相关的时间,延迟在其他地方将不再存在。有关画面修复的预测算法,NVIDIA没有详细介绍,也没有更多资料,但我们猜测其可能和AI处理有关,毕竟DLSS多帧生成技术和Frame Warp扭曲画面后的缺失存在的情况是类似的。这里需要NVIDIA给出更多信息才能完美解答了。
NVIDIA的数据显示,在没有任何延迟降低技术的情况下,传统模式下案例中画面显示的延迟值大概是56ms,在使用了Reflex技术之后,延迟降低至28ms,大概降低了50%。但是在Reflex 2技术的加持下,整体画面延迟还可以再降低50%至14ms。考虑到目前的Reflex 2的技术原理,这部分延迟可以被看做“死延迟”,难以更进一步降低。
媒体功能大幅度增强:支持YUV 4:2:2以及更多的编解码单元
媒体功能支持也是GPU需要提供重要功能。Blackwell在多媒体功能上有2个核心的改进:一是支持YUV 4:2:2,另一个是采用了第九代NVENC和第六代NVDEC,增强了媒体性能。
▲Blackwell在显示方面的新增功能一览。
▲YUV 4:2:2在色彩、体积方面相对比较均衡,且目前已经成为高端摄像机、显示器支持的显示标准
▲Blackwell的第九代NVENC和第六代NVDEC画面质量上得到了加强。
▲RTX 5090的编解码性能也更出色了。
首先,Blackwell支持YUV 4:2:2硬件解码。YUV是一种色彩空间表示法,它包括亮度(Y)以及蓝色色度差(U)和红色色度差(V),这种格式能够完整地存储视频画面中的所有色彩信息。当YUV的三个分量比例为4:4:4时,表示色彩信息是无损的,能够提供最高的画面质量,但这也意味着对带宽的需求量大。而当YUV的分量比例调整为4:2:0时,U和V分量仅保留了原始色彩信息的25%,而亮度Y分量则保持不变。这种调整会使得每帧数据量减少一半,但同时也会导致色彩平滑度和细节信息的损失。
在YUV 4:4:4和YUV 4:2:0之间,还存在YUV 4:2:2。相比前者,YUV 4:2:2色彩信息保留了原始信息的一半,相比后者保留信息的数量翻倍,这就带来了更好的图像质量,尤其是HDR、文本、细节显示以及调色工作等。同时YUV 4:2:2的数据需求量是原始信息的2/3,也在很大程度上带来了带宽和存储容量的节约。
目前,诸如HDR10和蓝光等平台普遍采用YUV 4:2:0格式来分发视频内容。鉴于YUV 4:2:0的图像质量以及公众对色彩表现日益增长的需求,YUV 4:2:2格式因其在色彩丰富度和数据体积之间的良好平衡,已经成为高端摄像机和显示器所支持的显示标准之一。然而,传统的GPU并不支持YUV 4:2:2的硬件解码功能,而通过软件解码YUV 4:2:2则对CPU的性能提出了较高的要求。现在,Blackwell带来了第九代NVENC编码器以及第六代NVDEC解码器,带来了针对YUV 4:2:2格式的H.265和HEVC的硬件编码和解码功能,从而将CPU的计算压力完全卸载,带来更好的系统效能。
其次,Blackwell的第九代NVENC和第六代NVDEC在画面质量上实现了显著提升。在BD-BR PSNR的编码质量评估中,第九代NVENC相较于同类产品,在AV1和HEVC编码质量上实现了5%的提升,并引入了AV1超高画质模式(AV1+UHQ),该模式在编码质量评估中可将分数进一步提高最多15%。NVIDIA还指出,若采用以改善主观体验为核心的Netflix评价标准,即BD-BR VMAF评价体系,分数最高可增加18%。至于解码器方面,第六代NVDEC将H.264解码速度翻了一番,达到了与传统AV1和HEVC相当的速率,并支持MV-HEVC多视角解码,这种格式主要应用于3D视频眼镜所使用的空间视频格式。
就显卡而言,RTX 5090和RTX 5090 D目前配备了3个NVENC和2个NVDEC,资料显示更高端的完整GB202型号拥有4个NVENC和4个NVDEC。显然,NVIDIA在这些产品中根据市场定位和策略进行了差异化设计。另外,Blackwell显示模块现在支持DP 2.1 UHBR20标准,提供20Gbps的带宽,最高可支持16K(15360x8460)@ 60Hz的显示输出,这对于追求高分辨率的用户来说更加友好。
Blackwell架构三款芯片:GB202、GB203和GB205
目前NVIDIA发布了三款使用Blackwell架构的、面向视觉计算的GPU产品,型号是GB202、GB203和GB205,对应的GPU产品分别是RTX 5090、RTX 5080和RTX 5070 Ti、RTX 5070。我们将NVIDIA官方表格给出的信息列表如下。
▲Blackwell的四款显卡规格一览。
▲RTX 5090显卡外观和关键参数。
▲RTX 5090采用的全新的散热架构设计,更轻薄,更强悍。
▲RTX 5090的散热设计,热流更为通畅。
▲RTX 50系列价格一览。
▲RTX 5090性能对比,部分游戏为DLSS 4性能对比DLSS 3。
从芯片参数对比产品参数可以看出,目前的RTX 50系列四款GPU中:
RTX 5090不是GB202的完整体,进行了精简,只开启了GB202的11个GPC和170个SM单元,GB202原始状态拥有12个,因此RTX 5090只拥有21760个CUDA Core。
RTX 5080是GB203芯片的完整体,包含了11个GPC、42个TPC和84个SM单元,对应10752个CUDA Core。
RTX 5070 Ti依旧是GB203芯片,但是进行了精简,虽然依旧拥有11个GPC,但是只启用了35个TPC和70个SM单元,CUDA Core数量降低至8960个。
RTX 5070上,NVIDIA改用了更小一级的GB205芯片但是关闭了2个SM单元,其中包含5个GPC、24个TPC以及48个SM单元,CUDA Core更进一步缩减至6144个。
目前,RTX 50系列显卡的定价已经基本明确,RTX 5090由于无与伦比的规格,定位也独一档。RTX 5080以及RTX 5070系列都在万元以内甚至五千元左右。从产品定位来说,RTX 5090更类似于生产力产品或者面向企业级用户,RTX 5080以及以下的产品才是面向一般中高端玩家的。
AI深入图形计算,NVIDIA继续引领行业发展
Blackwell GPU的推出标志着一个重大事件,显而易见,NVIDIA正借助其在人工智能领域的优势,持续优化传统视觉计算的各个方面,并在此过程中重新设定视觉计算的相关标准,从而超越所有竞争对手。从RTX 20系列、RTX 30系列到RTX 40系列,直至RTX 50,也就是Blackwell,实现了质的飞跃。Blackwell开始专注于光栅化计算的核心——着色器的改进,并引入了一系列先进技术。虽然从目前公开的信息来看,这些技术距离最终的实装和测试可能还有一定差距,但不可否认,这种发展趋势预示着AI将在未来更深入地融入视觉计算领域,这将彻底改变以光栅化为基础的视觉计算传统,确实值得铭记。
在技术应用的其他领域,特别是随着DLSS 4和多帧生成技术的推出,NVIDIA在视觉计算和游戏呈现方面的优势得到了进一步的加强。从应用的角度来看,DLSS 4显著提升了帧率,为玩家带来了更加流畅的游戏体验,这使得游戏开发者能够更加自信和从容地采用更多的高级技术,而无需过分担心计算能力的限制。与此同时,RTX Mega Geometry技术的引入,大幅提高了光线追踪技术的计算效率,使得光线追踪技术能够更广泛且高效地应用于各种视觉计算场景,从而进一步提升了画面效果。
随着Blackwell的发布,NVIDIA不仅在硬件架构方面取得了显著的成就,而且在相应的软件架构上也展现了其卓越的创新力。这一点无疑巩固了NVIDIA在行业中的地位,使其不仅仅是一个简单的领先者,而是在重塑整个视觉计算和GPU行业的发展轨迹。NVIDIA的影响力和创新步伐已经远远超越了竞争对手,成为行业变革的领航者。考虑到NVIDIA在技术发展上的前瞻性,如果其下一代视觉计算GPU引入了AI驱动的着色器技术,我们也不会感到意外。事实上,行业的发展路径和未来的趋势已经清晰地展现在我们面前,NVIDIA的这一举措似乎正是顺应了这一潮流,预示着未来视觉计算领域将更加智能化和高效化。