次RTX 4090和RTX 4080的發布網上已經有不少信息,除了已經公布的規格參數和售價外,NVIDIA還召開了特別的媒體培訓會,詳細講了關于架構、Omniverse以及一些測試工具的使用方法。
首先按照慣例科普一下架構,我們先從Ada Lovelace這個人講起,相較于Ampere,這位似乎大家更陌生一些。
01 Ada Lovelace(1815-1852)
Ada Lovelace是英國數學家、計算機程序創始人,建立了循環和子程序概念,被稱為世界上第一位程序員。
Ada從小對數學有極高天賦,其父稱她為“平行四邊形公主”,后來的合作伙伴Charles Babbage稱她為“數字女巫”。在19歲時Ada嫁給了自己曾經的科學家庭教師,婚后的她對數學熱情不減。
1842年到1843年花了9個月時間翻譯了Babbage的《分析機概論》的備忘錄,寫了很多注記,其中給出了用計算機進行Bernoulli數求解的詳細說明。由此,Ada被廣泛認為是世界上第一個程序員。
而以她名字命名的語言——ada語言,已經成為了美國軍方開發戰斗機等尖端武器的語言。
從幾行簡短的生平簡介中,不難看出Ada的生命雖然只經歷了短暫的37個春秋,但卻足以被后人銘記。
這也是為什么此次NVIDIA RTX 40的先行宣傳中,用到了“以未來敬傳奇”的slogan,下面我們詳細剖析一下,這次的Ada Lovelace除了性能,還有哪些創新和超越。
02 Shader
NVIDIA Ada Lovelace架構采用了定制的TSMC 4N工藝,完整的核心擁有760億的晶體管,而NVIDIA Ampere架構為280億個。
與上一代NVIDIA Ampere相比,NVIDIA Ada Lovelace在相同功率下,具有2倍以上的性能提升。最高可達到90-TFLOPS的著色器數據吞吐量,而本次發布的GeForce RTX 4090則達到83-TFLOPs,相比上一代NVIDIA Ampere則只有40-TFOPs。
Shader Execution Reordering (SER)著色器執行重排序
SER主要的作用是提升著色器性能,它可以將效率低下的工作負載,動態重組為更高效的工作負載。主要針對光線追蹤的性能提升非常大。
簡單地說,GPU在執行類似工作的時候效率最高。但隨著光追效果越來越強大,每個場景可能有數百萬條光線照射在不同材質上,而我們知道不同材質的反射率,以及反射效果也是不同的。所以這樣就為著色器創建了大量的、發散的,效率低下的工作負載。
SER則可以將這些雜亂的指令重新分門別類,動態重組為更高效的工作負載。根據NVIDIA的說法,SER可將著色器性能最多提升2倍,并將游戲幀率最高提升25%。
不過好在SER并不是RTX 40系的專利,它是一個易于集成的SDK,目前需要游戲開發商集成在游戲中。不過由于它是一個通用的邏輯,后續也有可能直接集成在Windows的API中,這樣游戲開發者就無需特意引用,直接調用系統API即可。
可以說SER對于手持RTX 20系及以上(能夠開啟光線追蹤)的N卡用戶來說,是極大地福音。畢竟免費提升的光追性能,誰不喜歡呢。
03 第三代RT Cores
RT Core的作用在于更快的光線追蹤計算能力,如果說在RTX 30系顯卡中,想要暢享4K高幀率游戲有點吃力,那么RTX 40系顯卡中,將顯得輕而易舉。
在GeForce RTX 4090這張顯卡上,達到了191 RT-TFLOPs的處理能力,而RTX 30系顯卡最快處理能力為78 RT-TFLOPs,足足為2.4倍。并且根據NVIDIA的官方說法,第三代RT Core的峰值RT-TFLOPs相比于前代提高了2.8倍。而這只能說明,這張4090并非Ada Lovelace架構的最終形態。
Opacity Micro-Map Engines
另外在第三代RT Cores中引入了兩個重要的硬件單元,首先是Opacity Micro-Map Engines,可以譯為微映射透明度引擎,它主要的作用是優化光線追蹤渲染,可大幅減輕著色器的工作負擔。
比如樹葉之類的復雜物體,不同的光線都會影響它的表現狀態,以及樹葉之間的光線反彈,所以對于光線追蹤的計算量是巨大的。
不過Opacity Micro-Map Engines可以將光線追蹤特性烘焙到不透明蒙版中,所以那些不規則形狀和半透明的對象,也就能夠更快更精準的渲染出來,從而極大減輕著色器的工作負擔。
Displaced Micro-Mesh Engines(DMM)
Displaced Micro-Mesh Engines可譯為微網格置換引擎,它構建光線追蹤的BVH(Bounding volume hierarchy)的速度提高了10倍!所使用的的顯存減少了20倍!
DMM由第三代RT core本地處理,與前幾代相比,它只使用基本三角形渲染復雜幾何圖形,極大減少了存儲和處理需求。
具體的工作原理從圖中一目了然,新的DMM可以將面數非常多的復雜圖形做簡化,創造出簡單的模型,但整體的光線追蹤效果不變。
通過一些模型數據我們可以具體看到,新的DMM將模型簡化了多少。原本1100萬三角面的模型,經過簡化后,只有15萬左右的微網格,BVH的構建速度提升了8.5倍,小了6.5倍。
而這還不是最夸張的,越復雜的模型往往優化的效果越好,在官方展示的這幾組對比示例中,最快可提升大于15倍的速度,容量簡化20倍的模型。
04 第四代Tensor Cores
除了光追單元的升級外,第四代張量核心的升級更加恐怖。它采用了新的FP8張量引擎,在GeForce RTX 4090這張顯卡上,吞吐量達到了1.32 Tensor petaFLOPs,提高了5倍。
注意這里的單位——petaFLOPs。以往的TFLOPs為萬億次浮點運算,而petaFLOPs則為千萬億次浮點運算。
DLSS 3
本次推出的DLSS 3也是RTX 40系一大賣點,從DLSS 2.3直接邁入了3.0版本,也能看出此次的升級之大。而DLSS 3也被NVIDIA官方稱為神經網絡渲染新時代。
全新的DLSS 3在原有的DLSS超分辨率的基礎上,添加了光學多幀生成技術,以生成全新的幀,而不像原來只能生成像素。
DLSS 3結合了DLSS超分辨率、DLSS幀生成和NVIDIA Reflex這三大技術,能夠重建八分之七的像素,極大提高性能。
在GPU受限的游戲中,比如2K分辨率及以上的更高分辨率,DLSS 2能夠將幀率提高2倍,DLSS 3則能夠提升4倍。
New Optical Flow Accelerator
New Optical Flow Accelerator光流加速器是在第四代Tensor Cores中最新引入的,這也是為何DLSS 3中的幀生成為RTX 40系顯卡獨享。
光流加速器在原本DLSS 2的基礎上,還可以計算兩個連續幀內的光流場,能夠捕捉游戲畫面從第1幀到第2幀的方向和速度,從中捕捉粒子、反射和光照等像素信息。并分別計算運動矢量和光流來獲得精準的陰影重建效果。
以《賽博朋克2077》為例,在第一幀,光流加速器會捕捉到每一個像素中的粒子、反射和光照等信息。并在第二幀中查找匹配的像素區域,計算幀之間的差值。
如果說原來DLSS 2能夠“猜”出一張圖剩下的像素,那么DLSS 3除了這些,還能夠“猜”出下一幀的畫面。
另外由于DLSS 3的幀生成是在GPU中處理和運行的,所以即使遇到CPU瓶頸的游戲,AI同樣能夠提升幀率。這也是為什么在此次發布會中說到,DLSS 3能夠突破CPU的限制來提升幀數。
05 In total
總之,本文介紹的也只是Ada Lovelace架構中比較大的改變,第三代RTX架構還有很多升級,如雙AV1編碼器、RTX Remix以及Ada內核的變化等等,這些我們等到首測解禁會為大家一一奉上,詳情請關注10月11日晚9點的RTX 4090首測。
(8029758)
英偉達發布GeForce Game Ready 545.84 WHQL驅動程序,為支持DLSS 3技術的最新游戲提供了最佳的游戲體驗,包括《永劫無間(Naraka: Bladepoint)》和《戰錘:末世鼠疫2(Warhammer: Vermintide 2)》。該版驅動程序中還引入了穩定擴散的TensorRT加速,可將性能提高多達2倍;加入了對RTX Video Super Resolution v1.5的支持;支持CUDA 12.3。
DLSS 3由全新第四代Tensor Core和GeForce RTX 40系列GPU的全新光流加速器驅動,是英偉達深度學習超級采樣技術的最新版本,并擁有開創性的光學多幀生成功能,可生成全新幀,而不僅是像素,從而帶來驚人的性能提升。基于Ada Lovelace架構的新光流加速器可分析兩幀連續的游戲圖像,并計算幀到幀中物體和元素的運動矢量數據,而不使用傳統游戲引擎的運動矢量進行建模。此外,DLSS 3集成也包括了NVIDIA Reflex,可以使GPU和CPU同步,確保最佳響應速度和低系統延遲。
已修復的問題,包括:
在顯示流壓縮模式下,一些顯示器可能會顯示隨機黑屏閃爍。[4034096]
顯示器從睡眠狀態返回后,顯示的顏色不正確。[3420257]
已知的問題,包括:
[光環:無限] 在基于Maxwell架構的GPU上觀察到明顯的性能下降。[4052711]
在Windows操作系統中,每次用戶切換發生時,都會在系統托盤中創建一個新的NVIDIA圖標。[4251314]
安裝包內包括:
HD Audio Driver - 1.3.40.14
NVIDIA PhysX System Software - 9.21.0713
GeForce Experience - 3.27.0.112
CUDA - 12.3
DCH NVIDIA Control Panel - 8.1.964.0
NVIDIA GeForce Game Ready 545.84 WHQL驅動程序(Windows 10/11,桌面顯卡),地址:點此前往>>>
NVIDIA GeForce Game Ready 545.84 WHQL驅動程序(Windows 10/11,移動顯卡),地址:點此前往>>>