、前言
Selenium是一個開源自動化測試工具,可以跨瀏覽器和平臺對web應用程序執行功能、回歸和負載測試。盡管Selenium是最好的工具之一,但它確實有一些缺點,它經常面臨跨瀏覽器兼容性問題,導致測試失敗,對移動應用程序的支持也有限,最重要的是,Selenium沒有內置的報告選項等。
2、Rapise
Rapise是一個強大的自動化測試框架,用于web、移動和桌面應用程序以及API的無腳本測試,它還幫助用戶使用多種技術管理測試。
Rapise易于使用,并允許用戶在其電子表格編輯器中編輯記錄的測試。另一方面,它提供對MS Dynamics 365和Java Applets的支持。
功能特點:
優點:
官方網址:
https://www.inflectra.com/Products/Rapise/
3、Testim
Testim是領先的人工智能驅動測試自動化平臺,解決了測試中的兩個最大挑戰,即編寫速度慢和測試不穩定,它可以快速擴展測試覆蓋范圍,并使發布保持正常。
功能特點:
優點:
官方網址:
https://www.testim.io/
4、Subject7
Subject7是一個基于云的解決方案,可以無代碼地執行測試自動化,它將所有測試統一在一個平臺中,并使任何人都能夠成為自動化專家。
功能特點:
優點:
官方網址:
https://www.subject7.com/
5、OpenText UFT One
OpenText UFT One是最強大的商業Selenium替代品和測試自動化工具之一。最初由Mercury Interactive開發,后來被HPE、MicroFocus收購,現在是Open Text Corporation的股東。
它是對功能和回歸測試有用的最佳Selenium測試替代方案之一。UFT支持web和各種開發環境,如SAP、Oracle、Seibel等。
功能特點:
優點:
官方網址:
https://www.opentext.com/zh-cn/products/uft-one
6、Cypress
Cypress是一種用于web環境的開源測試自動化解決方案,與Selenium測試相比,該工具與當前的開發實踐密切相關。
它是Selenium的最佳替代品之一,此自動化測試工具自動重新加載測試中所做的每個更改。
功能特點:
優點:
官方網址:
https://www.cypress.io/
7、IBM DevOps Test UI
IBM DevOps Test UI自動化的功能和回歸測試工具可以幫助你實現精確的測試結果,它是最好的Selenium替代軟件之一,提供自動化的功能、回歸、GUI和數據驅動測試。
它支持一系列應用程序,如Java、Siebel、SAP、Net、PowerBuilder、Ajax等,此功能測試工具自動完成代碼,并提供高級調試選項。
功能特點:
優點:
官方網址:
https://www.ibm.com/cn-zh/products/devops-test/ui
8、Telerik Test Studio
Test Studio是由Progress開發的軟件自動化工具,它支持自動化應用程序,如AJAX、HTML5、JavaScript、Silverlight、WPF、MVC、iOS、Android和PHP。
它是最好的Selenium測試替代方案之一,具有本機跨瀏覽器支持,是一個記錄和回放工具。Telerik UI控件也有本機支持,你還可以測試HTML彈出窗口和瀏覽器對話框。
功能特點:
優點:
官方網址:
https://www.telerik.com/teststudio
9、Virtuoso
Virtuoso利用人工智能在沒有代碼的情況下自動化端到端測試,即使是在最動態的應用程序上,無論是與iFrames交互還是存儲動態數據,Virtuoso都支持它作為無代碼測試自動化框架工作。
使用自然語言編程(像編寫手動測試腳本一樣的簡單英語)、集成API測試和可視化回歸測試來構建功能測試,以獲得端到端測試覆蓋率。Virtuoso的智能對象識別使用人工智能從簡單提示中找到xPaths和選擇器,并且是自我維護的。
功能特點:
優點:
官方網址:
https://www.virtuoso.qa/
10、Playwright
微軟開源自動化測試工具 Playwright,支持主流瀏覽器,包括:Chrome、Firefox、Safari 等,同時支持以無頭模式、有頭模式運行,并提供了同步、異步的 API,可以結合 Pytest 測試框架使用,并且支持瀏覽器端的自動化腳本錄制等功能。
功能特點:
優點:
官方網址:
https://playwright.dev/
11、DrissionPage
DrissionPage是一款基于Python的高效網頁自動化工具。它不僅能夠操控瀏覽器,還能發送和接收數據包,并將這兩種功能完美融合。既保留了瀏覽器自動化的便捷性,又具備了requests庫的高效處理能力。
功能特點:
優點:
官方網址:
https://drissionpage.cn/
GPU是Graphics Processing Unit(圖形處理器)的簡稱,它是一種專門在個人電腦、工作站、游戲機和一些移動設備(如平板電腦、智能手機等)上運行繪圖運算工作的微處理器。圖形處理器是NVIDIA公司(NVIDIA)在1999年8月發表NVIDIA GeForce 256(GeForce 256)繪圖處理芯片時首先提出的概念,在此之前,電腦中處理影像輸出的顯示芯片,通常很少被視為是一個獨立的運算單元。而對手冶天科技(ATi)亦提出視覺處理器(Visual Processing Unit)概念。圖形處理器使顯卡減少對中央處理器(CPU)的依賴,并分擔部分原本是由中央處理器所擔當的工作,尤其是在進行三維繪圖運算時,功效更加明顯。圖形處理器所采用的核心技術有硬件坐標轉換與光源、立體環境材質貼圖和頂點混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等。
圖形處理器可單獨與專用電路板以及附屬組件組成顯卡,或單獨一片芯片直接內嵌入到主板上,或者內置于主板的北橋芯片中,現在也有內置于CPU上組成SoC的。個人電腦領域中,在2007年,90%以上的新型臺式機和筆記本電腦擁有嵌入式繪圖芯片,但是在性能上往往低于不少獨立顯卡。但2009年以后,AMD和英特爾都各自大力發展內置于中央處理器內的高性能集成式圖形處理核心,它們的性能在2012年時已經勝于那些低端獨立顯卡,這使得不少低端的獨立顯卡逐漸失去市場需求,兩大個人電腦圖形處理器研發巨頭中,AMD以AMD APU產品線取代旗下大部分的低端獨立顯示核心產品線。而在手持設備領域上,隨著一些如平板電腦等設備對圖形處理能力的需求越來越高,不少廠商像是高通(Qualcomm)、Imagination、ARM、NVIDIA等,也在這個領域“大顯身手”。
GPU不同于傳統的CPU,如Intel i5或i7處理器,其內核數量較少,專為通用計算而設計。相反,GPU是一種特殊類型的處理器,具有數百或數千個內核,經過優化,可并行運行大量計算。雖然GPU在游戲中以3D渲染而聞名,但它們對運行分析、深度學習和機器學習算法尤其有用。GPU允許某些計算比傳統CPU上運行相同的計算速度快10倍至100倍。
本期的智能內參,我們推薦方正證券的報告《GPU研究框架》,從GPU的底層技術、產業鏈發展情況和國產GPU的自主之路三方面全面解析GPU及其產業。
本期內參來源:方正證券
原標題:
《GPU研究框架》
作者:陳杭 等
GPU(graphics processing unit)圖形處理器,又稱顯示核心、視覺處理器、顯示芯片,是一種在個人電腦、工作站、游戲機和一些移動設備(如平板電腦、智能手機等)上做圖像和圖形相關運算工作的微處理器。GPU通常包括圖形顯存控制器、壓縮單元、BIOS、圖形和計算整列、總線接口、電源管理單元、視頻管理單元、顯示界面。GPU的出現使計算機減少了對CPU的依賴,并解放了部分原本CPU的工作。在3D圖形處理時,GPU采用的核心技術有硬件T&L(幾何轉換和光照處理)、立方環境材質貼圖和頂點混合、紋理壓縮和凹凸映射貼圖、雙重紋理四像素256位渲染引擎等,而硬件T&L技術可以說是GPU的標志。
GPU的內部組成部分
GPU核心及PCB板
GPU的微架構(Micro Architecture)是一種給定的指令集和圖形函數集合在處理器中執行的方法。圖形函數主要用于繪制各種圖形所需要的運算。當前和像素、光影處理、3D坐標變換等相關運算由GPU硬件加速來實現。相同的指令集和圖形函數集合可以在不同的微架構中執行,但實施的目的和效果可能不同。優秀的微架構對GPU性能和效能的提升發揮著至關重要的作用,GPU體系是GPU微架構和圖形API的集合。
以目前最新的英偉達安培微架構為例,GPU微架構的運算部份由流處理器(Stream Processor,SP)、紋理單元(Texture mapping unit, TMU)、張量單元(Tensor Core)、光線追蹤單元(RT Cores)、光柵化處理單元(ROPs)組成。這些運算單元中,張量單元,光線追蹤單元由NVIDIA在伏特/圖靈微架構引入。
除了上述運算單元外,GPU的微架構還包含L0/L1操作緩存、Warp調度器、分配單元(Dispatch Unit)、寄存器堆(register file)、特殊功能單元(Special function unit,SFU)、存取單元、顯卡互聯單元(NV Link)、PCIe總線接口、L2緩存、二代高位寬顯存(HBM2)等接口。
英偉達安培內核概覽
英偉達安培內核“SM”單元
GPU的流處理器單元是NVIDIA對其統一架構GPU內通用標量著色器的命名。SP單元是全新的全能渲染單元,是繼Pixel Pipelines(像素管線)和Vertex Pipelines(頂點管線)之后新一代的顯卡渲染技術指標。SP單元既可以完成VS(Vertex Shader,頂點著色器)運算,也可以完成PS(Pixel Shader,像素著色器)運算,而且可以根據需要組成任意VS/PS比例,從而給開發者更廣闊的發揮空間。
流處理器單元首次出現于DirectX 10時代的G80核心的Nvidia GeForce 8800GTX顯卡,是顯卡發展史上一次重大的革新。之后AMD/ATI的顯卡也引入了這一概念,但是流處理器在橫向和縱向都不可類比,大量的流處理器是GPU性能強勁的必要非充分條件。
紋理映射單元(TMU)作為GPU的部件,它能夠對二進制圖像旋轉、縮放、扭曲,然后將其作為紋理放置到給定3D模型的任意平面,這個過程稱為紋理映射。紋理映射單元不可簡單跨平臺橫向比較,大量的紋理映射單元是GPU性能強勁的必要非充分條件。
光柵化處理單元(ROPs)主要負責游戲中的光線和反射運算,兼顧AA、高分辨率、煙霧、火焰等效果。游戲里的抗鋸齒和光影效果越厲害,對ROPs的性能要求就越高,否則可能導致幀數的急劇下降。NVIDIA的ROPs單元是和流處理器進行捆綁的,二者同比例增減。在AMD GPU中,ROPs單元和流處理器單元沒有直接捆綁關系。
英偉達安培內核SP、ROPs、TMU拆解
英偉達RTX 3080 GPU-Z參數
消費GPU的實時光線追蹤在2018年由英偉達的“圖靈”GPU首次引入,光追單元(RT Cores)在此過程中發揮著決定性的作用。圖靈GPU的光追單元支持邊界體積層次加速,實時陰影、環境光、照明和反射,光追單元和光柵單元可以協同工作,進一步提高幀數和陰影的真實感。
光追單元在英偉達的RTX光線追蹤技術、微軟DXR API、英偉達Optix API和Vulkan光追API的支持下可以充分發揮性能。擁有68個光追單元的RTX2080Ti在光線處理性能上較無光追單元的GTX1080Ti強10倍。
張量單元(Tensor Core)在2017年由英偉達的“伏特”GPU中被首次引入。張量單元主要用于實時深度學習,服務于人工智能,大型矩陣運算和深度學習超級采樣(DLSS),可以帶來驚人的游戲和專業圖像顯示,同時提供基于云系統的快速人工智能。
英偉達RTX2080Ti張量單元算力
英偉達圖靈GPU光追單元運作流程
英偉達圖靈GPU張量單元提供多精度AI
GPU的API(Application Programming Interface)應用程序接口發揮著連接應用程序和顯卡驅動的橋梁作用。不過隨著系統優化的深入,API也可以直接統籌管理高級語言、顯卡驅動和底層匯編語言。
3D API能夠讓編程人員所設計的3D軟件只需調動其API內的程序,讓API自動和硬件的驅動程序溝通,啟動3D芯片內強大的3D圖形處理功能,從而大幅地提高3D程序的設計效率。同樣的,GPU廠家也可以根據API標準來設計GPU芯片,以達到在API調用硬件資源時的最優化,獲得更好的性能。3D API可以實現不同廠家的硬件、軟件最大范圍兼容。如果沒有API,那么開發人員必須對不同的硬件進行一對一的編碼,這樣會帶來大量的軟件適配問題和編碼成本。
目前GPU API可以分為2大陣營和若干其他類。2大陣營分別是微軟的DirectX標準和KhronosGroup標準,其他類包括蘋果的Metal API、AMD的Mantle(地幔)API、英特爾的One API等。
微軟DirectX和Khronos Group API組合對比
DirectX是Direct eXtension的簡稱,作為一種API,是由微軟公司創建的多媒體編程接口。DirectX可以讓以Windows為平臺的游戲或多媒體程序獲得更高的執行效率,加強3D圖形和聲音效果,并提供設計人員一個共同的硬件驅動標準,讓游戲開發者不必為每一品牌的硬件來寫不同的驅動程序,也降低用戶安裝及設置硬件的復雜度。DirectX已被廣泛使用于Windows操作系統和Xbox主機的電子游戲開發。
OpenGL是Open Graphics Library的簡稱,是用于渲染2D、3D矢量圖形的跨語言、跨平臺的應用程序編程接口(API),相比DirectX更加開放。這個接口由近350個不同的函數調用組成,用來繪制從簡單的二維圖形到復雜的三維景象。OpenGL常用于CAD、虛擬現實、科學可視化程序和電子游戲開發。
正是由于OpenGL的開放,所以它可以被運行在Windows、MacOS、Linux、安卓、iOS等多個操作系統上,學習門檻也比DirectX更低。但是,效率低是OpenGL的主要缺點。
DirectX和OpenGL特點對比
Metal是Apple在2014年創建的接近底層的,低開銷的硬件加速3D圖形和計算著色器API。Metal在iOS 8中首次亮相。Metal在一個API中結合了類似于OpenGL和OpenCL的功能。它旨在通過為iOS,iPadOS,macOS和tvOS上的應用程序提供對GPU硬件的底層訪問來提高性能。相較于OpenGL ES,Metal減少了10倍的代碼擁擠,提供了更好的解決方案,并將會在蘋果設備中取代OpenGL。Metal也支持英特爾HD和IRIS系列GPU、AMD的GCN和RDNA GPU、NVIDIA GPU。Metal也是可以使用Swift或Objective-C編程語言調用的面向對象的API。GPU的全部操作是通過Metal著色語言控制的。
2017年,蘋果推出了Metal的升級版Metal2,兼容前代Metal硬件,支持iOS11,MacOS和tvOS11。Metal2可以在Xcode中更有效地進行配置和調試,加快機器學習速度,降低CPU工作量,在MacOS上支持VR,充分發揮A11 GPU的特性。
Vulkan是一種低開銷,跨平臺的3D圖像和計算API。Vulkan面向跨所有平臺的高性能實時3D圖形應用程序,如視頻游戲和交互式媒體。與OpenGL,Direct3D 11和Metal相比,Vulkan旨在提供更高的性能和更平衡的CPU/GPU用法。除了較低的CPU使用外,Vulkan還旨在使開發人員更好地在多核CPU中分配工作。
Vulkan源自并基于AMD的Mantle API組件,最初的版本被稱為OpenGL的下一代。最新的Vulkan1.2發布于2020年1月15日,該版本整合了23個額外經常被使用的Vulkan拓展。
Metal與OpenGL性能對比
OpenGL和Vulkan對比
軟件生態方面,GPU無法單獨工作,必須由CPU進行控制調用才能工作,而CPU在處理大量類型一致的數據時,則可調用GPU進行并行計算。所以,GPU的生態和CPU的生態是高度相關的。
近年來,在摩爾定律演進的放緩和GPU在通用計算領域的高速發展的此消彼長之下,通用圖形處理器(GPGPU)逐漸“反客為主”,利用GPU來計算原本由CPU處理的通用計算任務。
目前,各個GPU廠商的GPGPU的實現方法不盡相同,如NVIDIA使用的CUDA(compute unified device architecture)技術、原ATI的ATI Stream技術、Open CL聯盟、微軟的DirectCompute技術。這些技術可以讓GPU在媒體編碼加速、視頻補幀與畫面優化、人工智能與深度學習、科研領域、超級計算機等方面發揮異構加速的優勢。以上4種技術中,只有OpenCL支持跨平臺和開放標注的特性,還可以使用專門的可編程電路來加速計算,業界支持非常廣泛。
DirectX和OpenGL生態對比
OpenCL聯盟生態
GPU根據接入方式可以劃分為獨立GPU和集成GPU。獨立GPU一般封裝在獨立的顯卡電路板上,擁有獨立顯存,而集成GPU常和CPU共用一個Die,共享系統內存。GPU根據接入方式可以劃分為獨立GPU和集成GPU。獨立GPU一般封裝在獨立的顯卡電路板上,擁有獨立顯存,而集成GPU常和CPU共用一個Die,共享系統內存。
GPU的主要分類
獨立GPU
集成GPU Die
GPU顯存是用來存儲顯卡芯片處理過或者即將提取的渲染數據,是GPU正常運作不可或缺的核心部件之一。GPU的顯存可以分為獨立顯存和集成顯存兩種。目前,獨立顯存主要采用GDDR3、GDDR5、GDDR5X、GDDR6,而集成顯存主要采用DDR3、DDR4。服務器GPU偏好使用Chiplet形式的HBM顯存,最大化吞吐量。
集成顯存受制于64位操作系統的限制,即便組成2通道甚至4通道,與獨立顯存的帶寬仍有相當差距。通常這也造成了獨立GPU的性能強于集成GPU。
顯存的主要分類
獨立顯存的工作方式
獨立顯存的工作方式
集成顯卡是指一般不帶顯存,而是使用系統的一部分主內存作為顯存的顯卡。集成顯卡可以被整合進主板作為北橋芯片的一部分,也可以和CPU集成在同一個Die中。集成顯卡的顯存一般根據系統軟件和應用軟件的需求自動調整。如果顯卡運行需要占用大量內存空間,那么整個系統運行會受限,此外系統內存的頻率通常比獨立顯卡的顯存低很多,因此集成顯卡的性能比獨立顯卡要遜色一些。
獨立顯卡是將顯示芯片及相關器件制作成一個獨立于電腦主板的板卡,成為專業的圖像處理硬件設備。獨立顯卡因為具備高位寬、高頻獨立顯存和更多的處理單元,性能遠比集成顯卡優越,不僅可用于一般性的工作,還具有完善的2D效果和很強的3D水平,因此常應用于高性能臺式機和筆記本電腦,主要的接口為PCIe。
如今,獨立顯卡與集成顯卡已經不是2個完全割裂,各自為營的圖像處理單元了。二者在微軟DX12的支持下也可以實現獨核顯交火,同時AMD和NVIDIA的顯卡也可實現混合交火。
集成顯卡和獨立顯卡對比
GPU對比CPU:從芯片設計思路看,CPU是以低延遲為導向的計算單元,通常由專為串行處理而優化的幾個核心組成,而GPU是以吞吐量為導向的計算單元,由數以千計的更小、更高效的核心組成,專為并行多任務設計。
CPU和GPU設計思路的不同導致微架構的不同。CPU的緩存大于GPU,但在線程數,寄存器數和SIMD(單指令多數據流)方面GPU遠強于CPU。
微架構的不同最終導致CPU中大部分的晶體管用于構建控制電路和緩存,只有少部分的晶體管完成實際的運算工作,功能模塊很多,擅長分支預測等復雜操作。GPU的流處理器和顯存控制器占據了絕大部分晶體管,而控制器相對簡單,擅長對大量數據進行簡單操作,擁有遠勝于CPU的強大浮點計算能力。
GPU和CPU的核心設計思路對比
GPU和CPU的核心對比
后摩爾時代,隨著GPU的可編程性不斷增強,GPU的應用能力已經遠遠超出了圖形渲染,部份GPU被用于圖形渲染以外領域的計算成為GPGPU。與此同時,CPU為了追求通用性,只有少部分晶體管被用于完成運算,而大部分晶體管被用于構建控制電路和高速緩存。但是由于GPU對CPU的依附性以及GPU相較CPU更高的開發難度,所以GPU不可能完全取代CPU。我們認為未來計算架構將是GPU+CPU的異構運算體系。
在GPU+CPU的異構運算中,GPU和CPU之間可以無縫地共享數據,而無需內存拷貝和緩存刷新,因為任務以極低的開銷被調度到合適的處理器上。CPU憑借多個專為串行處理而優化的核心運行程序的串行部份,而GPU使用數以千計的小核心運行程序的并行部分,充分發揮協同效應和比較優勢。
異構運算除了需要相關的CPU和GPU等硬件支持,還需要能將它們有效組織的軟件編程。OpenCL是(OpenComputing Language)的簡稱,它是第一個為異構系統的通用并行編程而產生的統一的、免費的標準。OpenCL支持由多核的CPU、GPU、Cell架構以及信號處理器(DSP)等其他并行設備組成的異構系統。
OpenCL異構運算構成
異構運算下的GPU工作流程
GPU與ASIC和FPGA的對比:數據、算力和算法是AI三大要素,CPU配合加速芯片的模式成為典型的AI部署方案,CPU提供算力,加速芯片提升算力并助推算法的產生。常見的AI加速芯片包括GPU、FPGA、ASIC三類。
GPU用于大量重復計算,由數以千計的更小、更高效的核心組成大規模并行計算架構,配備GPU的服務器可取代數百臺通用CPU服務器來處理HPC和AI業務。
FPGA是一種半定制芯片,靈活性強集成度高,但運算量小,量產成本高,適用于算法更新頻繁或市場規模小的專用領域。
ASIC專用性強,市場需求量大的專用領域,但開發周期較長且難度極高。
在AI訓練階段需要大量數據運算,GPU預計占64%左右市場份額,FPGA和ASIC分別為22%和14%。推理階段無需大量數據運算,GPU將占據42%左右市場,FPGA和ASIC分別為34%和24%。
不同應用場景AI芯片性能需求和具體指標
GPU、FPGA、ASIC AI芯片對比
在PC誕生之初,并不存在GPU的概念,所有的圖形和多媒體運算都由CPU負責。但是由于X86 CPU的暫存器數量有限,適合串行計算而不適合并行計算,雖然以英特爾為代表的廠商多次推出SSE等多媒體拓展指令集試圖彌補CPU的缺陷,但是僅僅在指令集方面的改進不能起到根本效果,所以誕生了圖形加速器作為CPU的輔助運算單元。
GPU的發展史概括說來就是NVIDIA、AMD(ATI)的發展史,在此過程中曾經的GPU巨頭Imagination、3dfx、東芝等紛紛被后輩超越。如今獨立顯卡領域主要由英偉達和AMD控制,而集成顯卡領域由英特爾和AMD控制。
GPU的發展史
英偉達的GPU架構自2008年以來幾乎一直保持著每2年一次大更新的節奏,帶來更多更新的運算單元和更好的API適配性。在每次的大換代之間,不乏有一次的小升級,如采用開普勒二代微架構的GK110核心相較于采用初代開普勒微架構的GK104核心,升級了顯卡智能動態超頻技術,CUDA運算能力提升至3.5代,極致流式多處理器(SMX)的浮點運算單元提升8倍,加入了Hyper-Q技術提高GPU的利用率并削減了閑置,更新了網格管理單元(Grid Management Unit),為動態并行技術提供了靈活性。
英偉達GPU微架構的持續更新,使英偉達GPU的能效提升了數十倍,占領了獨立顯卡技術的制高點。
2008-2020英偉達GPU微架構進化
圖形API在GPU的運算過程中發揮著連接高級語言、顯卡驅動乃至底層匯編語言的作用,充當GPU運行和開發的“橋梁”和“翻譯官”。微軟DirectX標準可以劃分為顯示部份、聲音部份、輸入部分和網絡部分,其中與GPU具有最直接關系的是顯示部分。顯示部份可分為DirectDraw和Direct3D等標準,前者主要負責2D圖像加速,后者主要負責3D效果顯示。
從1995年發布的初代DirectX 1.0開始微軟的DirectX已經更新到了DirectX 12。在此過程中,DirectX不斷完善對各類GPU的兼容,增加開發人員的權限,提高GPU的顯示質量和運行幀數。
DirectX一般和Windows操作系統同步更新,如Windows 7推出了DX11、Windows 10推出了DX12。
1998-2014微軟DirectX進化
GPU和CPU都是以先進制程為導向的數字芯片。先進制程可以在控制發熱和電能消耗的同時,在有限的Die中放入盡可能多的晶體管,提高GPU的性能和能效。
NVIDIA的GPU從2008年GT200系列的65納米制程歷經12年逐步升級到了RTX3000系列的7/8納米制程,在整個過程中,晶體管數量提升了20多倍,逐步確立了在獨立GPU的市場龍頭地位。
同時在整個過程中,NVIDIA一直堅持不采用IDM的模式,而是讓臺積電負責GPU的制造,自生專注于芯片設計,充分發揮比較優勢。
2008-2020英偉達GPU主要制程和晶體管數進化
根據前12年的GPU發展軌跡來看,GPU微架構的升級趨勢可以簡要地概括為”更多”、”更專”、”更智能”。“更多”是指晶體管數量和運算單元的增加,其中包括流處理器單元、紋理單元、光柵單元等數量上升。“更專”是指除了常規的計算單元,GPU還會增加新的運算單元。例如,英偉達的圖靈架構相較于帕斯卡架構新增加了光追單元和張量單元,分別處理實時光線追蹤和人工智能運算。“更智能”是指GPU的AI運算能力上升。如第三代的張量單元相較于上代在吞吐量上提升了1倍。
英偉達GTX1080對比RTX2080
英偉達伏特微架構對比安培微架構AI加速性能
英偉達安培架構提升
綜合分析微軟的DirectX12、蘋果的Metal2、Khronos Group的Vulkan API分別相較于前代DirectX11、Metal、OpenGL的升級,我們認為GPU API的升級趨勢是提高GPU的運行效率、增加高級語言和顯卡驅動之間的連接、優化視覺特效等。其中,提供更底層的支持:統籌高級語言、顯卡驅動和底層語言是幾乎所有API升級的主要方向。
不過提供更底層的支持只是更高的幀數或更好的畫質的必要非充分條件。在整個軟件的開發過程中,軟件開發商需要比驅動程序和系統層更好地調度硬件資源,才能充分發揮底層API的效果。
在顯示質量方面,DirectX 12 Ultimate采用當下最新的圖形硬件技術,支持光線追蹤、網格著色器和可變速率著色,PC和Xbox共用同一個API,堪稱次世代游戲的全新黃金標準。
非底層DirectX 11對比底層DirectX 12
DirectX 12 Ultimate新特性
GPU制造升級趨勢:以先進制程為導向。GPU性能的三大決定因素為主頻、微架構、API。這些因素中主頻通常是由GPU的制程決定的。制程在過去通常表示晶體管或柵極長度等特征尺寸,不過出于營銷的需要,現在的制程已經偏離了本意,因此單純比較納米數沒有意義。按英特爾的觀點,每平方毫米內的晶體管數(百萬)更能衡量制程。據此,臺積電和三星的7nm工藝更接近英特爾的10nm工藝。
先進的制程可以降低每一個晶體管的成本,提升晶體管密度,在GPU Die體積不變下實現更高的性能;先進制程可以提升處理器的效能,在性能不變的情況下,減少發熱或在發熱不變的情況下,通過提升主頻來拉高性能。
先進制程的主要目的是降低平面結構帶來的漏電率問題,提升方案可以通過改變工藝,如采用FinFET(鰭式場效應晶體管)或GAA(環繞式柵極);或采用特殊材料,如FD-SOI(基于SOI的超薄絕緣層上硅體技術)。
先進制程工藝之FinFET
英特爾10nm先進制程帶來的性能和效能提升
GPU制造升級趨勢:Chiplet化。高位寬內存(HBM)是小芯片(Chiplet)在GPU中的常見應用。HBM是一種高速計算機存儲器3D堆棧SDRAM接口。首款HBM于2013年推出,第二代HBM2已于2016年被JEDEC接受。目前,HBM主要應用在高端獨立顯卡和服務器顯卡。
HBM通過3D堆疊4個DRAM Die和1片邏輯Die組成一個Chiplet,其中每片DRAM具有2個128位通道,通過TSV(硅通孔)相連。所以,一片Chiplet總共8個128位通道,總位寬1024比特。每片Chiplet又與GPU封裝在同一中介層(Interposer)連接GPU芯片。相比之下,GDDR5內存的總線寬度為32位,帶有512位內存接口的顯卡也只有16個通道,而且采用傳統的FBGA封裝。HBM與GDDR5相比,每GB的表面積減少94%,每GB/S帶寬的能效提升2倍多。
HBM支持最多每個Chiplet 4GB的存儲,HBM2在HBM的基礎上將每片Chiplet的最大容量提升至了8GB,顯存主頻提升1倍,同時總位寬保持不變。
HBM的GPU應用
GDDR5對比HBM
HBM先進封裝結構
GPU制造可分為IDM和Fab+Fabless。IDM集芯片設計、芯片制造、芯片封裝和測試等多個產業鏈環節于一身。英特爾為IDM的代表。
Fabless只負責芯片的電路設計與銷售,將生產、測試、封裝等環節外包。蘋果和AMD為Fabless的代表。Foundry只負責制造,不負責芯片設計,可以同時為多家設計公司服務,但受制于公司間的競爭關系。臺積電為Foundry的代表。目前英特爾GPU落后的主要原因是GPU制程的落后,根本原因是英特爾受困于IDM運作模式。隨著28納米以下先進制程的發展,芯片的制造成本和設計成本成指數級上升。同時,一條12英寸晶圓的生產線從建設到生產的周期約2年,投資至少30-50億美元,資本支出占比80%,整體風險非常大。英特爾以有限的資源不支持它持續的設計和生產的的兩線作戰。
Fab+Fabless的模式通過充分發揮比較優勢,分散了GPU設計和制造的風險,符合半導體分工的大趨勢。
IDM與Fab+Fabless對比
芯片設計費用趨勢(億美元)
過去20多年里,GPU的基本需求源于視頻加速,2D/3D游戲。隨后GPU運用自身在并行處理和通用計算的優勢,逐步開拓服務器、汽車、礦機、人工智能、邊緣計算等領域的衍生需求。雖然GPU無法離開CPU獨立運作,但是在當前“云化”加速的時代,離開了GPU的CPU也無法勝任龐大的計算需求。所以GPU和CPU組成了異構運算體系,從底層經由系統軟件和驅動層支持著上層的各種應用。GPU已經成為了專用計算時代的剛需。
現代云計算中GPU加速的剛需
2020年全球GPU市場價值預計為254.1億美元,預計2027年將達到1853.1億美元,年平均增速為32.82%。按GPU的類型進行劃分,市場可以細分為獨立、集成和混合。2019年,集成GPU占GPU市場的主導地位,但是由于混合GPU同時擁有集成和專用GPU的能力,所以混合細分市場預計實現最高復合增長率。
按GPU的設備進行劃分,市場可細分為計算機、平板電腦、智能手機、游戲機、電視、其他。就收入而言,智能手機細分市場占比最大,在未來也將保持這一趨勢。但是,由于醫療等其他設備中對小型GPU的需求不斷增加,預計未來的年復合增長率將最高。
按GPU的行業進行劃分,市場可細分為電子、IT與電信、國防與情報、媒體與娛樂、汽車、其他。由于GPU在設計和工程應用中的廣泛使用,預計汽車細分行業的年復合增長率最高。
按GPU的地理區域劃分,市場可細分為北美、歐洲、亞太和其他地區。亞太地區在2019年主導了全球GPU市場,預計在整個預測期內將保持主導地位。
全球GPU市場規模預測
2015-2025全球前三GPU供應商營收總和
全球GPU已經進入了寡頭壟斷的格局。在傳統GPU市場中,排名前三的Nvidia、AMD、Intel的營收幾乎可以代表整個GPU行業收入。英偉達的收入占56%、AMD占26%、英特爾占18%。
在手機和平板GPU方面,聯發科、海思麒麟、三星Exynos的GPU設計主要基于公版ARM MaliGPU或PowerVR微架構。高通驍龍Adreno和蘋果A系列采用自研GPU微架構。2019Q2,ARM、高通、蘋果、Imagination科技、英特爾是全球智能手機和平板的前五大GPU供應商。同期ARM Mali在以上五大GPU供應商中占43%的市場份額,高通Adreno占36%的份額,蘋果占12%的份額。
2019前三家GPU供應商收入份額對比
2019 Q2手機和平板GPU供應商份額
英偉達公司成立于1993年,于1999年率先推出“GPU”的圖形解決方案。公司主要設計游戲和專業市場的GPU,移動計算和自動駕駛汽車的SoC,是GPU計算領域公認的全球領導者。它主要的GPU產線“GeForce”和AMD的“Radeon”形成直接競爭。同時,英偉達為了拓展移動游戲平臺,推出了掌機Shield、Shield平板、Shield電視盒子和云游戲服務GeForce Now。目前,公司已經完成了由芯片供應商向計算平臺的轉型。
英偉達的四大增長驅動力分別是游戲業務、數據中心業務、專業視覺業務、自動駕駛業務,各業務的代表性GPU方案分別是GeForce,DGX、EGX、HGX,Quadro、AGX。
英偉達2021財年營收167億美元,其中游戲、數據中心、專業視覺、自動駕駛業務在2020財年分別貢獻了營收的47%、40%、6%、3%。公司繼2014年毛利率突破50%后,于2021財年毛利率突破60%。
英偉達2021財年的業務構成
英偉達的主要增長驅動力
英偉達的游戲業務由GeForce和Shield組成。其中Shield面向移動端和云,GeForce面向PC。游戲筆記本和云游戲是公司拓展市場的2大方向。GeForce是英偉達游戲業務的核心。GeForce是全球最大的游戲平臺,擁有超過2億名玩家。在PC游戲領域,英偉達的營收是其他主要GPU供應商的三倍多。GeForce已經來到了RTX30系列,采用第二代NVIDIA RTX架構-NVIDIA安培架構,搭載全新的RT Core、Tensor Core及流式多處理器,擁有RTX游戲、DLSS、G-SYNC、DirectX12等先進技術,可帶來逼真的光線追蹤效果和先進的AI性能。
除了PC游戲市場,英偉達也向合作伙伴–任天堂Switch主機提供定制版Tegra SoC。作為合作的一部分,Shield主機可以暢享任天堂的游戲,GameStream串流游戲和熱門游戲,實現4KHDR畫質,支持百度DuerOS對話式人工智能。
英偉達的數據中心業務的技術根源是CUDA(統一計算設備架構)。CUDA首次推出于2006年的G80核心,隸屬于通用并行計算架構,創造了GPGPU。在“安培”時代,CUDA核心已經進化到了8.0,被運用在幾乎所有的英偉達產品線。
CUDA兼容DirectCompute、OpenCL等計算接口。與Direct3D、OpenGL等高級圖形API相比,CUDA可以使開發者更容易使用GPU資源。當前,CUDA在廣義上既代表GPU的硬件平臺又代表GPU的軟件平臺。
在硬件平臺方面,CUDA包含了CUDA指令集以及GPU內部的并行計算引擎。GPU平臺的矢量運算如INT、FP32、FP64都由CUDA承擔。開發人員可以使用C語言和Fortran語言為CUDA編寫程序。
在軟件平臺方面,基于CUDA的CUDA-X加速庫、工具和科技集合,向上對接不同的行業應用需求。在英偉達的軟件棧體系中,分為CUDA-X AI和CUDA-X HPC,分別面向AI和HPC兩大領域,可以在人工智能和高性能計算方面提供遠超其他競品的性能。CUDA-X的開發者已經超過100萬。
英偉達CUDA-X HPC
英偉達CUDA-X AI
英偉達數據中心的產品包括適用于AI的DGX系統,適用于邊緣計算的EGX平臺,適用于超算的HGX平臺、適用于數據處理的DPU、簡化深度學習,機器學習,高性能計算的NGC目錄。相關的GPU加速器有采用安培架構的A100、A40,采用圖靈架構的T4、RTX6000、RTX8000,采用伏特架構的V100。
過去5個財年中,英偉達數據中心的營收從8.3億美元上升至66.96億美元,年復合增速69%。同時,公司的注冊開發者超過200萬,與主要的云供應商如谷歌、騰訊、阿里建立了供應關系,世界500強超算中的份額從6%上升至70%。
英偉達主要云合作伙伴
英偉達數據中心營收趨勢
英偉達在超算500強中份額
英偉達專業視覺業務主要由Quadro產品線組成。Quadro在GeForce的基礎上加強了NVLink、GPU的通用計算性能和顯存容量,擁有Iray、Omniverse平臺、材質定義語言等特有技術。Quadro被廣泛應用在臺式工作站、筆記本電腦、EGX服務器、虛擬工作空間、云端、定制化方案中。英偉達Quadro方案有超過50種應用、4000萬設計用戶和2000萬企業用戶,并正在不斷解鎖新市場。
在過去的5個財年,英偉達專業視覺的營收從8.35億美元上升至10.53億美元,年復合增速6%。
英偉達專業視覺GPU加速合作伙伴
英偉達專業視覺營收趨勢
英偉達專業視覺方案
英偉達的汽車產品包括相關駕駛軟件、駕駛基礎設計、AGX平臺,提供訓練、模擬、智能駕駛艙體驗、高清地圖和定位等解決方案。在絕對性能方面,搭載4顆Drive AGX Origin的蔚來ADAM超算平臺支持L4以上自動駕駛,超過7個特斯拉FSD算力總和。
不同于特斯拉自動駕駛追求軟硬件的高度契合,英偉達的方案更追求開放性。公司在汽車領域的合作伙伴以軟件服務和轎車居多,分別達到了76家和42家。同時,公司與大眾、豐田、本田、奔馳、寶馬、奧迪、沃爾沃、馬牌、滴滴、采埃孚、蔚來、小鵬、圖森等世界知名公司建立了強力的生態。
在過去的5個財年,英偉達自動駕駛的營收從4.87億美元上升至5.36億美元,年復合增速3%。
英偉達自動駕駛營收趨勢
英偉達自動駕駛合作伙伴分布數
2020年9月13日,NVIDIA宣布以400億美元收購ARM。本次收購意義可以細分為以下5個方面:
1. 創造AI時代的世界級計算公司,將英偉達領先的AI計算平臺和ARM龐大的CPU生態相結合;
2. 通過英偉達在移動端和PC等大型終端市場的科技拓展ARM的IP授權組合;
3. 加速ARM的服務器CPU、數據中心、邊緣AI、IoT發展;
4. 將英偉達計算平臺的開發者由200萬提升至超過1500萬;
5. 并購可以立即增加英偉達的非GAAP毛利率和非GAAP每股收益;
合并后的英偉達將把計算從云、智能手機、PC、自動駕駛車和機器人技術推進到了邊緣物聯網,將AI計算拓展到全球,在拓展大規模、高增長市場的同時加速創新。
英偉達從云到邊緣
AMD是全球唯一可以同時提供高性能GPU和CPU的企業。AMD的顯卡來源于2006年并購的ATI科技。在這之后的4年中,AMD繼續使用ATI作為顯卡品牌。直到2010年,AMD才拋棄原ATI的品牌命名方式。
目前,AMD同時提供獨立GPU和集成GPU,其集成GPU主要運用在Ryzen APU、嵌入式、半定制平臺中,獨立GPU分為Radeon和Instinct系列,主要用于游戲、專業視覺、服務器等應用。
過去六年,AMD的計算和圖形收入的營收由18.05億美元上升至64.32億美元,年復合增速29%。
未來五年,AMD計劃成為高性能計算的領導者,提供顛覆性的CPU和GPU方案。
AMD計算和圖形部門營收
AMD GPU的聚焦領域
AMD的集成GPU主要被運用在臺式機和筆記本的APU產品中,和CPU組成異構運算單元。臺式和筆記本APU的GPU部份共用微架構和核心技術,二者GPU的主要差異在于TDP和處理單元的數量,臺式強于筆記本。
“Renior”APU的GPU繼續使用Vega微架構,但受益于7納米制程,每個處理單元效能顯著提升。
7納米Vega的提升包括:數據網絡翻倍、優化低功耗狀態轉換、25%主頻提升、77%存儲位寬提升。這些提升帶來了在保持15W功耗不變的前提下,每個計算單元59%的性能提升、1.79TFLOPS的32位浮點峰值吞吐。
在3DMark Time Spy(DX12)的跑分中,7納米的Ryzen 4800U的GPU表現超過10納米i7-1065G7,是14納米i7-10710U的2倍以上。
AMD “RENIOR”APU
AMD “RENIOR”APU內核解析
AMD “RENIOR”APU跑分對比
AMD的Radeon系列游戲獨立GPU按微架構推出時間依次遞減可以分為RX6000系列、RX5000系列、Radeon 7、 RX500系列。以上四大系列中,除RX500系列外均采用臺積電7納米制程。
2020年11月推出的RDNA2微架構相較于前代RDNA絕對性能最高提升一倍,能效提高54%,支持DirectX12 Ultimate,硬件光線追蹤和可變速率著色器等先進技術。搭載16GBGDDR6顯存和128MB InfinityCache高速緩存的RX 6900XT的游戲性能接近英偉達的RTX 3090。
為了發揮AMD CPU和GPU的協同效應,Radeon擁有AMD SmartAccess Memory技術,銳龍CPU和顯卡之間能實現更出色的通信。RX6800系列顯卡在部分游戲中4K畫質性能額外提升最高可達7%。
2022年前,AMD將基于更先進的制程打造RDNA3微架構,進一步強化光追等計算表現。
除了傳統的BGA顯存封裝,AMD還積極運用HBM系列顯存。在Radeon7中,16GB的HBM2顯存擁有1TB/S的帶寬,超過同期Titan RTX 50%。
AMD獨立游戲GPU路線圖
AMD獨立游戲GPU產品線
AMD的數據中心GPU業務由Radeon Instinct加速器系列、以客戶為核心的數據中心解決方案和ROCm組成。AMD的主要合作伙伴包括戴爾、惠普等OEM,同時AMD也向微軟AZURE和亞馬遜網絡服務提供視覺云解決方案。
ROCm是全球首個針對加速式計算且不限定編程語言的超大規模開源平臺,遵循UNIX的選擇哲學、極簡主義以及針對GPU計算的模塊化軟件開發。
ROCm適合大規模計算,支持多路GPU,有豐富的系統運行庫,包括框架、庫、編程模型、互聯和Linux Kernel上游支持,提供各種重要功能來支持大規模應用、編譯器和語言運行庫的開發。
AMD正與美國能源部、橡樹嶺國家實驗室和Cray公司合作,使用EPYC(霄龍)CPU、Radeon Instinct GPU和ROCm打造超過150億億次FLOPS的全球最快超算平臺。
AMD ROCm開源軟件生態
AMD數據中心GPU產品線
Radeon Instinct MI 100加速器采用專注計算的CDNA微架構,在計算和連接方面實現了巨大飛躍,與AMD上一代加速器相比,高性能計算工作負載(FP32矩陣)性能提升近3.5倍,而人工智能工作負載(FP16)性能提升近7倍。InstinctMI 100在FP32和FP64的峰值TFLOPS中超越了同期英偉達安培A100,同時功耗比后者低100瓦。
為了滿足多路GPU的互聯通訊需求,AMD研發了InfinityFabric技術。Infinity Fabric擁有先進的平臺連接性和可拓展性,最多支持4路GPU互聯。P2P帶寬是PCIe 4.0的2倍,四GPU集群的P2P帶寬最高可達552GB/s。
未來,AMD將基于更先進的制程打造CDNA2微架構,進入百億億級時代。
Instinct MI 100與安培A100對比
AMD數據中心GPU路線圖
AMD Infinity Fabric互聯
AMD的其他獨立GPU主要包括嵌入式、半定制化、Radeon Pro工作站顯卡。半定制化獨立顯卡主要倍運用在索尼、微軟的本世代和次世代主機中。如今,AMD的技術存在于2.2億個家庭暢享游戲和視頻娛樂時所用設備的核心。
嵌入式GPU的特點包括卓越的圖形性能、多屏顯示、外形緊湊、高能效、長期供貨。嵌入式GPU分為超高性能嵌入式GPU、高性能嵌入式GPU、高能效嵌入式GPU,它們主要使用14納米的GCN 1.4北極星微架構,TDP覆蓋20W-135W范圍。
Radeon Pro系列顯卡被廣泛應用于建筑工程、設計制造、媒體娛樂等領域,擁有AMD遠程工作站、AMD Eyefinity多屏顯示技術、AMD Radeon ProRender等技術。Radeon Pro系列采用Vega微架構,7或14納米制程,直接競爭對手是英偉達的Quadro系列。Radeon Pro移動和臺式工作站的合作伙伴包括蘋果、戴爾、惠普等。
Radeon? Pro VII GPU規格
英特爾是全球最大的PC GPU供應商,也是PC和服務器顯卡唯一的IDM廠商。英特爾的GPU最早可以追溯到1998年的i740,但是由于羸弱的性能和緩慢的更新速度,一直沒有非常大的起色。進入Core i時代后,英特爾通過將核芯顯卡和CPU進行捆綁銷售,利用CPU的龐大市場份額,確立了公司在集成GPU領域的寡頭壟斷地位,在此過程中AMD的APU一直是酷睿的直接競爭對手。
2020年,英特爾推出了第12代GPGPU,采用全新的Xe微架構和10納米Super Fin制程。相較于第11代核顯,Xe-LP在保持電壓不變的前提下,大幅提升主頻,能效顯著提高。搭載Xe-LP的i7 1185G7在GPU性能方面已經超過同期AMD的Vega核顯和英偉達的MX系列獨顯。
Xe系列可以細分為,集成/低功耗的Xe-LP、娛樂/游戲的Xe-HPG、數據中心/高性能的Xe-HP、高性能計算的Xe-HPC。
目前,Xe-LP的集成版本已經被第11代酷睿所采用。Xe-LP的移動獨立GPU版本DG1和服務器獨立GPU版本SG1也已發布。獨顯版在核顯版的基礎上進一步提升主頻,并加入了128位4GB LPDDR4X-4266獨立顯存,單精度浮點算力提升15%。
英特爾Xe縱向對比第11代核顯
英特爾Xe產品線
英特爾的集成GPU在形式上表現為核芯顯卡。核芯顯卡使用系統DRAM作為非獨立顯存,通過處理器內部的環狀總線與CPU連接,負責處理游戲、視頻娛樂等圖像負載。
英特爾Xe核顯借助10納米SuperFin的優勢,將處理單元最高提升至96個,相較于Icelake的64個提升了50%,并且將連接CPU和GPU的總線帶寬提升一倍,獨立最終緩存(LLC)提高50%,支持最高86GB/s的存儲帶寬。以上這些提升使i7-1185G7的3DMark跑分較前代i7-1065G7提升接近一倍,超過AMD的R74800U和同期英偉達的MX350。
Xe核顯的顯示引擎和媒體引擎也都得到加強。接口方面,內部支持雙eDP,外部支持DP1.4、HDMI2.0、雷電4、USB4 Type-C。畫質方面,支持8K、HDR10、12比特BT2020色域、360赫茲刷新率等。
英特爾Xe核心顯卡和CPU經由自家One API驅動中間層框架和上層應用。英特爾One API解決了編碼模型在不同微架構間的壁壘,最大化跨平臺表現和最小化開發成本。
英特爾Tiger Lake 實物圖和Die
英特爾Tiger Lake Xe核顯3DMark性能對比
英特爾獨立GPU分為銳炬Xe MAX和服務器GPU,均隸屬于Xe LP系列,微架構與核顯Xe相同,采用標準封裝和10納米SuperFin制程。
目前,銳炬Xe MAX是第一款基于英特爾 Xe 架構的面向輕薄型筆記本電腦的GPU。銳炬Xe MAX在Xe集成GPU的基礎上增加了4GBLPDDR4X-4266的獨立顯存,TDP 25W,峰值主頻1650MHz,單精度浮點性能2.46TFLOPs。銳炬Xe MAX可以和11代酷睿處理器、銳炬Xe GPU同時工作。借助英特爾Deep Link技術,獲得具有強大性能和經過功耗優化的集成系統,以改進創造力和游戲體驗。
目前,英特爾服務器GPU在Xe核顯的基礎上,TDP提升到23W,增加了8GB LPDDR4的獨立顯存,支持高密度、低延遲的安卓云游戲和高密度媒體轉碼/編碼,以實現實時的OTT視頻直播。同時,英特爾服務器GPU支持2顆、4顆獨立GPU的聚合,成倍提高性能。
未來,英特爾還將推出面向游戲和高性能桌面的Xe HPG產品線,增加了光線追蹤等硬件支持,采用傳統封裝,外包生產。英特爾服務器GPU將使用Xe HPC、Xe HP微架構,采用2.5D和3D先進封裝,10納米SuperFin及更先進自家或外包工藝。
英特爾Xe服務器GPU參數
英特爾Xe產品、封裝、制程
英特爾銳炬Xe MAX
ARM是全球最大的半導體IP提供商。全世界超過95%的智能手機和平板電腦都采用ARM架構。2019Q2,全球近43%的手機和平板GPU由Mali驅動。2020第四季度,ARM半導體合作伙伴基于ARM技術的芯片出貨量達到67億顆,再創歷史新高,超過其他所有流行的CPU指令集架構—X86、ARC、Power、MIPS的總和。
國產SoC中,有95%是基于ARM處理器技術,ARM中國授權客戶超過150家,基于ARM架構的國產芯片出貨量已經超過184億。
ARM的Mali GPU按性能可以分為3大類,分別是高性能、主流、高能效。
ARM IP組合和SoC設計
ARM Mali GPU路線圖
Arm Mali-G78 GPU是用于高端設備的第二代基于Valhall架構的GPU。Mali-G78是性能最高的ArmGPU,可支持復雜的應用,例如適用于Vulkan和OpenCL等所有最新API的游戲圖形和機器學習(ML)。
Mali-G78與上一代設備相比,GPU性能提高了25%,并增強了設備上的ML功能,從而有助于將高度復雜的游戲帶入移動設備。Mali-G78最多支持24個內核,并包含異步頂級功能,可確保性能有效地分布在各個內核上,從而使圖形運行更加流暢。全新執行引擎中的新型融合乘加(FMA)單元可進一步降低30%的單元能耗。
在GFXBench Aztec Ruin的跑分中,使用臺積電5納米工藝,搭載24個Mali-G78內核的麒麟9000 SoCGPU的幀數強于驍龍865的Adreno 650,但仍落后于蘋果A14。
ARM Mali-G78
麒麟9000系列的ARM Mali-G78應用
Imagination Technologies是一家總部在英國,專注于半導體和相關知識產權許可,銷售PowerVR移動圖形處理器,MIPS嵌入式微處理器和消費電子產品。公司還提供無線基帶處理,網絡,數字信號處理器,視頻和音頻硬件,IP語音軟件,云計算,以及芯片和系統設計服務。2017年,董事會宣布公司被中資的Canyon Bridge收購。
Imagination在GPU領域歷史悠久,在其超過25年的歷史中,Imagination先后推出過多代GPU產品,已積累超過1500項GPU專利,曾為蘋果供應圖像處理器(GPU),在圖像處理器(GPU)領域與高通、ARM三分天下,曾占GPU市場大約占據三分之一的份額,在汽車領域更是達到43%。帶有Imagination IP的芯片產品累計出貨量已超過110億。
Imagination的IP包括圖形處理器和視覺與人工智能2類。公司Power VR產品被廣泛應用于移動設備(智能手機、平板)、汽車(儀表、信息娛樂、輔助駕駛)、沉浸式體驗(AR/VR)、消費電子(電視、機頂盒)。
根據Imagination的GPU路線圖,在A系列GPU性能最高提升2.5倍之后,B系列到D系列GPU的年復合增速在30%左右。2021年的C系列GPU將首次加入L4級別的光線追蹤,從硬件層面支持一致性分類的層次包圍體(BVH)和復雜光線處理,相比目前英偉達和AMD的L3級別光線追蹤方案可顯著提升能效,實現更好的用戶體驗。
IMG系列GPU路線圖
2020年10月,Imagination推出了全新的IMG B系列GPU,這是公司第一個包含新多核架構的GPU IP系列,也是首次采用RISC-V,可提供最高的性能密度。得益于多核架構和Imagination圖像壓縮技(IMGIC),B系列相比A系列,功耗降低30%,帶寬降低35%、面積縮減25%,AI算力達到24 TOPS,且填充率比競品IP內核高2.5倍。與A系列相似,B系列GPU也支持AI協同技術,在提供圖形處理功能的同時,可用備用資源來處理可編程AI等任務。
IMG B系列GPU共有IMG BXE、IMG BXM、IMG BXT、IMG BXS四種系列。其中IMG BXE面向高清顯示應用,IMG BXM主打圖形處理體驗,IMG BXT面向高性能應用,IMG BXS面向未來汽車。
BXS系列符合ISO 26262標準,也是迄今為止所開發的最先進汽車GPU IP內核。BXS提供了一個完整的產品系列,從入門到高端,可為下一代人機界面(HMI)、UI顯示、信息娛樂系統、數字駕艙、環繞視圖提供解決方案。高計算能力的配置可支持自動駕駛和ADAS。
憑借核心可擴展的優勢,IMG B系列適用于傳統移動設備、消費類設備、物聯網、微控制器、數字電視(DTV)和汽車等市場領域。IMG B系列也可擴展至桌面GPU、云端GPU服務器,且支持自動駕駛和輔助駕駛等。
IMG B系列對比A系列能效提升
Imagination GPU組合
高通的自研GPU Adreno源于收購的AMD移動GPU Imageon系列。早期的Adreno 100系列只有2D圖形加速和有限的多媒體功能。2008年發布的Adreno 200是首款被集成到驍龍SoC中的GPU,并加入了3D硬件加速功能。
2020年12月,高通推出了搭載Adreno 660的驍龍888 SoC。Adreno 660繼承了Adreno650的微架構,采用了三星5納米LPE工藝,大幅提高主頻,使圖形渲染性能提高35%,能效提高20%。Adreno 660全面支持Qualcomm? Snapdragon Elite Gaming和Qualcomm? Game Quick Touch ,二者將可變速率渲染和響應速度分別提升30%和20%。
在GFXBench Aztec Ruin 1080P測試中,Adreno 660的峰值幀數追平麒麟9000,但相較蘋果A14仍有近20%的差距。
高通Adreno 660 1080P性能對比
高通Adreno 660 GPU
高通Adreno 660參數
蘋果的自研GPU首次出現于2017年的A11 SoC。A11的三核心GPU作為蘋果的首款自研GPU,其性能超過采用Power VR GT7600+的A10 GPU 30%。其后,所有的A系列SoC的GPU均為蘋果自研。
2020年,蘋果推出了5納米制程的M1芯片,該款SoC基于A14芯片,在CPU、GPU、NPU、緩存等各方面都進行了強化,用于驅動蘋果的Mac產品。M1芯片的發布標志著蘋果繼2005年放棄IBM的PowerPC指令集轉向Intel的X86指令集后的又一大PC領域轉換。
采用8核GPU的M1擁有128個執行單元,可以同步運行近25000個線程,單精度浮點算力達到2.6 TFLOPs。M1 GPU的能效表現是當時同類PC中集成GPU的三倍,峰值性能最高可達其他GPU的2倍。
蘋果M1 GPU參數
蘋果M1能效對比
蘋果M1 8核GPU
國產GPU的發展落后于國產CPU,直到2014年4月,景嘉微才成功研發出國內首款國產高性能、低功耗GPU芯片—JM5400。在國產GPU的開發中,GPU對CPU的依賴性和GPU的高研發難度,阻礙了該產業的快速發展。
首先,GPU對CPU有依賴性。GPU結構沒有控制器,必須由CPU進行控制調用才能工作,否則GPU無法單獨工作。所以國產CPU較國產GPU先行一步是符合芯片產業發展邏輯的。
再者,GPU技術難度很高。Moor Insights & Strategy首席分析師莫海德曾表示:“相比CPU,開發GPU要更加困難,而GPU設計師、工程師和驅動程序的作者都要更少。”國內人才缺口也是國產GPU發展緩慢的重要原因之一。在芯片行業,一般來說,培養一位擁有豐富經驗并且能夠根據市場動態及時修改芯片設計方案的成熟工程師,至少需要10年。
國產GPU公司及其業務簡介
中國GPU市場規模和潛力非常大,龐大的整機制造能力意味著巨量的GPU采購。雖然近些年,計算機整機和智能手機產量增長都出現瓶頸,但由于這兩類產品體量龐大,2019年國內智能手機出貨量為3.72億部,電子計算機整機年產量達到3.56億臺,GPU的需求量大且單品價值非常高,市場規模依然非常可觀。
同時,服務器GPU伴隨著整機出貨的快速成長,需求量增長也較為迅速。據統計,2018年國內服務器出貨量達到330.4萬臺,同比增長26%,其中互聯網、電信、金融和服務業等行業的出貨量增速也均超過20%。另外,國內在物聯網、車聯網、人工智能等新興計算領域,對GPU也存在海量的需求。
據統計,近年來中國集成電路自給率不斷提升,2018年為13%,預計2020年有望提升至15%,但仍然處于較低水平。根據國務院印發的《新時期促進集成電路產業和軟件產業高質量發展的若干政策》等文件,中國芯片自給率要在2025年達到70%,這將產生8000億元的國產芯片需求。中國芯片產業發展空間非常大。
2019年中國大陸集成電路進口額結構
2012-2020年中國大陸集成電路自給率
長沙景嘉微電子股份有限公司成立于2006年4月,位于長沙市高新技術開發區,公司擁有經驗豐富的集成電路設計團隊,是國產GPU的主要參與者,也是唯一自主開發并已經大規模商用的企業。
2014年4月,成功研發出國內首款國產高可靠、低功耗GPU芯片-JM5400,具有完全自主知識產權,打破了國外產品長期壟斷我國GPU市場的局面,在多個國家重點項目中得到了成功的應用;
2018年8月,公司自主研發的新一代高性能、高可靠GPU芯片-JM7200流片成功,將國產GPU的技術發展提高到新的水平,可為各類信息系統提供強大的顯示能力;
2019年,公司在JM7200基礎上,推出了商用版本-JM7201,滿足桌面系統高性能顯示需求,并全面支持國產CPU和國產操作系統,推動國產計算機的生態構建和進一步完善。
景嘉微發展歷程
景嘉微已完成兩個系列、三款GPU的量產應用,產品覆蓋軍用和民用兩大市場。景嘉微第一代GPU JM5400主要運用于軍用市場,替代原ATI M9、M54、M72等美系GPU芯片。景嘉微第二代GPU JM7200在產品性能和工藝設計上較JM5400有較大提升,是首例進入民用市場的圖形芯片。公司與國內主要CPU廠商和計算機整機廠商已建立合作關系。JM7201在JM7200的基礎上對民用市場的桌面應用進行了優化,推出標準MXM和標準PCIE顯卡,在保證性能的同時,降低了功耗,縮小了體積。
景嘉微國產GPU芯片產品線
景嘉微的第二代GPU JM7200系列于2018年8月流片成功,并在2019年3月獲得首個訂單。相較于前代JM5400,JM7200在理論性能上有翻倍的提升,同時制程也進化到了28納米。但是JM7200在顯存帶寬、像素填充率、浮點性能等方面較2012年發售,采用完整版GK107核心的英偉達GT640還有相當差距。
各景嘉微GPU參數對比
2018年12月,景嘉微定增募集10.88億元,用于高性能通用圖形處理器和面向消費電子領域的通用類芯片研發和產業化項目。其中,高性能通用圖形處理器項目包括JM9231和JM9271兩款GPU芯片,分別面向不同應用領域的中、高檔系列產品。據公司2020年中報顯示,下一代圖形處理器研發處于后端設計階段,研發進程一切順利。
景嘉微JM9系列是繼JM5400和JM7200局部渲染計算內核之后,首次采用統一渲染結構的GPU,并且增加了可編程計算模塊數量。JM9231和JM9271在性能表現分別與英偉達于2016年推出的GTX1050和GTX1080相近。JM9系列的推出將使公司GPU水平與海外龍頭水平縮短至5年,大幅提升公司在GPU領域的競爭力。
景嘉微后續高性能通用GPU性能參數對比
芯原微電子是依托自主半導體IP,為客戶提供平臺化、全方位、一站式芯片定制服務和半導體IP授權服務的企業。公司至今擁有高清視頻、高清音頻及語音、車載娛樂系統處理器、視頻監控、物聯網連接、數據中心等多種一站式芯片定制解決方案,以及5類自主可控的處理器IP,分別為圖形處理器IP、神經網絡處理器IP、視頻處理器IP、數字信號處理器IP和圖像信號處理器IP,以及1,400多個數模混合IP和射頻IP,年均流片項目超過40個。主營業務的應用領域廣泛包括消費電子、汽車電子、計算機及周邊、工業、數據處理、物聯網等,主要客戶包括IDM、芯片設計公司,以及系統廠商、大型物聯網公司等。
芯原在傳統CMOS、先進FinFET和FD-SOI等全球主流半導體工藝節點上都具有優秀的設計能力,先進工藝制程覆蓋14nm/10nm/7nm FinFET和28nm/22nm FD-SOI,并已開始進行5nm FinFET 芯片的設計研發和新一代 FD-SOI 工藝節點芯片的設計預研。
此外,根據Ipnest統計,芯原是2019年中國大陸排名第一、全球排名第七的半導體IP授權服務供應商,全球市場占有率約為1.8%。
芯原股份發展歷程
2019全球IP企業市占率排名
芯原GPU IP源于公司在2016年收購的美國嵌入式GPU設計商圖芯技術(Vivante)。芯原在GPU IP領域已經掌握了支持主流圖形加速標準、自主可控指令集和可拓展性強,性能范圍廣泛等核心技術,可廣泛應用于IOT、汽車電子、PC等市場。根據 IPnest 報告,芯原GPU IP(含 ISP)市場占有率排名全球前三,僅次于ARM和Imagination,2019 年全球市場占有率約為 11.8%。
目前,芯原在圖形處理器技術的研發課題包括通用圖形處理器運算內核的持續優化和矢量圖形處理器DDR-Less技術。矢量GPU DDR-Less技術可以在不使用外部存儲器DDR的基礎上,實現架構清晰、分工明確、易于使用、軟件控制流程簡單等優點,適用于物聯網、可穿戴設備和車載設備。
2019全球IP設計分類
芯原GPU IP的核心技術和典型應用示例
芯原可拓展Vivante GPU IP應用涵蓋從低功耗的小型物聯網MCU(GPU Nano IP系列)到面向汽車和計算機應用的強大SoC(GPUArcturus圖形IP),可滿足各種芯片尺寸和功耗預算,是具有成本效益的優質圖形處理器解決方案。
芯原的的圖形處理器技術支持業界主流的嵌入式圖形加速標準Vulkan1.0、OpenGL3.2、OpenCL1.2 EP/FP和OpenVX1.2等,具有自主可控的指令集及專用編譯器,支持每秒2500億次的浮點運算能力及128個并行著色器處理單元。
芯原GPU Nano IP產品線及其可應用場景
芯原GPU IP API和操作系統兼容性
芯原股份現有的半導體IP分為處理器IP、數模混合IP及射頻IP,其中GPU IP隸屬于處理器IP。整體來看,2017-2019芯原得益于不斷豐富的IP儲備及一站式芯片定制業務的協同效應,公司半導體IP授權業務收入持續上升,GPU IP的年復合增速達13%。2019年GPU IP的營收占公司半導體IP營收的31.29%,主要由于其他類型IP收入上升,GPU IP比重相對下降。
芯原在圖形處理器技術方面的研發包括高性能的通用圖形處理器GC8400 IP,該IP適用于汽車電子,目前仍處IP設計驗證階段,擬達到每秒1萬億次的浮點運算能力雙倍精密度,512個并行著色器處理單元 。
航錦科技是一家大型化工生產基地,公司的前身是錦西化工總廠。2017下半年,航錦科技通過收購長沙韶關和威科電子兩家軍工企業,挺進電子產業,形成化工+電子雙主業發展模式,構建起三個支撐板塊(化工、電子、金融)。
航錦科技電子板塊以芯片為核心產品,圍繞高端芯片與通信兩大領域,覆蓋高端芯片(圖形處理芯片/特種FPGA/存儲芯片/總線接口芯片)、北斗3芯片以及通信射頻三大主要產業。堅持軍民兩用為發展方向,產品廣泛應用于航空、航天、兵器、船舶、電子等領域,擁有廣闊的市場空間。
航錦科技的GPU技術源于并購的長沙韶光。2018年,長沙韶光自主研發和合作研發的第一代及第二代圖形處理芯片(GPU)獲得集成電路布圖設計登記證書;2019年,長沙韶光自主研發的第二代改進型圖形處理芯片在自主可控設備領域的應用得到驗證,并收獲相關訂單。
航錦科技自主可控芯片板塊示意圖
上海兆芯集成電路有限公司,簡稱“兆芯”,由上海聯合投資有限公司(上海市國資委完全出資)和中國臺灣威盛電子共同成立,也是世界上第三家擁有X86授權的微處理器公司,總部位于上海張江,在北京、西安、武漢、深圳等地設有研發中心和分支機構。
公司同時掌握CPU、GPU、芯片組三大核心技術,且具備三大核心芯片及相關IP設計與研發的能力,致力于通過技術創新與兼容主流的發展路線,推動信息產業的整體發展,并獲評了“高新技術企業資質”。兆芯提供了桌面整機,服務器,工業主板,工業平臺,系統級解決方案,在黨政辦公,交通,金融,能源,教育,網絡安全方面有著廣泛的應用。
2019Q2,兆芯發布了全新的用于PC的處理器KX-6000系列。KX-6000是業內第一款完整集成CPU、GPU、芯片組的SoC單芯片國產通用處理器。
KX-6000系列處理器采用16納米制程,集成高性能顯卡,支持DP/HDMI/VGA輸出,兼容DirectX、OpenGL、OpenCL等主流API,最高可同時輸出3臺顯示器,分辨率可達4K。
全新的KX-6000系列處理器擁有出色的兼容性和應用體驗,包括Windows操作系統,日常辦公應用,4K視頻解碼和主流游戲。
兆芯KX-6000系列兼容性和應用體驗
兆芯KX-6000處理器芯片架構
兆芯KX-6000處理器集成顯卡參數
兆芯KX-6000的C-960 GPU在使用惠普兆芯圖形DCH驅動的情況下,Dota 2游戲性能表現遠落后英特爾酷睿i5-7400的UHD 630。未來,兆芯還會對KX系列處理器進行進一步的更新,使用全新的CPU架構,將內存從DDR4升級為DDR5,將總線從PCIe3.0升級至PCIe4.0。內存和總線的升級分別可以提高顯卡的帶寬和CPU與GPU間的通訊速度。
除了以上集成GPU外,兆芯還計劃發布一款采用臺積電28納米工藝,TDP 70瓦的獨立GPU。
兆芯KX6000 GPU游戲性能對比
兆芯處理器發展路線圖
凌久電子創立于1983年,是中國船舶重工集團公司第七〇九研究所控股的高新技術企業。
凌久電子以嵌入式實時信號處理與高性能計算技術為基礎,面向船舶、航空、航天、兵器等國防電子領域及軌道交通、海工裝備、能源電力、半導體制造等民用高科技領域提供芯片級、模塊級、設備級、系統級等軟硬件產品;面向科研院所、部隊及軍校提供作定制化軍事仿真服務。
凌久電子產品包括元器件類產品、基礎硬件設備、基礎支撐軟件、應用類產品四大類。其中國產通用GPU GP101隸屬于元器件類產品。
凌久電子平臺產品
凌久電子元器件類產品分類
凌久電子股權結構
GP101是由中國船舶重工集團第709研究所控股的凌久電子研制,具備完全自主知識產權的圖形處理器芯片。GP101支持2D/3D圖形加速,支持二維矢量圖形加速,支持4K分辨率、視頻解碼和硬件圖層處理等功能GP101支持VxWorks、Linux、Windows等通用操作系統,支持中標麒麟、道等國產操作系統,支持龍芯、飛騰、申威等國產處理器。
GP101實現了我國通用3D顯卡零的突破,在信息安全和供貨能力方便有充分的保障,可以廣泛應用于軍民多個領域。
七一六所自主研發的JARI G12是2018年性能最強的國產通用圖形處理器。該處理器采用混合渲染架構,兼顧數據帶寬和渲染延時需求,極大地增強了芯片的靈活性和適應性;
提供PCIe 3.0總線,支持x86處理器和龍芯、飛騰、申威等國產處理器;支持4路數字通道和1路VGA輸出,提供DP、eDP、HDMI、DVI等通用顯示介面,單路數字通道最大輸出分辨率為3840×2160@60fps,支持擴展、復制顯示和“擴展+復制”顯示模式;
內建視頻編解碼硬核,支持2路3840×2160分辨率視頻的編碼、解碼功能;
支持OpenGL 4.5和OpenGL ES 3.0,滿足高性能3D加速和VR顯示需求;
支持OpenCL 2.0,滿足并行計算和云計算的使用需求;
集成張量加速計算硬核,支持AI計算加速。該GPU支持Windows、Linux、VxWorks等主流操作系統,同時支持中標麒麟、JARI-Works、道等國內自主可控操作系統,具備健全的生態環境體系。
JARI G12架構示意圖
芯動科技是中國一站式IP和芯片定制領軍企業,提供全球6大工藝廠(臺積電/三星/格芯/中芯國際/聯華電子/英特爾)從130nm到5納米全套高速混合電路IP核和ASIC定制解決方案,聚焦先進制程。
芯動科技15年來立足本土發展,所有IP和產品全自主可控,連續十年中國市場份額領先。公司客戶群涵蓋華為海思、中興通訊、瑞芯微、全志、君正、AMD、Microsoft、Amazon、Microchip、Cypress等全球知名企業。
在高性能計算/多媒體&汽車電子/IoT物聯網等領域,芯動解決方案具有國際先進水平,涵蓋DDR5/4、LPDDR5/4、GDDR6/GDDR6X、HBM2e/3、Chiplet、HDMI2.1、32G/56G SerDes(含 PCIe5/4/USB3.2/SATA/RapidIO/GMII等)、ADC/DAC、智能圖像處理器GPU和多媒體處理內核等多種技術。芯動科技的芯片定制,跨工藝跨封裝,涉及從需求到產品, 能端到端為客戶加速從規格、設計到流片量產,及封裝成型全流程。
芯動科技一站式IP系列
芯動科技高性能計算平臺IP
2020年10月13日,芯動科技與Imagination達成合作。采用最前沿的多晶粒芯片(chiplet)和GDDR6高速顯存等SOC創新,芯動科技將全球首發Imagination全新頂配BXT多核架構。
在信創和算力安全方面,“風華”系列GPU內置國產物理不可克隆iUnique Security PUF信息安全加密技術,提升數據安全和算力抗攻擊性,支持桌面電腦和數據中心GPU計算自主可控生態。
“風華”系列GPU自帶浮點和智能3D圖形處理功能,全定制多級流水計算內核,兼具高性能渲染和智能AI算力,還可級聯組合多顆芯片合并處理能力,靈活性強,適配國產桌面市場1080P/4K/8K高品質顯示,支持VR/AR/AI,多路服務器云桌面、5G數據中心、云教育、云游戲、云辦公等中國新基建5G風口下的大數據圖形應用場景。
GPU Turbo是一種軟硬協同的圖形加速技術,可以減少無用渲染次數,優化或合并渲染區域。通過算法,將相關運算放在一個或相鄰的寄存器中,以此來優化圖形處理效率。
GPU Turbo技術打通了EMUI操作系統以及GPU和CPU之間的處理瓶頸,在系統底層對傳統的圖形處理框架進行了重構,實現了軟硬件協同,使得GPU圖形處理整體效率得到大幅提升。
2018年6月發布了GPU Turbo 1.0,圖形處理效率提高60%,同時做到更省電,保證高畫質。
2018年9月發布了GPU Turbo 2.0,游戲場景下功耗下降可達13.6%,新增支持多款主流游戲,同時針對支持的游戲中關鍵&極限場景(如團戰、載具等)進行了重點打磨與優化。
2019年4月GPU Turbo全新升級,不僅帶來主流游戲接近滿幀運行的酣暢體驗,功耗的持續降低也帶來了續航時間的提升。累計支持60款國內游戲。
GPU Turbo 2.0能效對比
中科院計算所于2001年成立龍芯課題組,開始研制龍芯系列處理器,得到了中科院、863、973、核高基等項目大力支持,完成了十年的核心技術積累。2010年4月,中國科學院和北京市共同牽頭出資入股,成立龍芯中科技術有限公司,龍芯正式從研發走向產業化。
目前,龍芯自主研發的GPU集成在7A1000橋片中。龍芯7A1000橋片是面向龍芯3號處理器的芯片組,通過HT3.0接口與處理器相連,集成GPU、顯示控制器和獨立顯存接口,外圍接口包括32路PCIE2.0、2路GMAC、3路SATA2.0、6路USB2.0和其它低速接口,可以滿足桌面和服務器領域對IO接口的應用需求,并通過外接獨立顯卡的方式支持高性能圖形應用需求。
雖然龍芯7A1000橋片的GPU性能一般,但是橋片作為CPU產業鏈的一環,龍芯已經實現CPU、橋片和GPU上完全自主化,打通了CPU產業鏈上每一個環節。
2020年,龍芯成立六支研發突擊隊,分別為3A5000突擊隊、3C5000突擊隊、7A2000突擊隊、2K2000突擊隊、GPU突擊隊、PCIE突擊隊。這六支突擊隊的目的就是要把2-3年的工作,在一年內干完!
龍芯7A1000
龍芯7A1000 GPU相關參數
芯瞳半導體成立于2019年,主要業務包括GPU芯片設計、異構計算平臺方案、嵌入式顯示系統解決方案、GPU應用部署解決方案。公司著力于研發高性能的GPU芯片,為用戶提供以自研GPU芯片為核心的解決方案,致力于打造業界領先的GPU芯片設計平臺,目標是成為國際一流的GPU芯片設計企業。公司創始團隊在GPU領域有著超過10年的學術和工程經驗,是一支軟硬件全棧式支持的研發團隊。
公司的GPU架構采用了業界主流的統一渲染架構,并具有高度可擴展的互聯結構和計算陣列,便于芯片后續迭代升級。經過多年的積累,團隊構建了芯片建模虛擬平臺,通過該虛擬平臺,團隊可以快速地完成GPU相關軟件的研發和軟件生態的部署,與此同時,在該虛擬平臺上快速地對芯片架構進行驗證,從而縮短GPU芯片的設計驗證周期,提升GPU芯片的設計效能。
公司第一代GPU芯片(GenBu01)初測已成功,已與統信、麒麟及昆侖完成適配,目前正在為小批量量產做最終測試。 GenBu01主要面向的客戶為需要定制嵌入式計算機產品的客戶以及為國產替代領域提供信創辦公PC的ODM/OEM廠商。
芯瞳GenBu01參數
天數智芯于2018年正式啟動GPGPU芯片設計,是中國第一家GPGPU高端芯片及超級算力提供商。天數智芯重點打造自主可控、國際一流的通用、標準、高性能云端計算芯片GPGPU,從芯片端解決計算力問題;并推出面向5G技術需求的邊緣云端推理GPGPU,提供對當前進口主流GPGPU體系的無縫兼容和市場化選擇。2021年1月15日,天數智芯成功點亮自研7納米制程GPGPU云端訓練芯片,性能達市場主流產品的兩倍。該芯片量產后將廣泛應用于AI訓練、高性能計算(HPC)等場景,服務于教育、互聯網、金融、自動駕駛、醫療、安防等各相關行業,賦能AI智能社會。
天數智芯7納米GPGPU高端自研云端訓練芯片的產品優勢包括:全方位生態兼容、高性能有效算力、指令集編程架構、軟硬件全棧支持、全自主知識產權。
天數智芯GPGPU BI芯片參數
壁仞科技創立于2019年,團隊由國內外芯片和云計算領域核心專業人員、研發人員組成,在GPU、DSA(專用加速器)和計算機體系結構等領域具有深厚的技術積累和獨到的行業洞見。
壁仞科技致力于開發原創性的通用計算體系,建立高效的軟硬件平臺,同時在智能計算領域提供一體化的解決方案。從發展路徑上,壁仞科技將首先聚焦云端通用智能計算,逐步在人工智能訓練和推理、圖形渲染、高性能通用計算等多個領域趕超現有解決方案,實現國產高端通用智能計算芯片的突破。
沐曦集成電路專注于設計具有完全自主知識產權,針對異構計算等各類應用的高性能通用GPU芯片。公司致力于打造國內最強商用GPU芯片,產品主要應用方向包含傳統GPU及移動應用,人工智能、云計算、數據中心等高性能異構計算領域。
對于研發的方向,沐曦表示將采用業界最先進的5nm工藝技術,研發全兼容CUDA及ROCm生態的國產高性能GPU芯片,滿足HPC、數據中心及AI等方面的計算需求。GPU將采用原創專利保護的可重構GPU架構,突破傳統GPU芯片能效瓶頸;采用數據壓縮,數據廣播以及共享硬件加速單元等先進技術,大幅度優化核心算力能耗比。
沐曦高性能GPU研發項目
登臨科技成立于2017年11月,是一家專注于為新興計算領域提供高性能、高功效計算平臺的高科技企業。公司的產品是以芯片為核心的系統解決方案,在所有核心IP上堅持自研路線。登臨科技已完成由元禾璞華、元生資本聯合領投的A+輪融資,包括北極光在內的老股東持續在本輪加碼跟進。登臨科技的首款GPU+(軟件定義的片內異構通用人工智能處理器)產品已成功回片通過測試,開始客戶送樣,公司團隊具備架構、系統、軟件、硬件、芯片、驗證等方面的綜合能力。
登臨科技GoldwasserTM GPU+產品在現有市場主流的GPU架構上,創新采用軟硬件協同的異構設計。GPU+異構設計讓產品在對客戶實際業務繼承在現有生態上的投入、在保證極高兼容性的同時,相比傳統GPU在AI計算上性能和能效均有明顯提升,大大降低了外部帶寬的需求,顯著降低客戶總擁有成本。
摩爾線程創立于2020年10月,去年12月獲得天使輪融資,今年2月22日獲得Pre-A輪融資。摩爾線程致力于構建中國視覺計算和人工智能領域計算平臺,研發全球領先的自主創新GPU知識產權,其GPU產品線覆蓋通用圖形計算和高性能計算。公司核心成員主要來自英偉達、微軟、英特爾、AMD、ARM等,覆蓋GPU研發設計、生產制造、市場銷售、服務支持等完整架構。
翰博半導體成立于2018年12月,立志于發展成為國際頂尖的芯片公司,立足于中國市場,填補國內市場國產芯片的空白,為智能應用提供高效算力,為人工智能創新以及應用落地賦能。
翰博半導體擁有國內外專家組成的團隊。公司核心員工來自世界頂級的高科技公司,平均擁有15年以上的相關芯片,軟件設計經驗。
瀚博的產品注重計算機視覺及視頻處理的優化,提供豐富的特性,高效的性能/功耗;適用多個人工智能領域。產品覆蓋從邊到云,SOC及服務器市場。
翰博半導體CEO—錢軍擁有25年以上高端芯片設計經驗和40多款芯片設計和量產的經驗,帶隊設計量產業界第一顆7納米圖像處理器和AI服務器芯片,曾任AMD高管Senior Director,直接負責設計團隊超過800人,全面負責GPU( 圖像處理器和AI服務器)芯片設計和生產,現在市場上所有AMD Radeon圖像處理器和AI服務器都是由其帶隊開發,包括多個系列DGPU和MI系列產品。
燧原科技成立于2018年3月,專注于人工智能領域云端算力平臺,致力為人工智能產業發展提供普惠的基礎設施解決方案,提供自主知識產權的高算力、高能效比、可編程的通用人工智能訓練和推理產品。
燧原科技的產品技術由訓練、推理、軟件平臺構成。其中,訓練業務包含加速卡 “云燧T10” 和“云燧T11”;推理業務包含加速卡 “云燧i10”;軟件平臺包含“馭算”。
“云燧”系列加速卡采用自研DTU架構,支持ESL高速互聯和開放生態。 “云燧”芯片采用格羅方德的12nm FinFET工藝,結合 2.5D先進封裝,擁有141億晶體管和16GB HBM2顯存,在FP32的算力和能效比方面領先GPU。
計算及編程平臺“馭算”,由燧原自主研發,支持主流深度學習框架,并針對邃思芯片進行了針對性優化。
智東西認為,GPU設計之初是為了圖像處理,但是隨著技術的不斷迭代升級,GPU的功能已經不僅限于“畫圖”,憑借在并行處理和通用計算的優勢,GPU在服務器、汽車、人工智能、邊緣計算等領域已經開始大放異彩。現階段,雖然國產GPU與英偉達、AMD等世界巨頭差距明顯,但在一些空白的細分領域或許有很大的“彎道超車”空間。