異構集成-Chiplet
DSA通常是作為單片IC開發和實現的。在單片ASIC(專用集成電路)中,加速器中的所有元件都是在一個硅片上用一種工藝設計和制造的。隨著工藝幾何圖形的縮小,開發ASIC的成本變得高得令人望而卻步,例如,在7nm工藝節點上的成本超過2.5億美元[14]。在如今的發展過程中,只有非常大的市場容量才能證明定制ASIC的發展是合理的。
與一般用途的CPU相比,DSA通常服務于更小的市場。ASIC設計師試圖通過整合大量第三方知識產權(IP)核來降低設計成本。第二種控制成本的方法是選擇一個更經濟的工藝節點,比如16nm,而不是7nm甚至22nm。在太老的節點上,如果要實現應用所需的全部功能,可能會使硅片的面積太大而無法經濟地制造。
異構集成系統提供了一種新的設計方案。在這些系統中,產品中的不同組件在獨立的裸片上設計和實現,稱為chiplet。不同的裸片可以使用不同的工藝節點制造,甚至可以由不同的供應商提供。第三方chiplet可以減少設計時間和成本。但這種方法的可行性常常受到片間互連的性能和可用性的限制。直到最近,片間互連的功耗和性能比片內互連要糟糕3-4個數量級。這需要強制進行高帶寬訪問的資源,比如外部內存接口和主機接口不能移出芯片。已經開發出了幾種新技術從簡單到高度并行的高速串行接口,來改進片間連接的電源效率。新的封裝技術已被開發,來支持這些不同接口的多芯片封裝。
chiplet技術的發展引起了大型商業公司和政府研究機構的關注。Intel、AMD、Intel和Xilinx在多chiplet系統上處理完整的堆棧連接、邏輯數據傳輸和應用程序執行。他們的工作主要使用專有協議,并且是封閉系統,整個異構系統由單個供應商控制。而云計算和網絡運營商的能力、性能和成本要求將根據加速器在網絡中的部署位置而有所不同。運營商也更愿意通過跨多個供應商組合一流的解決方案來組裝定制化的加速器。
目前的標準化工作在很大程度上局限于片間通信的PHY(物理層)協議。最著名的標準是基于開放式高帶寬存儲器(HBM)接口的高性能3D堆疊存儲器。美國國防部高級研究計劃局(DARPA)的計劃[18]專注于創建和標準化chiplet之間的開放連接協議。一個限制是,該計劃側重于支持對國防工業重要但可能與商業發展無關的工藝節點。這將協議限制在與接口的模擬性能有一定限制的工藝上。
DSA的另外兩個屬性必須在多chiplet架構中解決。首先是內存管理。DSA通常連接到主處理器,完整的應用程序流是DSA本身和主處理器上的數據處理過程的有機結合。操作協同是通過協調主處理器和DSA之間的內存狀態來實現的。一般是通過內存一致性協議或由程序員管理的主處理器和DSA之間的數據傳輸來實現的。另一種方式是通過主機上的操作系統控制和管理加速器。
在本文,我們呼吁開發開放體系結構的標準,并開發可以作為開放體系結構模板和初始平臺的原型產品。我們(開放領域特定架構(ODSA)工作組)提出了一種低成本、高性能的開放加速器架構,以解決開發DSA的全部需求,包括以下組件:
支持chiplet組之間多種形式的物理通信
基于消息的協議,用于chiplet之間的一致性和批量數據移動
主處理器集成軟件,用于將加速器與主處理器集成
為該方法提供chiplet的行業聯盟
我們還建議使用以下組件提供平臺原型:
有機基質上的低成本多chiplet 封裝
一種實現所有其他組件互聯胡同的基于消息的通信的網絡化chiplet
一個遠程SerDeschiplet
一個RISC CPUchiplet
多芯片封裝
用于網絡加速的主處理器集成軟件
圖1將ODSA工作組與工業界和政府最近的努力成果chiplet進行了對比。具體來說,相對于DARPA計劃,ODSA側重于關注技術棧之上的內存管理協議。相對于來自大公司的產品,ODSA提倡一種開放的體系結構,使得來自多個供應商的產品可以互操作。綜合起來,這些特性將降低在廣泛應用中開發和部署高能效、高性能加速器所需的成本和時間。
圖1:ODSA協議棧和焦點區域
開放式體系結構將使供應商能夠開發同類最佳的DSA:
開發人員在開發產品時,可以將異構的同類最佳組件結合起來。合并來自多個供應商的裸片。此外,對于性能較低的零件,開發人員甚至可以重復使用當前以封裝IC形式出售的裸片。
該架構將通過在廉價的基底上采用多芯片互連的多種低功耗方法,以低單位成本提供高性能、多兆比特互連。
該架構將通過支持大量的硬件和軟件重用來降低開發成本。
傳統意義上講,加速器被實現為單片的ASIC,其中會包括一個裸片上的所有功能,這些功能通常與系統中的其他芯片連接,具有中、遠程SerDes接口。這允許在子塊之間的通信在功耗和占用硅片面積上達到最優。
ASIC實現趨勢
傳統意義上,IC設計者在開發下一代芯片時有兩種選擇。開發新芯片的主要方法是在下一個可用的工藝節點中利用增加的帶寬、增加的處理能力(頻率、處理核心)和其他特性更新。第二種方法是在同一個工藝節點中開發其他新特征,以減少新工藝和新工具的投資。
在摩爾定律的幫助下,設計者通常可以在下一個工藝節點將系統中的兩個獨立的ASIC組合成一個單片設計,從而提高頻率。當多個部件組合成一個單一的器件導致接口電源被移除時,這是移動到較小工藝的的動態功耗改進之外的額外好處。不幸的是,隨著先進技術向越來越精細的功能轉移,以實現面積和功率的擴展,實現這些器件的成本急劇上升。圖2顯示了隨著設計遷移到高級工藝節點,開發成本的快速增長。對于許多市場和應用空間有限的加速器器件來說,這種額外的成本是不可接受的。
為了攤薄開發成本,ASIC的設計比實際需要的更大,因為它們需要被設計為滿足各種應用所需功能的超集。不幸的是,功能的超集降低了工藝進步帶來的好處,導致更復雜的芯片規格從而需要更多的精力來設計,布局,尤其是要開發出與更新的較小的工藝相匹配或超過增加的掩模和工藝成本的軟件。即使這些芯片變得越來越復雜以降低投資成本,但由于更復雜的光刻和工藝(雙,三次圖案轉移,EUV等),每個晶體管的成本下降也在放緩甚至停滯。
有了這些趨勢,一個明顯的選擇似乎是在舊的工藝節點上構造非常大的單裸片。更新同一進程節點中的器件也會帶來挑戰。通常,上一節中所示的較小裸片的工藝幾何結構和良率效益使其無法或不可能將兩種不同的設計組合成一個芯片,并滿足成本或分劃線限制。雖然消除接口可以真正提高接口功率,但設備的總體成本增加使這一好處難以實現。
圖2:ASIC開發成本和晶體管的成本效率
此外,大型裸片的缺陷、光刻工具中使用的分劃板的局限性以及與層壓板連接的可靠大型裸片的局限性也會影響成本。圖3比較了兩個裸片,一個10x10,另一個是20x20。只要使用非常好的d0(0.1),每300毫米晶圓的中,四個10x10裸片良率會比20x20裸片多29%。
圖3:裸片尺寸對良率的影響
基于FPGA的設計是加速器的另一個實現方案,且開發成本非常低。許多加速器開發人員的應用程序服務于一個有限的市場,即使他們能夠使用處理器和FPGA實現所需功能并具備顯著成本和功率優勢,他們也無法證明這筆費用的合理性。圖4顯示了使用相同工藝節點的ASIC實現相對于FPGA在面積和功耗方面有顯著優勢。
圖4:ASIC與FPGA中相同內容的比較顯示了顯著的優勢
Chiplet概述
在本文討論的開放式體系結構中,我們探索了第三種途徑,使用低功耗接口(如USR、束線(BoW)或新興的112G SiP標準)實現多組件裸片的異構集成。通過在不同接口上分層公共協議,可以利用一種基于“構建塊”的通用方法,通過簡單地改變多芯片模塊(MCM)的物料清單(BoM),在基板上創建新的系統。
一些組件塊(例如長距離SerDes塊或電-光接口)可以在需要的地方遷移更高級的工藝節點,但是其他組件塊可能保留在具有成本效益的節點中,以減少總體投資。如下圖5所示,雖然沒有達到技術縮減的相同面積和功率優勢,但第三條路徑通過顯著減少接口面積和功耗,在更具成本效益的節點中比單片集成提供了相當大的面積和功率節省。雖然多芯片系統通常比單個芯片的成本更高,但這些面積和功耗節省可以在一定程度上抵消增量投資。
在這個圖表中,基本投資被顯示為原始設計的參考點,原始設計需要通過組合組件和通過集成或將更大的設計推送到新技術中來添加新功能來進行更新。集成到單個基板上可提供工藝縮減的帶來的許多好處,而投資成本卻大大降低。
基板上的集成系統還大大節省了電路板空間和走線延遲,節省了大量系統成本,通常可以抵消設計和集成MCM所增加的成本。
圖5:比較(多芯片)集成與進程節點收縮
互連和外部接口
開發物理分解(異構)MCM解決方案的主要挑戰之一是在裸片之間移動數據,同時保持具有競爭力的成本和可制造性。雖然高密度、低成本的封裝解決方案方面在繼續取得巨大進展,但在選擇與當今可用于大批量制造的封裝解決方案兼容的互連技術方面仍然具有顯著優勢。此外,使用經過驗證的封裝解決方案可以提高與外部互連(如PCI Express和以太網接口)的兼容性,這些接口可能是這些SiP解決方案所需要的。
多年來,人們一直在尋找一種“真正的互連”,以便在單個MCM中實現從裸片到裸片的通信。挑戰在于希望優化六個往往相互競爭但相互關聯的因素:
1.封裝解決方案成本
2.每單位帶寬裸片面積(平方毫米每千兆每秒)
3.每比特功率
4.帶寬的可伸縮性
5. 系統級集成和使用的復雜性
6. 可在任何半導體工藝節點中實現
理想的解決方案是一種可無限擴展(在細粒度分辨率下)、低功耗、高效率、對編程模型完全透明、可構建在低成本硅和封裝技術中的互連技術。一般來說,有三類技術服務于這個空間:
傳統中長距離SerDes
不同范圍的較短SerDes-XSR或SiP SerDes,USR Femto SerDes
并行接口-高帶寬內存(HBM),高級接口總線(AIB),“電線束”(BoW)接口
我們簡要回顧了每一種die-to-die的通信技術。
傳統的中長距離(MR和LR)SerDes(如PCI-Express、以太網等)作為die-to-die互連解決方案具有一些關鍵優勢。這些SerDes接口傾向于以合理的速度/功率優化點在硅工藝節點的廣泛選擇中可用。為了支持傳統的操作模式,大多數標準都在設計上包含了帶寬擴展的概念。由于這些接口被廣泛使用,因此集成到裸片和系統編程模型中往往是非常耐用和易于理解的。集成和使用這些接口所需的封裝技術是廣泛可用和廉價的。
然而,它們也存在一些明顯的缺陷。由于這些實現往往是一般化的,并且集中于物理上大型系統(例如服務器或企業路由器)中的通信,因此與專用的die-to-die解決方案相比,它們的能量效率偏低且占用的硅片面積過大。模型雖然很好理解,但它的目的是在物理上和邏輯上不同的設備之間進行通信,因此往往包含固定的流控制和大量的系統開銷,這些開銷會增加延遲和復雜性,這在SiP這種理想通信場景中沒有太大必要。
XSR/SiP是一種相對較新的SerDes接口,它以50Gb/s的速度node1開始引入,并且以100Gb/s的速度尋找未來的解決方案時在業界受到了更多的關注。XSR/SiP SerDes代表了一個高度優化的、通常非常高速的串行接口,它是專門為die-to-die通信而構建的。基于傳統的SerDes體系結構(集成了時鐘數據恢復電路),但是具有嚴格限制的插入損耗預算,這些XSR/SiP鏈路具有較高的能效和較小的硅片面積,允許在SiP內實現極高帶寬的鏈接。這些往往被視為簡單的“比特管”系統可以抽象為非常靈活的編程模型,但由于需要將前向糾錯(FEC)應用于以優化功耗和面積后的100Gb/s速度的接口,因此可以引入顯著的延遲。
與其他解決方案一樣,基于XSR/SiP SerDes的互連也存在一些負面影響。為了在非常高的速度下支持良好的信號完整性,需要更高性能(因此更昂貴)的封裝基板材料來支持大規模集成。裸片之間的總接口帶寬可以非常有效地擴展,但在50或100Gb/s運行所需的電路開銷要求最小接口帶寬和增加帶寬的單位為幾百Gb/s,以實現功率和面積效率目標。最后,先進的硅工藝節點通常需要支持這些SerDE的設計,限制了系統設計者用正確的工藝實現。
USR-Femto-SerDes進一步針對特定的die-to-die通信進行了優化,采用了增強的信令方案(時鐘轉發、高級編碼、多比特/多線傳輸等),以提供極為節能的解決方案。通過使用現有的封裝技術,這些接口支持每條線的高數據速率,可以提供帶寬和成本的良好平衡。雖然還不能達到100Gb/s XSR/SiP解決方案所能達到的絕對接口帶寬,但USR設計可以提供相當高的功率效率。與XSR/SIP SerDes一樣,系統集成模型可以是靈活且非常輕量級的,但是FEC可能需要以更高的數據速率應用以支持可接受的數據傳輸完整性。此外,USR串行接口通常是自定義的“強化”宏,通常涉及專有編碼方案,這意味著可能需要對特定的過程技術進行自定義設計才能實現它們。與傳統技術的互操作性和兼容性也可能帶來挑戰。
實現die-to-die接口的最簡單解決方案是一個較大位寬由時鐘驅動的并行總線,類似于用于DDR的內存接口。從系統和軟件的角度來看,這些設計靈活、可擴展、易于實現和使用,幾乎可以在任何硅工藝中實現,在支持低電壓的更高級節點上實現極低的功耗。總的來說,BoW解決方案將代表最低功率、最密集的解決方案,但有一個顯著的缺點:一旦接口超過一定的帶寬,封裝成本將顯著增加。由于目前的有機封裝襯底技術的限制,一旦裸片之間的帶寬超過每毫米約400Gb/s,就需要轉向基于硅的互連介質或高密度有機溶液。
高帶寬存儲器(HBM)一直是驅動行業多芯片集成的主要參與者,它使用硅插接器上相對低速的并行接口,采用非常寬的接口和良好的布線間距。AIB是DARPA芯片項目與行業合作伙伴共同開發的一種接口,在數據速率和硅橋或插入技術上的精細間距布線使用方面與HBM大體相當。這兩種技術都實現了相對較高的帶寬密度,但也需要相對復雜的硅基互連技術。
上面討論的每個解決方案都傾向于優化這些因素中的一部分或大部分,但在許多情況下,最佳解決方案高度依賴于應用。并行接口如BoW、AIB、HBM提供低功耗、低延遲和高帶寬,但代價是需要在裸片之間連接許多線路。只有使用昂貴的插接器或橋接技術才能滿足布線要求。相對于并行接口,SerDes提供了類似的帶寬,但是會增加一些額外的能力和事務延遲。SerDes已被用于在各種標準中,用有限數量的物理線提供高帶寬的off-die通信。然而,大多數SerDes,如那些用于以太網通信或PCI Express雖然面積有效,但能耗太大。USR SerDes提供off-die通信,其優點更接近于片上互連。然而,由于串行化開銷,基于SerDes的通信通常會比片上網絡帶來更大的延遲。
系統設計人員在選擇 die-to-die的互連之前,應考慮其應用的所有相關要求。圖6中的圖表總結了每個接口在各種相關參數上的相對優勢和劣勢,例如優點圖——硅和層壓基板上的帶寬密度與功率和帶寬密度的比值。
本文討論的ODSA通過使用一個通用的數據傳輸事務協議來抽象PHY協議。ODSA事務層允許系統設計者為其功能選擇最佳接口,而無需指定特定的解決方案。如圖7所示,多芯片系統基于預算限制、可用性、帶寬和功率需求而利用多種接口技術。
圖6:比較die-to-die協議
圖7:比較新的片間互連技術
基底與封裝
在產品和市場需求的驅動下,實現了更高密度的集成,封裝技術在過去幾年經歷了革命性的轉變。對封裝的要求已經從單純地實現與外部世界的電氣和機械連接,發展到現在支持多芯片封裝中不同芯片之間的多種接口技術。
將多個芯片和/或封裝集成到一個MCM中導致了更大的封裝尺寸,這導致了更小的信號線和空間。如果不考慮相應的封裝技術,就無法確定用于特定用途的最佳chip-to-chip接口。芯片之間的接口指導和影響封裝技術的選擇,特別是需要集成多個芯片的基板。封裝正成為實現多芯片集成的關鍵領域之一。三個相關問題促使我們選擇適合多芯片設計的封裝技術:
chip-to-chip接口
成本限制和性能要求
多chiplet 封裝的總尺寸
例如,在片間互連中的高線密度可能要求使用支持高線密度的基板或橋接技術。高帶寬存儲器(HBM)的啟用可能是這一趨勢的最好證明——因為HBM只能與ASIC集成在同一個封裝中,而且此時只能在2.5D的硅中間層配置中集成。HBM芯片的外部互連是DRAM式的,需要大量的I/O。因此,它的封裝使用了間距為55um、直徑為25um的微凸塊(u-bump)。在HBM2中,u型凸起的總數為4,942個。由于ASIC芯片在與HBM芯片通信時必須使用相同數量的I/O,所以ASIC芯片必須使用u-bump,并且u-bump的間距和直徑也要類似。由于今天在有機基質中C4和Cu柱的最小允許凸起間距分別為130um和90um,硅中間層成為唯一可行的解決方案。
雖然硅基封裝技術已經發展為批量制造解決方案,但成本和復雜性可能會阻止它們成為大多數低端應用的正確解決方案。標準的FC-BGA封裝是一種較低成本的選擇,支持多種互連技術(SerDes和BoW),但無法實現與硅基解決方案相同的帶寬。
這種差異是顯著的,因為硅中間層帶來高成本,高制造復雜性和產量損失。設計和制作2.5D硅中介層封裝的NRE成本很容易達到100萬美元甚至更高,每個芯片的生產組裝成本接近100美元。相比之下,設計和制造MCM組件的NRE成本僅為100萬美元的一小部分,每個芯片的生產組裝成本也遠低于100美元。從經濟上講,擺脫硅中間層并回到傳統的MCM封裝具有很大的好處。
使用有機基板就像使用傳統PCB一樣。PCB和有機基板都是通過使用傳統的蝕刻工藝制造的,而傳統的蝕刻工藝不依賴于半導體制造設備的使用,而硅中介層為了實現精細間距而需要使用半導體制造設備。
封裝尺寸是第二個需要考慮的問題,它主要由組件的總裸片尺寸決定。在翹曲和熱膨脹問題達到極限之前,球柵陣列(BGA)封裝可以可靠地達到75mm x 75mm的尺寸。BGA封裝可以焊接或安裝在插座上。柵格陣列(LGA)插座,可達到110mm x 110mm的大小。LGA插槽包括一個微小的葉彈簧,允許發生一些翹曲和膨脹。TE Connectivity擁有一個名為XLA sockets的LGA產品線,該產品線不僅提供了這種能力,還保證了良好的SerDes信號完整性,可以輕松地處理56G SerDes和112G SerDes。110mm x 110mm是一塊大吐司的尺寸,可以容納很多功能。
傳統上,標準硅中介層僅限于光罩尺寸。對于大多數使用的硅制造設備,該掩模版極限在32mm x 26mm的范圍內。更高級的解決方案包括縫合多個光罩場以形成更大的硅中間層,或者僅在需要它們的區域使用較小的硅中介層(“硅橋”)。
并行接口,如AIB或HBM,或提出的更通用的BoW接口方法,大大增加了可使用的封裝技術的需求。BoW通常比串行解決方案具有更慢的信號速度,但芯片之間的互連明顯更多。根據芯片之間需要支持的帶寬大小,可以選擇不同的封裝技術:
對于芯片之間的低到中帶寬要求,可以使用相同的FC-BGA基板技術,但需要增加的是較小的線纜,而SerDes信號使用的是較大的線纜(20um線/空間)。
對于高帶寬應用,信號線的數量需要最大化,因此線路和空間需要進一步大幅縮小。可以打印的最小幾何圖形總是在硅上,因此2.5D(或其他基于硅的技術,如EMIB)可以提供非常高的帶寬密度。在實現顯著的好處的同時,使用硅作為封裝互連媒體也會導致復雜和昂貴的封裝解決方案。
目前正在開發的一些新技術針對的是“中間空間”——這種解決方案成本更低,但仍然能夠實現非常高的互連密度。這些解決方案包括在常規層(“2.1D”)的基礎上加工額外的細間距層的有機層合板,以及一些新的晶圓級扇出技術,旨在實現HBM要求的類似布線密度。
USR SerDes互連技術的發展大大減少了半導體芯片之間通信所需的I/O總數。它允許有機基質提供裸片之間的互連,使成熟的MCM技術再次為我們服務。
傳統的SerDes,以及不斷發展的XSR和USR Fempto SerDes都有一個共同的優勢,即信號線數量更少(運行速度更快)。這使得一個相當標準的封裝解決方案成為可能,例如FC-BGA。支持MCM集成的FC-BGA封裝技術的主要新元素現在允許:
支持更大的封裝尺寸:
? 對于32/28nm節點,有一種比較保守的看法是封裝大于~55mm會導致卡片裝配出現問題。這一觀點在過去幾年里有了顯著的發展,70mm的封裝已經投入生產,80-100mm的封裝已經在許多公司的路線圖中。
支持超高速信號(如100G XSR)的電氣要求:
? 需要在封裝基板中使用低損耗的電介質,以便在將插入損耗保持在可接受水平的同時延長跟蹤長度。
高速信號,如來自USR或LR SerDes的信號,可以通過硅中間層穿隧。典型的技術是利用幾個相鄰的裸片微凸塊形成輸出,以保持阻抗,從而保持SerDes的傳統裸片凸點的信號完整性。還有更多的微凸點,還有更多的微凸點形成一個更緊密的接地凸點桶。。
然而,由于使用SerDes減少了對線數的要求,因此可以使用更便宜的玻璃甚至有機基板來構建大型多芯片封裝。使用這些基板降低了總的封裝開發成本。
在大多數加速應用程序中,在一個多chiplet產品中,在多個chiplet上數據路徑可能同時運行執行。多個chiplet通過數據傳輸協議共享數據。相干協議使用硬件支持為軟件開發人員在主機和DSA上提供一致的內存狀態。提供這種一致性的成本與需要實現這種一致性的物理區域成比例。在非常大的范圍內,實現一致性的延遲成本可能非常大,程序員對這種延遲的直接控制非常有限。有幾種用于加速器狀態一致性的開放協議,包括CCIX、TileLink和OpenCAPI。
非相干數據結構是相干協議的替代方案。在具有非相干結構的系統中,開發人員顯式地控制數據傳輸。TensorFlow是使用非相干數據傳輸的加速器的一個例子。為chiplet開發非相干數據結構有兩種選擇。一種選擇是擴展片內結構以進行片外傳輸。大多數片上結構使用同步全局總線。這些總線不容易擴展到芯片外。第二種選擇是使用片對片的非相干數據傳輸協議進行片對片的數據傳輸。PCI Express是最常見的片間非相干數據傳輸協議。但是,在封裝中使用它的開銷可能很大。Netronome開發了一種用于非相干數據傳輸的輕型可伸縮結構技術實施證明要點
本節回顧了原型中使用的先進技術的證明點。具體來說,我們討論了USR SerDes、基底和非相干數據傳輸協議的實現。下文將討論ODSA的原型實現。
在過去的幾年中,出現了一種使用硅中介層或硅襯底的重要替代方案。這種選擇是低成本基底和高能效USR SerDes的組合。這些USR SerDes的出現,特別是Kandou使用CNRZ-5調制技術的Glasswing SerDes的出現,使得可以在大型MCM上構建復雜的系統。CNRZ-5調制技術提供了NRZ形的接收眼,因此即使在高速率下也可以使用最小的均衡,從而降低了功率。
(1)在有機基質上的調制-CNRZ-5 vs PAM-4 vs NRZ
選擇在有機封裝上運行的SerDes上使用的調制技術非常重要。三個相關的選擇是CNRZ-5,PAM-4和NRZ。在基底上使用PAM-4調制技術是一個糟糕的選擇,因為它具有糟糕的本機錯誤性能,必須通過顯著的、有時是高延遲的前向錯誤控制(FEC)塊和/或大型大功率均衡器來保護。這種糟糕的本機性能的原因是PAM-4在同一鏈接上的“眼圖”有大眼睛和小眼睛的組合,這是PAM-4的三個堆疊的眼睛的結果。來自大眼睛的能量反射到任何缺陷和接收器上。這種反射的能量會使小眼睛閉上。反射是USR/XSR鏈路的主要缺陷。非反射符號間干擾(ISI)也存在類似的影響。
PAM-4被下一代的XSR-SerDes所使用,這些SerDes正被開發用于光學模塊應用。在這種應用中,一個大的系統FEC是用來保護光鏈路的,所以它是免費提供給直接將數據傳送到光學鏈路上的電子鏈路的。在幾乎所有其他應用程序中,重要的FEC塊都需要與鏈接一起使用。這意味著他們通常需要增強均衡和FEC。OIF CEI-56G-XSR-PAM4互操作性協議的誤碼率是1E-9。
NRZ USR Phys功能強大,通常可以在沒有FEC的情況下使用。在相同的波特率下,NRZ PHY的pin效率低于CNRZ-5 PHY。由于可用的裸片球數量有限,因此pin效率在USR應用中至關重要。降低的pin效率直接降低了使用NRZ的裸片的邊緣帶寬。也就是說,市場上有25Gb / s NRZ USR PHY,目前有多家供應商正在開發50Gb / s NRZ USR PHY。
(2)Kandou的chiplet USR證明點
GW16-500 Quad Glasswing Phy是首批利用和弦信號的PHY,這是一種創新的PHY技術。Glasswing使用CNRZ-5 和弦信號,這是一種信號形式,適合單端和差分信號之間的空間。和弦信令可以通過以更低的功耗和更少的pin獲得更多的比特,從而使幾乎每個接口都變得更好。
Glasswing FemtoSerDes PHY采用CNRZ-5(基于弦向信號的非歸零5通道)調制技術,在6根電線上攜帶5比特。它具有出色的信號完整性(SI)屬性,因為它結合了專門針對SI設計的特定多弦編碼器和特定和弦接收器。良好的SI使Glasswing能夠以最小的均衡在低信號擺幅下運行,從而節省了功率,而差分信號卻沒有2倍的線損。
GW16-500 Glasswing PHY提供4套5個25Gb/s通道,通過24根數據線提供總計500Gb/s的帶寬,每個方向提供2根時鐘線。對系統來說,它看起來像20個共享一個時鐘的25Gb/s服務器。PHY還通過使用時鐘-數據校準(CDA)和轉發時鐘來節省功耗。下面的圖8顯示了Glasswing凹凸貼圖,它只占據了2.4毫米的芯片邊緣。
圖8:GW16-500-USR凹凸貼圖
(3) AQlink chiplet USR證明點
AQlink是由Aquantia公司開發的利用差分NRZ信號的USR PHY技術。最小的AQlink構建塊是一個收發器,它包括兩個用于收發接口的差分對和一個用于時鐘接口的差分對。AQlink需要時鐘轉發的優點是簡化了接收器中的數據恢復電路,因此有助于最小化接收器中的功率和面積。在時鐘轉發方案中,用于時鐘發送器的時鐘與發送數據信號一起轉發給鏈路伙伴收發器。鏈路伙伴接收轉發的時鐘并重新生成與數據信號中心相位對齊的新時鐘信號。為了限制時鐘信號在封裝基板上的凸點和軌跡的數量,每個差分時鐘信號可以由多個收發器使用。這種拓撲的一個例子是AQlink-Quad1模塊,如圖9所示。AQlink-Quad1模塊包括四個差分數據對和一個差分時鐘。為了提高碰撞和跟蹤效率,幾個收發器可以共享一個差分時鐘信號。然而,為了在數據速率為>50Gb/s時獲得穩健的性能,建議最多與三個收發器(六個差分對)共享一個時鐘信號。
圖9:AQlink-Quad1有四個差分數據和一個差分時鐘對的凹凸圖
在14nm格芯工藝節點上首次實現了AQlink-Quad1。它支持每個端口20Gb/s- 56gb /s的吞吐量范圍,或112Gb/s的發送和112Gb/s的接收,在典型的有機封裝基板(例如GZ41基板材料)上,它在25mm的走線上支持每端口20Gb / s-56Gb / s的吞吐量范圍,或總共112Gb / s的發送和112Gb / s的接收。通過以半速率運行PHY,可以將每個端口的數據速率降低到10Gb / s,其中每個位被復制兩次并以連續的位時間進行傳輸。AQlink-Quad1在并行側具有一個64位寬的接收器接口和一個64位寬的發送接口,其時鐘頻率最大為1.75GHz。可以向并行接口添加一個可選的2x適配器模塊,以將接收和/或發送寬度增加到以最大875MHz時鐘同步的128位。
AQlink-Quad1提供極具競爭力的能量效率,其本身是信號波特率、跟蹤長度、電源電壓和溫度的函數。收發器在110C下,每端口56Gb/s,超過25mm的跟蹤長度時,每比特消耗的能量最大。AQlink-Quad1硅已經集成在不同的IC產品中,已經充分驗證了工藝、電壓和溫度(PVT),能夠在不使用FEC的情況下提供BER<1E-15,并支持ESD為400V HBM和100V CDM。
幾個AQlink模塊可以組合在一起,在裸片邊緣構建更高吞吐量的數據接口。例如,AQlink Tera是通過將10個AQlink-Quad1模塊組合在一起以提供高達1.12Tb/s的吞吐量來實現的。圖10顯示了AQlink-500G,它是通過將5個AQlink-Quad1模塊組合在一起以提供高達560Gb/s的吞吐量創建的。AQlink-500G IP core 2占用1.04mm,0.4mm的高度超過2.6mm的芯片邊緣。在它的并行側,它有320位寬的接收接口和320位寬的發射接口。使用每個端口的32:64適配器,并行接口可以增加到640位寬的接收和640位寬的傳輸。
圖10:AQlink-500G凹凸貼圖
(4)PIPE PHY接口層
如上所述,為多芯片系統選擇PHY協議有多種選擇。如果不同的接口可以為更高數據傳輸層提供一個通用接口,則可以簡化系統設計。PIPE接口一直是PCIe控制器和PHY之間的關鍵接口。PIPE的最初草案是由Intel在2002年定義的。自從PCIe演變以來,它已經進行了多次更新。
例如,定義CCIX協議時,其架構師會重用PCIe體系結構的各個部分,包括PIPE接口。市場上的某些或所有CCIX控制器實現都使用PIPE接口作為鏈接層和PHY層之間的鏈接。CCIX添加了一個附加的可選PHY波特率,但是此修改完全在PIPE上下文中完成。十六通道是PCIe和CCIX的高帶寬實現的主要寬度。市場上重要的CCIX控制器僅支持16通道PIPE接口。
例如,可以使用PIPE適配器在Kandou Glasswing USR SerDes上承載16通道PIPE接口。該模塊將CCIX IP控制器的PIPE接口連接到Glasswing。在啟動時,使用自動啟動機制將Glasswing的四個和弦中的每個和弦的五個32位子通道綁定在一起。這形成四個160位接口。自動啟動將每個和弦的五個子通道對齊為單個160位鏈接。根據適配器的較長定義,將它們進一步劃分為16個40位插槽。
每個插槽的最大容量為512/16=32Gb / s。來自PIPE接口的十位數據依次放入相應的插槽中。對于32GT / s(PCIe Gen 5),以25.6 GBaud運行Glasswing。對于25GT / s(CCIX ESM),Glasswing的運行速度為20 GBaud。對于16GT / s(PCIe Gen 4),以半速率模式在12.8 GBaud下運行Glasswing。
使用CCIX或PCIe控制器上PIPE接口的第4.2節(版本5.1)中的模式。Glasswing和PCIe / CCIX控制器必須在同一個傳輸時鐘上計時。Glasswing的和適配器時鐘發生器必須基于相同的來源。在緩沖中需要考慮所有組件的抖動和漂移。
PCIe和CCIX控制器都支持重傳緩沖區,該緩沖區能夠覆蓋Glasswing的1E-15錯誤率所支持的任何錯誤。該錯誤率優于為PCIe / CCIX指定的錯誤率。
我們回顧了最近的結果,這些結果顯示了在多芯片封裝中顯著降低成本的潛力。
(1)有機基材
通常,并行接口(例如高帶寬存儲器)所需的高導線密度要求使用硅中介層技術。如前所述,硅中間層比有機中間層要貴得多。商業供應商和學術研究人員均已證明,有機中間層可顯著提高密度。凸點密度從150um增加到40-80um,導線密度從5um間隔增加,而不是典型的30um間隔。即,低成本有機襯底可以實現與使用高成本硅中介層所達到的密度相當的密度。
(2)玻璃核技術
玻璃核技術(GCT)是硅中間層和有機襯底的一種高性能,高性價比的替代品。GCT充分利用了玻璃(優于硅)的優點,以允許使用直徑較小的通孔和通孔之間的間距較小。GCT使用玻璃通孔(TGV)連接到再分配層(RDL),以在玻璃基板上創建所需的電路。玻璃的介電性能使其非常適合低損耗,超高速應用。這允許將IC直接放置在玻璃基板上,并使玻璃適用于高速度多芯片封裝。
圖11:封裝用玻璃基板
(3)封裝的光學和微型同軸電纜
為了在不增加功耗的情況下增加封裝I / O帶寬,已經開發出了新的微型機載光學模塊,可以將其放置在與IC封裝非常接近的位置。Samtec的Firefly天橋系統與光學和微型同軸電纜模塊兼容,就是這種解決方案的一個例子。當前,每個通道的速度為28Gb / s。
圖12:SamtecFirefly
為了充分利用USR低功率SerDes所帶來的速度提高和功率降低的優勢,進一步的發展是將跨接式連接器直接置于封裝的邊緣。
圖13:光纖到封裝的連接器位置
Firefly連接器可以小到可以放在封裝的邊緣,如圖14所示。
圖14:兩個Firefly連接器嵌入到一個45mm的方形封裝中
此外,由于光模塊是如此接近,因此可以省去光模塊中的普通CDR中繼器。目前正在開發56Gb / s的Firefly模塊的直接連接版本(光學和電氣版本均在下面顯示)。
(4)指令驅動的開關結構(ISF):可伸縮的數據傳輸
通常,ASIC/SoC上對等元件之間的片上通信是同步的。用全芯片通信網絡來實現這種同步通信所必需的深流水線會產生很大的面積和功率損失。ASIC的面積越大,同步片上通信的代價就越大。Netronome開發并使用了一種基于輕量級消息的片上數據通信協議。這允許使用一個簡單的可伸縮的分布式交換結構來實現全芯片通信。
ISF互連是Netronome網絡流處理器(NFP)中的主要全局總線。如下圖15所示,NFP在物理上實現為邏輯塊(或島)的平鋪數組。每個邏輯塊通過一個簡單的BoW接口與其直接的物理鄰居連接。ISF上的數據傳輸是以編程方式編排的。ISF命令語法是可擴展的,支持用于數據傳輸的命令,甚至支持在另一個島上的遠程總線代理處進行處理,以便在數據所在的遠程位置處理數據,從而最大限度地減少數據移動和處理時間。
圖15:可擴展的ISF和數據傳輸協議
在當前一代硅中,每個邏輯塊最多可以有六個DSF接口(K=6)。1GHz下的每個64位寬DSF接口鏈路在節點處向每個邏輯塊提供128Gb/s的雙向帶寬。因此,理論上每個邏輯塊的總吞吐量是K*128Gb/s。在圖15中的示例中,每個邏輯塊可以支持768Gb/s的雙向帶寬。在由邏輯塊組成的裸片(在典型的Netronome產品中)上訪問數據的延遲在5到20納秒之間變化。分布式實現具有以下優點:
? 高帶寬:由于可以并行執行許多事務,因此可以實現與交叉開關相當的高聚合帶寬, ISF對于每個島都有單獨的數據/命令路徑和主數據。通過分布式仲裁,許多近鄰連接可以同時運行。總線時鐘頻率可以更高,因為所有電線都是本地的。
? 高效節能:由于幾乎沒有全局物理連接,因此ISF耗散的功率更少,并且時鐘速度比全局總線快。
? 可擴展性:ISF基礎設施可跨多個不同的邏輯塊實例進行擴展,支持每秒數十億命令和萬億字節數據傳輸的峰值速率,使得這種分布式總線吞吐量可與crossbar相媲美。然而,這種物理分布的總線消耗更少的硅裸片面積。
我們建議將這種可擴展的設計擴展到多芯片封裝中的片外數據通信。
八種商業模式
chiplet的愿景是一個廣泛的生態系統,其中有成千上萬個可互操作的chiplet構建在各個foundry中,這些chiplet可提供各種功能,以降低成本,加快產品上市時間并提高成本效益。業務模型將需要支持這一愿景。
為了使這種方法成功,需要建立新的商業模式。集成ASIC供應商已經為集成高帶寬存儲器(HBM)模塊、存儲器設備和已知的良好裸片(KGD)系統建立了有效的模型。這個模型可以擴展以提供與來自多個源的組件更復雜的集成。下面的插圖概述了這樣一種業務模型,其結構為各種組件的“所有者”。
chiplet模型也可以使總體投資成本受益。例如,如果一家公司在開發機器學習加速器方面具有真正的價值,那么他們為每個可能的系統開發網絡接口可能就沒有意義。能夠通過選擇可用的組件將網絡接口引入設計中,從而減少了開發和構建網絡接口硬件所需的投資。相反,構建這些網絡接口chiplet的公司將從數量增加中受益,從而將其投資攤銷到更大的收入流中。
一、chiplet的工作流程
圖16中的示例顯示了構建組件的選項,其中RF設計公司可能需要在各個節點中集成額外的復雜邏輯功能和模擬IP。在這種情況下,射頻設計公司利用與ASIC供應商的合作關系開發“產品”,將接口IP和功能構建到產品的一部分。
圖16:帶有片間接口標準IP的新型射頻元件設計流程
下一階段的組裝如下圖所示,其中ASIC提供商與外包半導體組裝和測試公司(OSAT)合作,使用從以上RF提供商委托的組件以及OEM客戶ASIC功能來設計和組裝MCM封裝。
圖17:OSAT基于chiplet的設計流程
當然,這些復雜的模型需要建立細節,以便能夠順利地解決采購和測試需求的定價問題,但是隨著行業在模塊中提供越來越復雜的組件,其中許多路徑正變得越來越熟悉。
多供應商裸片生態系統的一個結構性問題是以晶圓形式交付KGD的實踐。傳統的方法包括用墨水點(或在數據庫中做一個條目)標記測試失敗的裸片,然后交付標記的晶圓。然后將標記的晶圓切成小塊并封裝。
在多供應商生態系統中使用此流程的一個問題是,它將每個晶圓的良率暴露給裸片的客戶。對于半導體制造商來說,芯片良率往往是一個受到嚴密保護的事實。
在實現多供應商生態系統時,至少有三種解決方案可供使用:
1.從切好的晶圓上取下裸片并將其放在載體上
2.使用可信的、受合同約束的第三方
3.使用芯片級封裝中提供的預包裝、預測試芯片
這些解決方案中的每一個都解決了良率風險的問題。這些解決方案提供了不同的方法來交付已知良好的設備以進行集成。
二、硅知識產權
在過去的十年里,片上系統(SoC)已經成為除大型數據中心服務器外提供計算能力的主要方式。PC、筆記本電腦、手機、網絡網關和各種各樣的嵌入式系統都采用了SoC。SoC通常由稱為硅IP的各種預先設計的邏輯塊組成。
傳統上,硅IP的許可方通過預付許可費和單位使用費的組合來提供他們的技術。他們將提供驗證測試,并預計與設計錯誤相關的責任限額。一個IP供應商將尋求在多個客戶之間分攤IP開發的成本,這要比SoC供應商自己開發功能并且是該功能的唯一用戶所能獲得的價格低。
互連IP有一個獨特的要求,即同一IP必須在鏈路的兩側工作。系統架構師和采購經理將堅持認為,IP具有靈活性,可以移植到不同的foundry,移植具有成本效益,最終互連IP可以從多個IP供應商處獲得,或者可以由芯片供應商獨立開發。業務模型將要求互連IP貢獻在整個chiplet組生態系統中可用和可訪問。這可以通過現有的標準組織(如OIF或IEEE)、現有的行業聯盟(如開放計算平臺(OCP))或新的聯盟(如USR聯盟)來實現。
三、chiplet集成的新機會?
chiplet集成將需要不同于硅IP的業務模型。其原因是,與硅IP不同,chiplet將需要被加工制造且質量保證長達數年甚至數十年。
大型半導體公司可能會繼續垂直整合其設計,構建,組裝和測試自己的基于chiplet的MCM解決方案的能力。設計面向特定任務的chiplet的較小公司將不太可能具有此功能,而是依靠foundry或封裝廠在MCM中進行集成和測試。
chiplet公司需要根據foundry愿意提供的支持,就chiplet的使用壽命向客戶提供制造保證。或者,為了更好地保證對終端客戶的供應,chiplet供應商可以向多芯片模塊開發商提供制造權轉讓,以換取版稅。
最初,foundry和/或封裝廠不僅要代表chiplet開發商承擔制造chiplet的責任,而且還要承擔為MCM集成商提供合格的chiplet的責任,然后提供許可或使用費的運營業務根據最終單位的銷售情況返回給chiplet供應商。foundry或封裝廠將建立一個chiplet設備目錄,可以選擇將其集成到MCM中。
隨著時間的推移,隨著不同chiplet庫存的擴大,系統公司將希望靈活地混合和匹配來自不同foundry的chiplet。很容易想象,新公司可能會形成新的基于芯片的MCM解決方案,并利用整個行業的最佳解決方案。
大型半導體公司的半導體廠商可能會采用一種為自己的設備開發chiplet技術的模式,在這種技術中,他們有75%到80%的技術是由芯片供應商提供的,而只有在非戰略性或沒有經濟意義的情況下,才會外包特定的技術。可以作為外包芯片開發候選技術的例子包括:內存技術、SerDes技術、FPGA技術和DSA技術。然后,大型半導體廠商可以建立自己的封裝、互連技術和chiplet廠商的專屬生態系統。
chiplet設計類似于當前SoC設計但是價格可能會小于完全集成的SoC設備。因為它們是在硅中實現的,所以它們需要對已知的良好的裸片進行測試和最終封裝的封裝內測試開發對應的測試程序。必須為重新設計做好準備,并并需要建立機制以便在最終產品生命周期內跟蹤硅的修訂。
四、開放的加速器和chiplet將驅動新的工作方式
一種方法是將MCM視為一種新的PCB,在這種PCB中,組裝、測試和部署可靠的多芯片解決方案需要一個可互操作的組件、互連、協議和軟件的生態系統。
MCM并不是什么新鮮事物,并且可以輕松利用現有的許多半導體生態系統進行硅設計,KGD測試,封裝設計和組裝。商業模式通常無需更改。但是,當MCM包含許多chiplet時,將需要額外的注意和規格,例如:
針對USR應用的高效鏈路、協議和軟件解決方案
USR標準和互操作性協議
驗證互操作性的USR組件認證程序
chiplet上的生態系統調整和已組裝的MCM測試程序
大容量MCM組裝和測試
產品保修
現場故障分析及根本原因識別
由Netronome、Achronix、GlobalFoundries、Kandou、NXP、Sarcina和SiFive聯合發起的ODSA工作組已經成立,旨在開發一種開放式架構和相關規范,用于開發承諾降低硅開發和制造成本的chiplet。ODSA工作組還將開始研究可行商業模式的細節,以實現chiplet的愿景。
結論
為了彌補摩爾定律的終結,需要DSA來處理數據中心和網絡邊緣的工作負載。然而,目前為DSA開發定制單片ASIC的方法在經濟上已不可行。異構系統中,集成ASIC由來自多個工藝節點和/或多個供應商的chiplet組成,是降低開發成本的一種選擇。目前開發完整系統的方法是封閉和專有的。
最近調查的互連和封裝技術以及數據傳輸協議方面的進展顯著改善了異構系統。這些進步被用于為DSA提出一種新的開放架構ODSA。與當前的標準化方法不同,ODSA提出了實現DSA所需的完整堆棧的標準,包括數據傳輸協議。該提案是建立ODSA的原型實現。還審查了如何發展商務模式以支持基于chiplet的制造流程。
ODSA體系結構的主要優點之一是能夠將PHY接口與用于其他處理功能的物理裸片解耦。在chiplet之間使用的事務層是實現這種集成的關鍵因素。通過利用ODSA模型,開發人員可以根據性能需求、IP可用性和成本自由地為每個chiplet選擇最佳解決方案。開發人員可以快速地將支持ODSA的chiplet組裝成最好的加速器。
本文摘譯自ODSA工作組,由半導體行業觀察翻譯,電子科技大學黃樂天副教授參與校正,特此感謝!
*免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。
今天是《半導體行業觀察》為您分享的第2240期內容,歡迎關注。
★群雄爭食5nm盛宴
★eMRAM時代終于要來了?
★華為撬動基站PA市場,為GaN再添一把火
“芯”系疫情|ISSCC 2020|日韓芯片|華為|存儲|氮化鎵|高通|康佳
長點評:最近兩大處理器巨頭均發布了全新旗艦處理器,其中AMD推出的是銳龍7 5800X3D,其采用了3D V-Cache技術,大幅提升了顯存容量,帶來游戲性能的明顯提升。更為重要的是,這款產品的價格也很實在,成為打造頂級AMD游戲平臺的新選擇。所以今天站長就給大家帶來一套基于銳龍7 5800X3D打造的頂級游戲配置,供大家參考。
產品型號名中多了一個“3D”,指的是采用了3D V-Cache緩存技術,由7nm工藝制造,面積為41mm2,由13層銅和1層鋁堆疊而成,通過TSV硅穿孔、混合鍵合(Hybrid Bonding)、兩個信號界面與原有的三級緩存相連,并通過三級緩存上增加的一條共享環形總線與各個處理器核心進行數據傳輸。此外,3D V-Cahce采用分區塊(slice)設計,每塊容量為8MB,一共有八塊,每個區塊內部帶寬都超過了2TB/s,這使得3D V-Cache的數據帶寬完全可以媲美原生三級緩存,從而提供極高的性能。
疊加在CCD芯片之上的緩存Die通過AMD的混合鍵合技術與CCD芯片進行連接(采用銅直連鍵合),相比傳統的C4與Micro Bump(微突塊,Intel采用的技術)方式,混合鍵合的針腳間距更小,從130微米到50微米再到混合鍵合的9微米,提升幅度顯而易見,每信號能耗更是不到Micro Bump的1/3,這對緩存的功耗控制非常有利。這也是銳龍7 5800X3D增加64MB三級緩存后TDP依然保持105W的重要原因之一。
除了三級緩存增加到96MB之外,銳龍7 5800X3D依然采用了7nm Zen3架構,擁有8核16線程的規格,為了保持105W TDP,所以產品的基礎頻率和加速頻率也相對銳龍7 5800X調低了400MHz和200MHz。
酷睿i9 12900K最高頻率能達到5.2GHz,但是就游戲表現而言還是比不上三級緩存猛增的銳龍7 5800X3D。在《看門狗:軍團》《刺客信條:英靈殿》《賽博朋克2077》《荒野大鏢客:救贖2》等大作中,銳龍7 5800X3D也保持了一定的領先。在《DOTA2》《怪物獵人:世界》《古墓麗影:暗影》《魔獸世界:暗影國度》《最終幻想14》等游戲中,銳龍7 5800X3D的領先幅度可就大了,優勢至少達到了10%以上,最高有23%,很明顯這次銳龍7 5800X3D可以說是贏得非常干脆利落。
另一方面,即便是增加了64MB超大三級緩存,銳龍7 5800X3D的功耗和溫度也并沒有像大家擔心的那樣暴漲,其滿載功率和溫度都比銳龍7 5800X還低,這確實有點令人意外。
看到這里大家可能最關心的是銳龍7 5800X3D的價格。與僅僅是將最高頻率提升0.3GHz,價格就漲了800元的酷睿i9 12900KS相比,銳龍7 5800X3D 3099元的定價就堪稱厚道,甚至還比銳龍7 5800X的上市價格更低,從這里就能體現出AMD的誠意滿滿。
銳龍7 5800X3D采用了AM4接口,依然可以與500系主板進行搭配,相對來說擴展性能更強、用料更扎實的X570是更好的選擇。
華碩ROG STRIX X570-E GAMING WIFI II采用無風扇設計,使用體驗更安靜。其外觀延續了標志性的電競潮牌風格,配合AURA SYNC神光同步信仰燈效視覺效果相當酷炫,格外引人矚目。主板采用了12+4相整合型高效解決方案,加上DIGI+數字供電控制、ProCoolⅡ高強度供電接口、高品質電感和耐用電容、6層PCB等配置,能輕松支持銳龍7 5800X3D的穩定運行。
通過全新Optimem III內存優化技術,讓主板上的4個內存插槽可以穩定支持DDR4 4400+以上內存,并保證最好的兼容性。雙PCIe 4.0×4 M.2插槽,能夠帶來平臺更高的存儲靈活性和更快的數據傳輸速度,還能支持RAID0。在M.2 SSD的安裝方式上,主板采用的是創新的Q-Latch卡扣設計,采用簡單的鎖定機制來固定M.2 SSD,安裝過程更方便。在網絡連接部分,主板最大的亮點在于支持最新WiFi 6E標準,還配備了2.5Gbps網卡芯片,可帶來更流暢,低延遲的游戲體驗,流暢播放高分辨率視頻并享受更快的文件傳輸。
在功能上,華碩ROG STRIX X570-E GAMING WIFI II搭載了Dynamic OC Switcher混合雙模(多/全核)超頻,可以根據玩家預設的電流或溫度閾值,在DOCP+PBO和全核超頻模式中智能切換,簡單的說就是低負載時開啟DOCP+PBO,獲得更高的單核性能,在高負載時切換到全核超頻模式,獲得更強的多線程性能,讓超頻更為智能。
總的來說,華碩ROG STRIX X570-E GAMING WIFI II各方面優秀的表現足以使其成為游戲玩家打造銳龍7 5800X3D平臺最靠譜的游戲裝備。
要想有出色的游戲體驗,除了有性能強悍的核心平臺之外,SSD的性能也不能拖后腿。可不要以為大容量、高性能SSD肯定不便宜,其實現在有了比較實惠的選擇。WD_BLACK SN770 NVMe SSD 2TB支持PCIe Gen 4.0×4傳輸通道和NVMe1.4傳輸協議,同時兼容PCIe 3.0,主打低功耗和低發熱,2TB容量理論上可以提供6500K的隨機讀取以及800K的隨機寫入IOPS能力。
選擇WD_BLACK SN770 NVMe SSD,在PCIe Gen 4.0×4通道實現超過5150MB/s讀取速度,游戲加載性能提升,且傳輸穩定,基于 HMB(Host Memory Buffer)技術的 DRAM-less 控制芯片設計,用主機DRAM緩存映射信息,給固態硬盤加速,能夠滿足大多數日常需求,以更低的成本達到同樣優秀的性能提速不加價。如果你并沒有打算直接升級旗艦級的游戲平臺,選擇WD_BLACK SN770 NVMe SSD 2TB能滿足你日常工作、娛樂、游戲需求,性價比很高。
龍7000、第13代酷睿,2022注定了是DIY硬件核心平臺進化的非凡之年。不管是處理器制造工藝的提升,還是架構的蛻變,都充分展現了AMD和Intel兩大科技巨頭從技術底蘊到市場策略的實力碰撞。那么,就讓我們一起來回顧這“黑科技”精彩紛呈的一年吧。
AMD篇
全球首款“游戲專精”處理器,銳龍7 5800X3D載入史冊
從今年AMD公布的Zen架構路線圖上就可以看到,除了帶“c”后綴的云計算版,從Zen 3到Zen 5都有帶3D V-Cache的版本,這就是AMD專為游戲應用而創造的黑科技,而針對游戲應用推出專門的處理器分支本身在處理器發展史上也是一大創舉,值得載入史冊。
2022年4月14日,AMD首款采用3D V-Cache緩存堆疊技術的銳龍7 5800X處理器性能正式解禁,它的三級緩存從銳龍7 5800X的32MB暴增至96MB,綜合游戲性能比當時Intel旗艦酷睿i9 12900K平均高出5%。所以,3D V-Cache到底是什么黑科技?AMD為什么要在游戲處理器上選擇巨量緩存這一升級方向?
我們知道,要提升處理器的游戲性能,在不改變架構的前提下,最直接的方法無非是提升頻率或者增加緩存。當然,兩種方法都會導致處理器的功率提升、發熱和制造成本增加,但相較之下,總會有綜合效果和性價比更好的一種,而AMD則為銳龍處理器選擇了3D V-Cache這一緩存堆疊方案。
不過,AMD并沒有選擇直接在Zen 3架構原有的CCD芯片中集成更大的緩存,一來這樣需要重新設計芯片;二來更大的芯片尺寸會使得晶圓邊緣的區域利用率變低,良品率會受到影響,這些都會導致成本大幅增加。
同時,AMD也沒有選擇增加二級緩存,而是去增加三級緩存。其實原因也很明顯,全大核Zen 3架構的二級緩存是每個核心獨享的,而三級緩存則是所有核心共享的,增加三級緩存對游戲性能的綜合提升更有效。與之相對的Intel第13代酷睿則選擇了提升二級緩存,這也是因為Raptor Lake-S采用了性能核+能效核設計的緣故,可見提升緩存容量的方式也是要根據架構來選擇的。
此外,銳龍7 5800X3D增加的3D V-Cahce緩存由13層銅和1層鋁堆疊而成,通過TSV硅穿孔、混合鍵合、兩個信號界面與原有的三級緩存相連,并通過三級緩存上增加的一條共享環形總線與各個處理器核心進行數據傳輸。此外,3D V-Cahce采用分區塊設計,每塊容量為8MB,一共有八塊,每個區塊內部帶寬都超過了2TB/s,這使得3D V-Cache的數據帶寬完全可以媲美原生三級緩存,從而提供極高的性能。
值得一提的是,AMD還在緩存Die的兩側填充了兩塊“結構硅”,保證CCD的熱量能夠正常傳遞到金屬頂蓋上,從而保證散熱效果。因此,3D堆疊的封裝方式不但保證了與底層芯片的完美連接,而且可以適應各種尺寸的芯片。
能效比方面,由于緩存Die通過AMD的混合鍵合技術與CCD芯片進行連接,相比傳統的C4與Micro Bump方式,混合鍵合的針腳間距更小,這對緩存的功耗控制非常有利。這也是銳龍7 5800X3D增加64MB三級緩存后TDP依然保持105W的重要原因之一。很顯然,這樣的設計也保證了3D V-Cache技術可以很輕松地運用在Zen 4甚至是Zen 5芯片上,這也讓我們對銳龍7000 3D V-Cache版充滿了期待。
總的來說,銳龍7 5800X3D作為首款采用AMD 3D V-Cache技術的臺式機處理器,至今也是兩千元級處理器中游戲性能登頂的存在,向業界和玩家展示了AMD在游戲處理器設計方面的雄厚實力,成功實現了對處理器產品線的進一步細分,在游戲處理器這一潛力無限的市場中搶得了先機,為未來的銳龍7000 3D-V Cache版吸引了巨大的潛在用戶群。
Zen 4保持工藝領先,AM5平臺實力“戰未來”
要說AMD今年在核心平臺上最大的動作,當然還是9月26日正式登場的5nm Zen4架構銳龍7000系列臺式機處理器。Zen 4架構不但帶來了巨幅的頻率與IPC提升,還搭配了全新的AM5平臺,提供了對PCIe 5.0、DDR5等新規格的支持,堪稱全面大升級,更是開啟了AMD的新一輪“5年計劃”。
我們知道,AMD自推出第一代銳龍和AM4平臺以來,已經過去了五年,而最早發布的AM4主板甚至還有機會通過升級BIOS來支持今年發布的銳龍7 5800X3D處理器,可見其驚人的生命力和一開始就目光極為長遠的“戰未來”規劃。正因為如此,我們也就不難理解為什么AMD要在AM5平臺上徹底放棄DDR4內存,并搶先在銳龍7000處理器中集成多達24條可自由支配的PCIe 5.0通道了,畢竟它也要實現三到五年的“戰未來”目標,規格當然得有足夠的前瞻性。
另外,自從Zen架構誕生以來,每一次升級換代AMD都會對架構進行大幅改進。這些改進中,最具代表性的包括從Zen到Zen 2首次采用了獨立I/O Die的設計、從Zen2到Zen3將每4個核心共享16MB三級緩存升級為了8個核心共享32MB三級緩存,這些最終都反映到了銳龍處理器的實戰性能上并取得了出色的效果,其中Zen 3架構甚至面對競品實現了“三年戰三代”的奇跡,銳龍7 5800X3D更是AM4平臺完美的收官之作。
而作為AM5紀元的第一代處理器架構,Zen 4相對Zen 3在同頻情況下帶來了最多13%的IPC提升,而得益于業界領先的5nm工藝,Zen 4架構更是可以提供高達5.7GHz以上的加速頻率,綜合之下單核性能最多可提升29%。而得益于5nm工藝的能效優勢,在同性能下,Zen 4相對Zen 3能效高出62%;而在同功耗下,Zen 4相對Zen 3性能高出49%。
之所以能實現更高的IPC,主要是因為Zen 4微架構在前端、執行引擎、載入/存儲和緩存等方面都有明顯的進化。此外,Zen 4還加入了可以大幅提升浮點性能的AVX-512指令集,在視頻編解碼、科學計算、AI加速方面還能獲得更多的性能增幅。
前面已經提到,AM5平臺只支持DDR5內存,而Zen 4架構的銳龍7000處理器更是內置28條PCIe 5.0通道(24條可以自由支配),這就意味著銳龍7000除了支持PCIe 5.0×16顯卡之外,還可以最多支持兩個處理器直出的PCIe 5.0×4 SSD,這一點也走在了業界前面。
此外,在內存部分,銳龍7000還專為DDR5內存推出了EXPO“一鍵超頻”技術,大幅提升內存頻率、降低內存延遲,從而獲得更佳的游戲體驗。而且使用DDR5 6000時銳龍7000的內存控制器頻率與內存頻率正好是1比1,此時擁有最佳的延遲表現。作為與Intel XMP 3.0對標的內存超頻標準,AMD EXPO也為打造更完備的AM5生態圈走出了重要的一步。
銳龍7000搭配的主板部分,AMD發布了四款600系主板芯片(組),包括X670/X670 Extreme(采用雙芯片組合)和B650/B650 Extreme,其中Extreme的版本面向發燒玩家和高性能用戶。例如頂級旗艦X670 Extreme就支持雙PCIe 5.0顯卡插槽和雙PCIe 5.0 M.2插座,還擁有600系主板中最強的超頻能力。此外,X670和B650 Extreme至少標配1條PCIe 5.0顯卡插槽和1個PCIe 5.0 M.2插座;B650至少標配1個PCIe 5.0 M.2插座。
接口部分,AMD 600系主板都配備了LGA1718的AM5處理器插座,可提供230W TDP輸出。雖然銳龍7000新的“八爪魚”造型和之前AM4銳龍不一樣,但在散熱器扣具方面是完全兼容的,只要玩家的散熱器性能夠用,就不需要進行更換,這一點也是非常貼心的設計。
當然,作為AMD重要合作伙伴的主板廠商們也在支持銳龍7000的主板方面下足了功夫、秀起了肌肉,并針對其特性開發了特有的黑科技。例如華碩ROG CROSSHAIR X670E HERO,為了保證讓銳龍9 7950X這樣的旗艦處理器充分發揮性能,就配備了18+2供電模組,DrMos芯片使用的是Vishay半導體的SiC850A(110A),非常豪華。另外,CPU供電還采用了PROCOOLⅡ高強度供電接口,提供了更加可靠的電源連接。
在強化供電設計的同時,ROG CROSSHAIR X670E HERO的VRM散熱裝甲也非常龐大,兩塊VRM供電散熱裝甲間加裝了大直徑的L型熱管,能夠將熱量有效分布在整個散熱裝甲上,增強散熱能力。
內存方面,ROG CROSSHAIR X670E HERO配備4條DDR5內存插槽,搭載華碩OptiMem II技術,最高支持6400MHz+(OC)DDR5雙通道內存。另外,除了傳統的D.O.C.P模式,該主板還支持AEMP和AMD EXPO技術,輕松實現內存一鍵超頻。
ROG CROSSHAIR X670E HERO特別能展現AM5旗艦平臺優勢之處在于板載了4個NVMe M.2 SSD插槽,其中兩個使用CPU提供的通道,支持PCIe5.0×4,另外兩個則使用X670芯片組的通道,支持PCIe4.0×4。另外,主板還附贈了一塊PCIe5.0 M.2擴展卡,可以再擴展一個PCIe5.0×4的NVMe M.2 SSD,所以主板總共可以安裝5個M.2 SSD,擴展能力非常強大。
我們知道,未來即將上市的PCIe5.0 SSD恐怕會有更高的發熱量,所以ROG CROSSHAIR X670E HERO為所有M.2 SSD都加裝了散熱裝甲,“戰未來”毫無壓力。此外,該主板也搭載了之前在ROG主板上廣受好評的M.2 Q-LATCH便捷卡扣設計,安裝NVMe M.2 SSD不再需要傳統的螺絲和螺絲刀,這也是今年主板上人性化設計的代表之作。
銳龍7000系列具備出色的高頻特性,因此ROG CROSSHAIR X670E HERO還為玩家加入了全新的AI智能超頻功能,不僅能夠自動偵測處理器和散熱器體質,給出體質評分,同時還能一鍵超頻,簡化操作,帶來輕松的超頻體驗。
另外,它還搭載了“Dynamic OC Switcher混合雙模(單/全核)超頻”技術,開啟后主板會根據處理器當前的電流和溫度表現自動在 Precision Boost Overdrive(PBO)和手動超頻模式之間切換,從而讓玩家能夠同時享受極致的單核性能和多線程性能。
總體來看,AMD這在Zen 4以及AM5平臺上交出的這份答卷令人滿意,優秀的性能、驚人的高頻率與出色的能效比加上生命周期極長的平臺支持,無論是玩家入手新電腦還是升級舊平臺,都是非常不錯的選擇。同時,從AM5平臺的“戰未來”規格也可以看出AMD的長遠計劃,普及PCIe 5.0和DDR5都將在AM5這一代平臺上實現,屆時除了廣大用戶的整體使用體驗會達到一個新高度之外,整個硬件生態圈也會得到極大的推動。
Intel篇
第13代酷睿頻率核心全面暴增,再樹性能標桿
面對AMD Zen 4咄咄逼人的攻勢,作為業內龍頭老大的Intel完全不慌,畢竟手里攥著第13代酷睿這張王牌,已然是成竹在胸。在第12代酷睿發售一年后,代號Raptor Lake-S的第13代酷睿臺式機處理器改進了制造工藝、微架構、增加了核心數量,終于在10月20日正式登場。
這次Intel喊出了“13香”的“總綱領”,總結了4大“香”點、共13大亮點。包括“平臺實力香”、“游戲玩得香”、“超頻體驗香”、“揮灑創意香”,總之就是包含了玩家和設計師用戶最關注的點,帶來更高執行效率和更好使用體驗。
第13代酷睿臺式機處理器代號Raptor Lake-S,性能核代號Raptor Cove,能效核依然是Gracemont。工藝方面,采用了進階版Intel 7,配備第3代Intel SuperFin晶體管,擁有更好的通道移動性,不但頻率可以做到更高,能效方面也會有更佳的表現。因此,性能核Raptor Cove的最高睿頻提升了600MHz,最高頻率來到了5.8 GHz。此外,Raptor Cove在標準電壓下,相對上代可提升200MHz頻率,而在標準頻率下,電壓可以降低50mV以上。同時,Raptor Cove的二級緩存也增加到了每核心2MB,同時采用了全新的動態預取算法“L2P”,進一步提升了緩存帶來的性能收益。
第13代酷睿的另一項大升級就是把能效核的數量增加了一倍,同時每個能效核集群的二級緩存也增加到了4MB,頻率最多提升了600MHz,這無疑大大增加了第13代酷睿的多線程性能,在內容創意設計類應用中會帶來更多的優勢。
相對于上代Alder Lake-S,Raptor Lake-S在內存控制器方面也進行了升級,支持的基礎頻率從DDR5 4800升級到了DDR5 5600,環狀總線頻率也最多提升了900MHz,最高可達5GHz,由此可以大幅提升內存帶寬和降低內存延遲。此外,Raptor Lake-S的三級緩存也從最多30MB升級到了最多36MB。
綜合來看,第13代酷睿使用了進階版的Intel 7工藝,Raptor Cove性能核也改進了架構、增加了緩存、能效核的數量也得到了翻倍,最高5.8GHz的睿頻頻率使得單線程性能相對上代綜合提升15%左右,多線程性能更是提升了40%以上,確實堪稱飛躍式的進步。很明顯,酷睿i9 13900K同時解決了生產力和游戲兩方面的高性能需要,稱得上是當下綜合性能登頂的處理器。
第13代酷睿在主板搭配方面的靈活性優勢也非常明顯。由于依然采用LGA1700接口,第13代酷睿是可以完全兼容上代600系主板的,也就是說在B760上市之前,特別在意價格的玩家也可以用性價比極高的B660 DDR4主板來搭配第13代酷睿,從而大幅降低裝機成本。
當然,對于追求極致性能的發燒玩家來講,要發揮出第13代酷睿旗艦處理器的全部潛能以及享受新平臺的新功能,還是需要選擇一款足夠強力的Z790主板才行。作為Intel的核心合作伙伴之一,技嘉旗下的Z790主板就以豪華堆料和各種實用功能著稱,其中的Z790 AORUS MASTER超級雕就是一款極具代表性的豪華款Z790。
技嘉Z790 AORUS MASTER超級雕配備了20+1+2相直出式數字供電,其中20相處理器供電配備了105A電源級芯片,在高品質MOS芯片和鉭聚合物電容的加持下,響應更快、紋波和工作溫度更低。Z790超級雕還為VRM供電電路配備了超大超厚的散熱裝甲,具備第三代堆棧式散熱鰭片,并增加了納米碳涂層,有效提升了散熱面積和散熱效率。
內存部分,Z790超級雕配備了SMD內存插槽,并使用了第二代低損耗PCB,大幅增強電氣性能,可支持到DDR5 8000+的極高頻率。此外,玩家既可以一鍵超頻內存享受極速,也可選擇內存自動超頻,在系統高負載的時候自動提升內存頻率。
主板提供了4個M.2插座,其中第一條加裝金屬裝甲,支持PCIe 5.0×4,并最高可支持安裝新的25110規格SSD,第三條M.2插槽也可支持2580規格。為了保證高速SSD穩定工作不掉速,主板給全部M.2插座都配備了散熱裝甲,其中第一條更是配備了第三代M.2散熱裝甲,超大的散熱片可輕松吸收PCIe 5.0 SSD的熱量。易用性方面,Z790超級雕提供了EZ-Latch Plus免工具快拆設計,M.2 SSD和顯卡拆裝更輕松。總的來說,Z790超級雕稱得上是玩家體驗第13代酷睿的豪華座駕,打造旗艦主機的發燒之選。
面向追求主機體積小巧化的性能級用戶,也有性價比十分突出的MATX中板Z790主板產品涌現,例如七彩虹CVN Z790M FROZEN D5 V20戰列艦。這款主板的設計靈感來自于戰艦,主板PCB依然是大家熟悉的白色霧化涂裝,棱角分明的散熱片表面加入了炫彩護甲絲印,同時主板供電模塊散熱片上印著類似于戰艦弦號風格的“79”字符,突出了主板芯片的身份。
供電部分,主板采用了豪華的12+1相混合數字供電設計,搭配最大輸出電流達到55A的三合一封裝Dr.MOS芯片、F.C.C鐵素體電感以及10K黑金固態電容,搭配第13代酷睿中的高端型號,也能保證充足而穩定的供電。主板在供電模塊、主板芯片組以及M.2接口等部分還采用了寒霜冷凝散熱設計,搭配高導熱硅膠片,能有效增強熱傳導效率,而更大面積的寒霜散熱裝甲增大了與空氣的接觸面積,提供更好的散熱效果。
七彩虹CVN Z790M FROZEN D5 V20戰列艦提供了4條DDR5內存插槽,專門針對第13代酷睿處理器的需求進行了內存線路的優化設計,最高可以支持XMP 6400MHz的內存頻率。
雖說這款主板采用MATX板型,但是在擴展能力上依舊表現出色。它提供了1條PCIe 5.0×16顯卡插槽,支持Resizable BAR技術,帶來更強的游戲性能體驗。主板還提供了3個M.2 SSD插槽,均具備PCIe 4.0×4通道,能夠滿足玩家對高速存儲的擴展需要。此外主板還給其中2個M.2插槽配備了寒霜冷凝裝甲,可以避免高速SSD過熱降速。
網絡方面,主板配備了2.5Gbps有線網卡和WiFi6無線網卡,不管是要高速傳輸數據還是更低的網絡延遲,都能滿足需求。
當然,七彩虹CVN Z790M FROZEN D5 V20戰列艦這樣的MATX板型Z790,最大的優勢還是在市售Z790大多為ATX板型的情況下,為玩家嘗鮮第13代酷睿打造小鋼炮主機提供了一個各方面都比較優秀的高性價比選擇。
由此可見,技術實力強悍的主板廠商大都針對第13代酷睿推出的高端700系主板在多個方面進行了強化設計,例如更高的供電規格、更強大的VRM散熱裝甲、支持PCIe 5.0 SSD(拆分自顯卡×16通道)并添加厚實的散熱片、支持高頻DDR5內存等等,這些都是為了讓第13代酷睿平臺能夠為玩家和用戶提供更好的使用體驗,并帶來不錯的升級空間。
綜合來看,Intel的第13代酷睿雖說也是按路線圖“Tick-Tock節奏”推出的產品,但得益于進階版Intel 7工藝的成熟,在絕對性能上確實實現了后發制人的目標,而且在平臺搭配的靈活度方面也稱得上是抓到了用戶的痛點。不管是追求極致性能的發燒友還是追求極致性價比的大眾用戶,都可以找到適合自己的第13代酷睿板U組合,而等到第13代的非K系酷睿i5/i3上市,Intel在中低端市場的競爭力還會更加強勢。當然,Intel明年的Meteor Lake也非常值得期待,它采用多芯片設計,主要包含Compute Tile、IO Tile和SOC Tile三大部分,而內置的圖形單元也采用了全新的tGPU架構,屆時會帶來全新的計算、AI與圖形性能體驗。
總結:2022核心平臺戰局已定,2023大招迭出更加精彩
2022年核心平臺的大戰可謂十分精彩,AMD秉承“戰未來”的一貫策略,Zen 4和AM5平臺在制程工藝、能效比、擴展規格方面意識超前,繼續保持領先,開啟了AM5的全新“五年計劃”,選擇AM5平臺也就意味著將來可以無縫升級到Zen 5或者更新的銳龍處理器。同時,AMD手中還攥著3D V-Cache這一大幅提升游戲性能的黑科技王牌,在2023年里合適的時候能夠發出強力一擊,拿下更多的市場份額。
Intel第13代酷睿則得益于進階版Intel 7工藝的進一步成熟,實現了更高的工作頻率并集成了更大的緩存和更多的能效核,在絕對性能方面占據了有利地位,而靈活的主板搭配也進一步平滑了升級過程,降低了大眾用戶的升級成本,進一步鞏固了其在主流市場的霸主級地位。而在2023年里,不出意外的話,Intel將推出代號Meteor Lake的新一代酷睿處理器,采用全新的Tile多芯片設計,在計算、AI和圖形方面都會帶來更加出色的體驗,和Zen 5之間的對決也將格外精彩。
主板方面,2022年里各大廠商隨著AMD和Intel兩大巨頭的步伐,不斷針對兩家新處理器的特性去開發一些特殊的功能,例如針對銳龍7000的供電策略與溫控優化、內存帶寬與延遲優化,針對第13代酷睿的AI超頻等等。這些不但會給用戶帶來更好的使用體驗,也增強了主板產品自身的市場競爭力。由此可見,改善產品使用體驗,注重易用性也是核心平臺中主板環節發展的主要方向。
總而言之,2022年核心平臺的戰局已定,而硬件巨頭們蓄勢待發的2023必將更加精彩。