欄目導航

新聞資訊

新聞資訊

CSDN 編者按】內存的性能指標主要有“帶寬”和“加載時間”，當內存性能與 CPU 性能不匹配時，就產生了內存墻，本文以杰克·唐加拉在圖靈獎主題演講為引子，對如何打破“內存墻”做了一些思考，希望未來軟硬件能夠協同設計，從而解決內存墻的問題。

原文鏈接：https://www.nextplatform.com/2022/12/13/compute-is-easy-memory-is-harder-and-harder/

作者 | Timothy Prickett Morgan

譯者 | 無阻我飛揚

出品 | CSDN（ID：CSDNnews）

在一個時鐘周期內，如果無法以足夠快的速度獲取數據，從而使用計算引擎以某種方式處理它，那么包含在矢量或矩陣單元中的浮點運算又有什么用呢？答案顯然是沒啥用。

幾十年來，人們一直在討論計算和內存帶寬之間的不平衡，而且每年高性能計算行業都不得不接受單位浮點運算所對應的內存帶寬越來越低的現實，因為增加內存帶寬在某種程度上非常困難，而且最終成本也非常高昂。

而在我們考量這個問題的同時，增加內存容量也變得越來越困難，因為內存擴容也面臨著摩爾定律的壓力，這讓廠商越來越難以制造出密度更高、速度更快的內存，因此內存的價格不降反升。換言之，幾十年前夢想的那種大容量存儲機器并沒有出現。

杰克·唐加拉( Jack Dongarra) 在圖靈獎主題演講中，敏銳地提到了這一點。他是 Oak Ridge National Laboratory 計算機科學與數學部杰出研究人員，兼田納西大學電氣工程與計算機科學系特聘教授，被 The Next Platform 讀者所熟知。唐加拉在圖靈獎主題演講中講述了他如何出人意料地進入了超級計算機行業，并成為衡量這些超級計算機系統性能的專家——主要是因為他是團隊的一員，隨著超級計算機架構每十年左右發生變化，該團隊不斷改進數學庫。如果還沒有看過這篇主題演講，建議你看一看（https://www.youtube.com/watch?v=cSO0Tc2w5Dg）。這段歷史令人著迷，它預測了隨著架構的不斷發展，我們將如何繼續發展軟件。

當觀看唐加拉的主題演講時，腦海中浮現的是當今處理器中相對于內存帶寬的大量超額配置，讓人產生共鳴，同一周，英特爾宣布了即將推出的“Sapphire Rapids”至強 SP 服務器 CPU 的一些基準測試結果，顯示了 HBM2e 堆疊內存的優勢，其內存帶寬大約是現代服務器 CPU 中使用的普通 DDR5 內存條的 4 倍。（Sapphire Rapids 提供 64 GB HBM2e 內存選項，可以與 DDR5 內存一起使用，或選擇 HBM2e。）HBM2e 高帶寬內存的優勢表明，故障率和帶寬的關系有多大，如下圖：

如您所見，向 Sapphire Rapids CPU 添加 HBM2e 內存并不會對杰克·唐加拉鐘愛的高性能 Linpack (HPL) 矩陣數學基準測試產生太大影響，這是因為 HPL不受內存限制。但是高性能共軛梯度(HPCG：High Performance Conjugate Gradients)和 Stream Triad 基準測試，受內存影響非常大，確實可以通過轉向 HBM2e 實現性能提升（我們假設測試的機器有一對 top bin，60 核 Sapphire Rapids 芯片）。在正常情況下，HPCG 測試可能是最準確的測試，反映了一些非常困難的 HPC 應用程序的真實編寫方式（而且是出于需要，而不是選擇），考慮到全球最快超級計算機的各時段平均算力利用率也就 1% 到 5% 之間，那么將 3.8 倍的性能提升擴展到數千個節點，確實會帶來非常大的改進。（這一點還有待觀察，HPCG 是將（或不會）顯示它的測試。

那么，flops 和內存帶寬之間到底有多大差距?杰克·唐加拉展示了隨著超級計算的每一次架構革命的到來，情況變得越來越糟糕：

下面是唐加拉展示的圖表的放大圖：

“當我們在今天的機器上查看性能時，會發現數據移動才是制約速度的瓶頸，”Dongarra 解釋道。“我們研究浮點執行率除以數據移動率，研究不同的處理器。在過去，處理器基本上每一次數據移動都匹配一flops——這就是它們的平衡方式。大家可能還依稀記得原先的 Cray-1s，可以同時進行兩個浮點運算和三個數據移動。但隨著時間的推移，處理器改變了平衡。

在接下來的二十年里，這種失衡又擴大了一個量級。也就是說，現在每次數據移動執行十次浮點運算。而最近，我們甚至發現每次數據移動開始對應上百次、甚至 200 次浮點運算。也就是說，浮點數和數據移動之間存在巨大的失衡。所以我們擁有強大的算力——為算力提供了過多的資源——但在系統中沒有非常有效地移動數據機制，也就是說這些算力根本用不起來。”

從圖表中可以看出，隨著超算系統架構的升級，失衡狀況也變得越來越嚴重。我們認為，轉向 HBM2e 甚至 HBM3 或 HBM4 和 HBM5 內存只是一個開始。CXL 內存也能部分解決這個問題。由于 CXL 內存的速度比閃存快，所以我們喜歡將其作為系統架構師的工具。但是系統中只有這么多的 PCI-Express 通道可以在節點內部進行 CXL 內存容量和內存帶寬擴展。盡管共享內存很有趣，而且對于 HPC 模擬和建模以及 AI 訓練工作負載可能非常有用——同樣，因為它的性能比閃存更高——但這并不意味著這一切都能負擔得起。

我們還不清楚 Sapphire Rapids 上的 HBM2e 內存選項的成本是多少。如果它將內存受限的應用程序性能提高了 4 到 5 倍，但 CPU 的成本卻增加了 3 倍，那么這并不是真正意義上的功率性能提升，而這正是架構選擇的關鍵所在。

新一代至強 SP 上的 HBM2e 內存選項是朝著正確方向邁出的一大步。但如果想讓算力和內存恢復平衡，可能在 L1、L2 和 L3 緩存中擁有更多的 SRAM 比添加內核更重要。

獲得圖靈獎，唐加拉有機會對這個行業進行一番說教，他很感激有這樣一個機會。下面詳細引用他的原話，希望大家認真傾聽。

“我一再強調機器的失衡，”唐加拉說。“時至今日，我們基于 AMD 或英特爾的現成商用處理器、加速器、現成的互連線來建造機器，并沒有根據將要用于驅動它們的應用程序的具體情況來設計硬件。所以也許我們應該退后一步，仔細看看架構應該如何與應用程序交互，與軟件協同設計，但現實是今天很少有與硬件協同設計的情況。可以從這些數字中看出，協同設計的情況很少。也許一個好的——更好的——指標，正在日本產生，在日本，架構師與硬件人員有更密切的互動，從而一起設計出具有更好平衡的機器。因此，如果要著眼于前瞻性研究項目，接下來是時候把注意力轉回架構上來了，并讓架構更好地反映在應用程序中。總之，我們應當在硬件、應用程序和軟件之間取得更好的平衡——真正參與協同設計。我當初上大學的時候，學校正在開發將機器組裝在一起的架構。伊利諾伊州就是一個很好的例子——斯坦福大學、麻省理工學院、CMU。其他地方成立了硬件項目，正在研究架構。今天，我們看不到這種情況。也許我們應該考慮把一些研究資金——也許是能源部的資金——投入到這項工作的機制中。”

我們完全同意硬件-軟件協同設計，認為架構應該反映運行它們的軟件。坦率地說，如果一臺 exascale 機器的成本為 5 億美元，但只能使用 5% flop 來做實際工作，那么考慮性價比的話，這就好比花 100 億美元購買一臺以 100% 利用率運行的 100PB 浮點運算機器。按照唐加拉建議的方式去做，未來所有超級計算機將更加獨特，雖然通用性降低，設計成本也更高，但其每瓦性能、單位算力成本、單位內存帶寬性能和單位內存帶寬成本都將遠遠優于現有超算在 HPCG 等測試中的表現。我們必須讓這些 HPC 和 AI 架構重新步入正軌。

受到唐加拉和他同行的啟發，未來的研究人員需要解決這個內存帶寬問題，而不是將其掩蓋，放任不管。或者，用一個很好的隱喻形象來說更好——不要像暴徒襲擊那樣把它卷在地毯里，然后把它放進林肯車的后備箱，扔到草地上。事實上，100 倍或 200 倍的差距是一種經濟犯罪的表現。

在DDR5內存條已經開始大規模普及了，但是得要買新平臺和處理器才能用得上D5內存條。但是對于大部分用著老電腦平臺的用戶來說，想要升級電腦內存，D4內存條還是首選。趁著現在雙十一期間，應該選什么D4內存比較合適呢？正好我最近收到了一對玖合的星耀DDR4 RGB內存條，來給大家測測具體如何把。

外觀介紹：

玖合內存的包裝非常的簡潔，整體采用紅紫搭配，暗示大紅大紫把。包裝右下角可以看到羽毛球世界冠軍孫瑜為玖合品牌的代言人。像電腦內存這種產品，壞的概率非常非常的小，只要不去人為的超頻損壞，自然使用損壞的概率和中大獎差不多，所以絕大部分廠家都是采用了終生質保的政策，只要公司還在就會給你修。玖合同樣為終生質保政策，不用擔心質保的問題。

內存條本體為純白色，雙面并搭配了卡通太空小人作為裝飾圖案，有那么點的可愛。內存條的另外一面有貼著內存條參數貼紙。

從貼紙上可以看出內存條為16G單條容量，開啟XMP功能后為3200MHz的頻率，內存時序為18-22-22-42，并帶有RGB燈光。從參數上來看內存頻率和時序比較保守，帶來的好處就是不挑主板和CPU，適合對內存要求不高的用戶使用。

另外內存在頂部發光區域做成了類似切割鉆石的形狀，帶來的視覺效果確實有點好看。

雖然包裝上沒有寫支持AURA等各主板廠家的燈控軟件，但是實測是可以用燈控軟件進行燈光設置的，還可以搭配其他硬件進行燈光聯動。

性能測試：

測試所用的處理器為14代旗艦級處理器—I9 14900K，8個性能核心和16個效能核心，一共為24個核心。并且也向下兼容DDR4內存條，正好可以用來做測試使用。

而主板選擇了微星Z790 EDGE WIFI DDR4主板，由于I9 14900K的功耗相對于上一代I9 13900K高了不少，所以得選一個供電強的Z790主板才行，正好這款微星Z790刀鋒主板能夠滿足要求，并且主板可以使用DDR4內存條。

首先使用Thaiphoon Burner軟件來看看內存的具體信息把，內存采用的是三星的B Die顆粒，玩過D4內存條的都知道，D4時代里面就屬B Die顆粒是最好超頻的了，輕松過4000MHz的頻率。這條內存只給到了3200MHz的頻率，還是有些超頻空間的。另外內存支持XMP超頻。XMP標準為2.0，并只給了一對XMP參數，3200MHz的頻率也不算高，絕大部分主板開啟XMP不會失敗的，沒有必要再給多個XMP參數了。

開啟XMP到3200MHz頻率后，使用AIDA64軟件的Memory Benchmark來跑個分看看，其中讀取速度為47204 MB/s，寫入速度為40449 MB/s，復制速度為44896MB/s，內存延時為79.6ns，整體成績還算是可以的，符合這個頻率的成績了。對于絕大部分用戶來說可以很好的滿足日常使用需求了。

總結：

綜合使用下來，JUHOR玖合這款星耀RGB DDR4 3200 32GB（16GBX2）系列內存使用下來非常的問題，32G的大容量空間可以使得像視頻制作、渲染等吃內存容量的軟件能很好的滿足。而且它采用更為廣泛使用的三星芯片，對于老平臺的兼容性和穩定性更強，超頻性能也有一丟丟，價格方面目前京東為449元，性價比很不錯，如果對這款內存有購入的想法，不妨可以持續留意雙十一動態，說不定價格還會更優惠。

存價格持續下降，加上新平臺的推出和內存的換代，讓很多用戶開始考慮升級或新購內存。而在看似很容易的內存匹配、安裝、設置等方面，卻會出現不少意料之外的問題，讓不少用戶感到非常疑惑，影響了選購和正常的使用。本篇就讓我們來了解一下這些問題產生的原因和解決方法吧。

○ 小容量內存條不用扔

　　如今迫切需要升級內存的電腦，很多是在裝機時購買，或升級時留用了小內存條，現在主板還留有富余的內存插槽。但如今的市場中小容量內存條不僅數量很少，容量價格比也遠不如8GB/16GB內存，更會使得插滿插槽的容量也不太大，難以安心應對未來的應用，我們該怎么處理這個問題呢？

　　其實CPU和主板很早就支持非對稱的雙通道模式了。有4個插槽的主板是最方便的，原先即使是雙內存也不會浪費，把兩條小容量內存放到一個通道的兩個插槽中，新的大容量內存插在另一個通道插槽中就行，比如（2+2）+4的方式（圖1），也可以湊成雙通道。當然，如果再次選購一對內存就更好了，注意安裝時也要參考圖1，將對應容量的內存條插在每個通道的對應位置。

（圖 1：英特爾官方網站的示意圖）

　　至于已經固定了一條內存的筆記本或者雙插槽的主板，就只能用上一大一小的兩條內存了（圖2），這樣也能組雙通道，不過雙通道部分的容量只有小容量那條×2，剩余的容量會作為單通道使用，讀寫這一部分內存時的性能會略低一些。當然，系統也會優先使用雙通道，只有內存需求過大時才會調用單通道內存部分，性能還是有一定保證的。

（圖 2）

　　一般來說，電腦會自動識別并組成這種雙通道模式，如果沒成功的話，大家可以看一看BIOS的內存相關設置中是否有類似dual channel、Rank一類的選項，把它打開或設置成AUTO就好了。

（圖 3）

○ 這些參數更重要　

　　這里要注意的是，升級的內存應與原有內存在頻率、響應速度、電壓方面相同或至少盡量接近。因為在實際工作時，系統會以速度較低的內存為基準運行，頻率和響應值越接近，性能越不會浪費。而現在主板一般是采用統一內存電壓的設置，如果新舊內存電壓相差較大，則使用較低電壓可能造成供電不足，運行不穩定，設置較高電壓缺會影響內存使用壽命甚至直接造成損傷。特別是有些內存在高低頻率下需要的電壓不同，這點在設置、使用時也要注意（圖4）。

（圖 4）

○ 單通道雙內存的麻煩

　　不過在單通道上安裝兩條內存的方式有可能會出現一個問題，在默認狀態下，內存變成了奇怪的低頻率，開啟XMP內存優化功能也沒有用，甚至還可能失效。而且即便是裝機直接使用同品牌同型號的內存也很可能出現這個問題，因為病根就不在內存上。

　　其真正的原因來自主板內存插槽的設計，只有在線路長度相同的情況下，才能保證內存通信的延遲完全一致。在當前常見的雙通道內存設計中，只有兩個插槽的主板上，這兩個線路分別連接一個插槽，叫直連模式（圖5）。近處的內存插槽A線路會設計成曲折迂回的樣子（圖6），使其和遠處的內存插槽B線路一樣長。

（圖 5）

（圖6）

　　四個插槽時，最簡單的方法就是每個通道先連接一個插槽，然后從這個插槽出發“擴展”到第二個插槽（圖7），叫做菊花鏈模式。如果內存分別插入遠端的A2、B2插槽，那內存的線路是完整的，沒有殘缺也沒有折回，性能發揮優異；但如果先使用A1、B1插槽，那么延長的空線路就會有干擾。

（圖 7）

　　而且這種連接方式下，每通道的兩個插槽線路長短肯定不同，造成數據信號的延遲不一致，當插滿4條內存時當然無法用XMP統一設置內存參數，強行全部設置為高頻率甚至可能出現無法開機等嚴重問題。

　　還有一種連接方式是將每個通道先分成兩個線路，然后連接到相應插槽上（圖8），這叫T型（T-Type）連接，這樣四個插槽的線路長度一致，插上內存后的延遲也一樣。不過這使得線路延長了，對內存性能有影響，而且一個通道的兩個插槽內存信號如果不能完全同步，信號也會更亂。

（圖 8）

　　在DDR3、DDR4內存中，通過加壓等手段，還可以強制讓每通道的兩條內存盡量同步，但在新平臺使用的DDR5 5200以上頻率內存中，微小的差異也會造成很嚴重的相互干擾，銳龍7000甚至不得不在這些情況下強制降頻到3600以減少干擾（圖9），提升兼容性。所以在選擇這一平臺時，就只能考慮使用一對內存了，未來升級時最好也以舊換新而不要直接添加為雙通道4內存模式。CF

（圖9）

原文刊登于2022 年 10 月 1 日出版《電腦愛好者》第 19 期

欧美vvv,亚洲第一成人在线,亚洲成人欧美日韩在线观看,日本猛少妇猛色XXXXX猛叫

外觀介紹：

性能測試：

總結：