農林漁牧網

您現在的位置是:首頁 > 漁業

IBM下一代Z系列處理器''Telum'':或展示了CPU快取的未來

2022-05-20由 超能網 發表于 漁業

cpuz怎麼設定中文

在上個月舉行的HotChips 33上,IBM公佈了其下一代Z系列處理器“Telum”。這款處理器採用了全新的核心架構,針對AI加速做了最佳化。其配置了8核16執行緒,頻率超過5GHz,採用了三星7nm工藝製造,核心面積為530平方毫米,集成了225億個電晶體,擁有全新的分支預測、快取和多晶片一致性互連。

IBM的Z系列處理器以擁有大型L3快取而出名,並有單獨的全域性L4快取,可作為多個處理器之間的快取。不過在Telum上,不但沒有了L4快取,而且L3快取也沒有了。要知道無論英特爾還是AMD,現在都儘可能增大L3快取容量或增加L4快取以提高效能,比如在AMD採用3D垂直快取(3D V-Cache)技術的Zen 3架構桌面處理器,為每個CCD帶來額外的64MB 7nm SRAM快取。

近日,Anandtech發表了一篇文章,討論了Telum的快取架構。

IBM下一代Z系列處理器''Telum'':或展示了CPU快取的未來

現代的處理器普遍都有多級快取,至於為什麼會這樣,可以看我們《超能課堂(133):為什麼CPU快取會分為L1、L2、L3?》簡單瞭解一下。簡單來說,越靠近執行埠的快取越小但越快(比如L1),快取越多且越大那麼訪問所需的週期就越長(比如L3)。快取除了大小,延遲也很重要,通常快取越大延遲越大,快取命中率也會更低。

為了更有效利用快取,晶片設計公司需要分析這款處理器將用於哪方面的工作負載,以提高設計的效率。IBM的產品一般都是大型主機使用,大多是政府或銀行這樣的客戶,對安全性和穩定性極高,這些產品都有故障安全和故障轉移功能。

IBM在上一代Z15產品上,基本單元是一個由五個模組構成的系統,其中四個是計算模組(CP),一個是控制模組(SC)。四個計算模組每個有12個核心和256MB共享的L3快取,核心頻率為5。2 GHz,面積為696平方毫米。四個計算模組兩兩配對,各自與控制模組相連。控制模組擁有960MB的L4快取,並與四個計算模組共享。Z15採用了IBM和GlobalFoundries聯合研發的14nm FinFET SOI特殊工藝製造,L1和L2快取與核心頻率一樣都是5。2 GHz,L3和L4快取則是半速的2。6 GHz。

這意味著單個IBM Z15系統是25塊696平方毫米的晶片組成,共有20 x 256MB的L3 快取,還有5 x 960MB的L4快取,以全對全拓撲連線。

IBM下一代Z系列處理器''Telum'':或展示了CPU快取的未來

IBM沒有將新一代產品稱為Z16,而且稱為Telum,可能是因為對快取的採用了不同的處理方法。Telum採用三星7nm工藝製造,單晶片擁有8個核心,面積為530平方毫米。IBM將兩個晶片封裝在一起,將四個同樣封裝的處理器組成一個單元,然後將四個同樣的單元組成一個系統,整個系統共有32個晶片和256個核心。

IBM為每個核心配置了32MB的L2快取,這比一般的處理器大得多,而且取消了核心之間共享的L3和L4快取。一般來說,這樣的設計會使得快取有很高的訪問延遲。IBM採取的方法是,透過私有物理快取裡打造共享虛擬快取的方法解決,意思是將平時需要放置在L3快取裡的部分標記為L3快取線存在不同核心空餘的L2快取裡。L2和L3快取在物理上是一致的,但是可以根據工作負載的需要,包含來自不同核心的L2和L3快取線的混合。這意味著一個晶片8個核心裡,8 x 32MB共256MB的L2快取也可以視為“虛擬”L3快取。

相似的方法IBM也用在了原來的L4快取上,L2快取裡也可以容納L4快取線。從單個核心的角度來看,在一個基於Telum打造標準的系統,可以訪問32MB的L2快取,256MB的共享虛擬L3快取,以及8GB的共享L4快取。IBM表示,使用這種虛擬快取的系統,每個核心的快取相當於Z15的1。5倍,而且還改善了資料訪問的平均延遲,效能提高了40%以上。

IBM下一代Z系列處理器''Telum'':或展示了CPU快取的未來

在具體執行中如何降低延遲和保證命中率是一個非常複雜的操作,加上功耗、快取在斷電和空閒等狀態下如何保證單核心工作負載的一致性,這都是IBM需要考慮的問題。可以思考一下,如果AMD使用3D V-Cache技術堆疊的不是L3快取,而是L2快取,同樣採取虛擬L3快取線的方式,這樣的微架構對效能會有怎樣的影響?