鎖存器將多路復用器與陣列解耦
發布時間:2020/8/23 10:50:18 訪問次數:8142
新型數據中心的處理器芯片——power10,這款芯片由三星電子生產,采用7nm euv(極紫外光刻)工藝,其性能將是上一代的3倍。power系列是ibm面向企業級用戶推出的高性能處理器芯片,最早由ibm自己生產,然后交給格芯負責代工,后者是一家位于美國的半導體晶圓代工廠商,也是世界第三大晶圓代工廠,現在再交給三星電子。
ibm建立晶圓工廠的目的是為自家產品提供生產服務,幫市場代工不是主要考慮。由于英特爾的強勢競爭,ibm的處理器產品在市場逐漸邊緣化,導致ibm銷售的處理器數量很難填補工廠的龐大產能,這意味著制造均攤的成本大幅增加。半導體制造是個需要時刻保持更新的行業,生產工藝每數年升級一次,動輒耗資數十億美元,如果沒有大量出貨,那么很難負擔制造成本。
隨著制造成本增加,ibm逐漸減少對半導體制造部門的投資。根據gartner市調公司的調查數據顯示,ibm公司在半導體制造領域以10億美元的資本支出位列全球第11位;這一排名已跌出20名開外。
鎖存器將多路復用器與陣列解耦,從而減小位緩存行上的電容,進而降低每次sram存取的功耗。但更大的好處是,在讀操作之后,完整的256位輸出仍位于鎖存器中。如果隨后的讀操作訪問下一個遞增存儲器地址,那么可以從鎖存器中讀取該值,而根本無需驅動陣列。對于從很長的一系列順序地址讀取數據的程序,此設計只需在25%的時間內為sram陣列供電。考慮到包括多路復用器和鎖存器的整個電路,格芯估計:相對于標準編譯的sram,cnn工作負載的功耗可降低53%。由于時序約束變得寬松,新的sram也縮小了25%。
盡管mac單元的功耗僅占總功耗的一小部分,但其面積常常占總芯片面積的最大部分。新設計具有一個16x16位乘法器,與高端cpu所需的64位設計不同。基數為4的booth乘法器饋入一個48位加法器,以進行高精度累加。對于cnn推理中常見的8位整數(int8)數據,可以將mac單元拆分為每個周期產生兩個8x8乘法,并進行24位累加。格芯的目標工作頻率為1.0ghz,物理設計因而得以簡化,功耗和芯片面積得以減小。新的mac單元比之前的12lp單元小12%;在相同電壓下都以1.0ghz運行時,所需的功耗減少25%。
在典型的脈動mac陣列中,新的sram和mac設計使總功耗比之前的12lp技術降低了三分之一,而降低工作電壓又使總功耗降低了三分之一。
相對于其10nm節點,其7nm技術可使時鐘速度提高多達20%,功耗降低多達40%(參見mpr 5/20/19,“euv工藝實現量產”)。這些最佳情況下的數字都假定晶體管的負載很輕。復雜的處理器設計通常受限于金屬電容而不是晶體管速度,因此只能獲得上述好處的一半或更少。如前所述,nvidia的7nm a100比其12nm的前代產品要慢,而高通公司首款7nm處理器snapdragon 855的最大cpu速度僅比snapdragon 845提高了2%。臺積電預期5nm的收益將小于7nm,因為更多地使用euv會增加每片晶圓和流片的成本。
格芯的12lp+提供了一條替代路徑,與臺積電的7nm相比,功耗大幅降低,成本則沒有增加。功耗降低主要歸功于新的雙功函數晶體管,它支持0.55v電壓選項。臺積電的7nm技術提供超低vt (ulvt)晶體管,其工作電壓最低為0.6v。臺積電長期以來服務于智能手機客戶,專注于低壓操作,而格芯更側重于pc,直到最近才發生改變,因此其在這方面的進步在很大程度上是彌補差距。
與nvidia的新產品a100相比,groq tsp的性能更強勁(以每秒萬億次運算或tops衡量),而功耗卻更低。tenstorrent的性能目標較低,但功效(每瓦tops)是a100的三倍。
(素材來源:eepw和chinaaet.如涉版權請聯系刪除。特別感謝)
新型數據中心的處理器芯片——power10,這款芯片由三星電子生產,采用7nm euv(極紫外光刻)工藝,其性能將是上一代的3倍。power系列是ibm面向企業級用戶推出的高性能處理器芯片,最早由ibm自己生產,然后交給格芯負責代工,后者是一家位于美國的半導體晶圓代工廠商,也是世界第三大晶圓代工廠,現在再交給三星電子。
ibm建立晶圓工廠的目的是為自家產品提供生產服務,幫市場代工不是主要考慮。由于英特爾的強勢競爭,ibm的處理器產品在市場逐漸邊緣化,導致ibm銷售的處理器數量很難填補工廠的龐大產能,這意味著制造均攤的成本大幅增加。半導體制造是個需要時刻保持更新的行業,生產工藝每數年升級一次,動輒耗資數十億美元,如果沒有大量出貨,那么很難負擔制造成本。
隨著制造成本增加,ibm逐漸減少對半導體制造部門的投資。根據gartner市調公司的調查數據顯示,ibm公司在半導體制造領域以10億美元的資本支出位列全球第11位;這一排名已跌出20名開外。
鎖存器將多路復用器與陣列解耦,從而減小位緩存行上的電容,進而降低每次sram存取的功耗。但更大的好處是,在讀操作之后,完整的256位輸出仍位于鎖存器中。如果隨后的讀操作訪問下一個遞增存儲器地址,那么可以從鎖存器中讀取該值,而根本無需驅動陣列。對于從很長的一系列順序地址讀取數據的程序,此設計只需在25%的時間內為sram陣列供電。考慮到包括多路復用器和鎖存器的整個電路,格芯估計:相對于標準編譯的sram,cnn工作負載的功耗可降低53%。由于時序約束變得寬松,新的sram也縮小了25%。
盡管mac單元的功耗僅占總功耗的一小部分,但其面積常常占總芯片面積的最大部分。新設計具有一個16x16位乘法器,與高端cpu所需的64位設計不同。基數為4的booth乘法器饋入一個48位加法器,以進行高精度累加。對于cnn推理中常見的8位整數(int8)數據,可以將mac單元拆分為每個周期產生兩個8x8乘法,并進行24位累加。格芯的目標工作頻率為1.0ghz,物理設計因而得以簡化,功耗和芯片面積得以減小。新的mac單元比之前的12lp單元小12%;在相同電壓下都以1.0ghz運行時,所需的功耗減少25%。
在典型的脈動mac陣列中,新的sram和mac設計使總功耗比之前的12lp技術降低了三分之一,而降低工作電壓又使總功耗降低了三分之一。
相對于其10nm節點,其7nm技術可使時鐘速度提高多達20%,功耗降低多達40%(參見mpr 5/20/19,“euv工藝實現量產”)。這些最佳情況下的數字都假定晶體管的負載很輕。復雜的處理器設計通常受限于金屬電容而不是晶體管速度,因此只能獲得上述好處的一半或更少。如前所述,nvidia的7nm a100比其12nm的前代產品要慢,而高通公司首款7nm處理器snapdragon 855的最大cpu速度僅比snapdragon 845提高了2%。臺積電預期5nm的收益將小于7nm,因為更多地使用euv會增加每片晶圓和流片的成本。
格芯的12lp+提供了一條替代路徑,與臺積電的7nm相比,功耗大幅降低,成本則沒有增加。功耗降低主要歸功于新的雙功函數晶體管,它支持0.55v電壓選項。臺積電的7nm技術提供超低vt (ulvt)晶體管,其工作電壓最低為0.6v。臺積電長期以來服務于智能手機客戶,專注于低壓操作,而格芯更側重于pc,直到最近才發生改變,因此其在這方面的進步在很大程度上是彌補差距。
與nvidia的新產品a100相比,groq tsp的性能更強勁(以每秒萬億次運算或tops衡量),而功耗卻更低。tenstorrent的性能目標較低,但功效(每瓦tops)是a100的三倍。
(素材來源:eepw和chinaaet.如涉版權請聯系刪除。特別感謝)
上一篇:高帶寬存儲器混合晶圓鍵合技術
下一篇:時序模型布線晶圓的差異化
熱門點擊
- 可充電固態電池電源管理集成電路
- 高壓交流輸電模式直流電源
- 主動動態電壓與頻率調節
- 低熱阻抗和高效能力限度地散熱問題
- 控制器支持初級側穩壓技術
- 反激式副邊同步整流器驅動器
- 如何避免分立光源器件組合
- 電壓法測電阻兩端的電壓降
- 音頻和傳感器加速器的性能強大
- 極高頻率的轉換開關電路
推薦電子資訊
- iPhone5S/iPhone5C獲工信部認證
- 庫克一直看好中國市場的巨大潛力,并且自去年3月以來他已... [詳細]