高帶寬存儲器混合晶圓鍵合技術
發布時間:2020/8/23 10:47:37 訪問次數:9647
經濟全球化進程加快、國際分工理念廣泛得到認同,美國一些idm(集芯片設計、制造、封裝和測試等多個環節于一身的運營模式)企業逐漸將芯片制造部門剝離出去,轉型成為fabless企業,就如今天文章的主人公ibm類似,這推動了美國芯片制造業務大量向亞洲區域轉移。
半導體制造部門具有很高的資金和技術壁壘,需要持續研發更優的生產工藝和投入巨資改良生產線,這種行業特點容易造成強者愈強的局面。亞洲地區的半導體企業專注晶圓代工環節,并緊貼市場需求變化,這意味著它們的生產線迭代速度能夠保持行業最快。伴隨著時間的推進,亞洲地區逐漸發展出最成熟的半導體制造業務,并涌現了一批高端代工企業,如臺積電、聯電、中芯國際等。
亞洲的先進制程工藝水平不斷提高,美國芯片制造與之的差距也在拉大,而且趨勢是越來越難跟上,如今美國在全球芯片制造的占比也大幅下降。目前全球僅有12%的芯片在美國制造。
雖然美國還是全球半導體行業的霸主,但在芯片制造領域已然面臨巨大的挑戰,隨時還可能被甩到更后,也因此當前美國正出臺各種扶持本土芯片產業的政策,以試圖扭轉這種局面,而全球半導體芯片制造格局或有可能迎來新的變化。
典型的高性能cpu中,本地sram每周期提供一個完整的緩存行,然后cpu通過多路復用器(mux)選擇所需的字。例如,使用256位緩存行的64位cpu需要一個4:1多路復用器,即使cpu每個周期僅使用64位,sram陣列中的所有256位緩存行也會在每次訪問時放電。這種方法最大程度地減小了sram延遲,從而有可能提高最大時鐘速度或減少流水線級數——這二者都是影響cpu性能的關鍵因素。
通用陣列最大程度地減小了隨機存取的延遲。添加鎖存器會增加延遲,但會降低順序存取的功耗。
ai加速器通常以比pc處理器低的時鐘速度運行,其設計師更關心吞吐量而不是延遲。此外,cpu通常具有隨機存取模式,但cnn產生的則是順序存儲器存取,其處理的向量常常具有數以百計或數以千計的元素。為了更好地支持這些設計,格芯在sram陣列和多路復用器之間添加了一個鎖存器,這樣做會給讀取路徑增加一個周期,cpu設計師絕不會接受這種做法,但它為ai加速器帶來了可觀的好處。
總線供電的pcie卡的功耗限值為75w。其第一款芯片具有120個獨立的核心,每個核心包含1mb的sram和大約500個mac單元。這種方法仍然需要大量的sram和mac單元。該芯片以1.3ghz的初始速度可提供368 tops(參見mpr 4/13/20,“tenstorrent提升ai性能”)。12lp技術幫助tenstorrent實現了每瓦4.9 tops的性能,這一效率在數據中心產品中遙遙領先。
在這個市場上占有最大份額的nvidia最近發布了基于新型ampere架構的a100加速器。ampere引入了許多創新特性,峰值性能提高到624 tops,超過了除groq之外的所有已發布芯片。然而,盡管采用7nm工藝,但a100仍需要400w tdp,比之前的12nm產品還高33%。為了適應功耗預算的增加,nvidia不得不降低時鐘速度(相對于12nm產品),并禁用芯片上15%的核心。這是一種不尋常的策略,可能意味著芯片功耗大大高于仿真功耗(參見mpr 6/8/20,“nvidia a100稱霸ai性能”)。雖然a100的晶體管較小,但其每瓦性能嚴重落后于groq和tenstorrent芯片。
與格芯的12nm工藝相比,臺積電7nm工藝的一個優點是晶體管密度增加一倍,使得nvidia可將超過500億個晶體管封裝到a100中。為了幫助客戶在這方面競爭,格芯支持各種小芯片方法。格芯在多芯片封裝方面擁有豐富的經驗,包括具有高帶寬存儲器(hbm)的2.5d硅中介層設計。針對3d芯片堆疊,格芯已開發出混合晶圓鍵合(hwb)技術,其使用間距為5.76微米的硅通孔(tsv),并有密度提升的路線圖。對于低密度互連,客戶可以在便宜的有機襯底上構建小芯片配置,類似于amd的rome處理器。這些小芯片方法中的任何一種都能在不遷移到7nm工藝的情況下實現很高的晶體管數量。
(素材來源:eepw和chinaaet.如涉版權請聯系刪除。特別感謝)
經濟全球化進程加快、國際分工理念廣泛得到認同,美國一些idm(集芯片設計、制造、封裝和測試等多個環節于一身的運營模式)企業逐漸將芯片制造部門剝離出去,轉型成為fabless企業,就如今天文章的主人公ibm類似,這推動了美國芯片制造業務大量向亞洲區域轉移。
半導體制造部門具有很高的資金和技術壁壘,需要持續研發更優的生產工藝和投入巨資改良生產線,這種行業特點容易造成強者愈強的局面。亞洲地區的半導體企業專注晶圓代工環節,并緊貼市場需求變化,這意味著它們的生產線迭代速度能夠保持行業最快。伴隨著時間的推進,亞洲地區逐漸發展出最成熟的半導體制造業務,并涌現了一批高端代工企業,如臺積電、聯電、中芯國際等。
亞洲的先進制程工藝水平不斷提高,美國芯片制造與之的差距也在拉大,而且趨勢是越來越難跟上,如今美國在全球芯片制造的占比也大幅下降。目前全球僅有12%的芯片在美國制造。
雖然美國還是全球半導體行業的霸主,但在芯片制造領域已然面臨巨大的挑戰,隨時還可能被甩到更后,也因此當前美國正出臺各種扶持本土芯片產業的政策,以試圖扭轉這種局面,而全球半導體芯片制造格局或有可能迎來新的變化。
典型的高性能cpu中,本地sram每周期提供一個完整的緩存行,然后cpu通過多路復用器(mux)選擇所需的字。例如,使用256位緩存行的64位cpu需要一個4:1多路復用器,即使cpu每個周期僅使用64位,sram陣列中的所有256位緩存行也會在每次訪問時放電。這種方法最大程度地減小了sram延遲,從而有可能提高最大時鐘速度或減少流水線級數——這二者都是影響cpu性能的關鍵因素。
通用陣列最大程度地減小了隨機存取的延遲。添加鎖存器會增加延遲,但會降低順序存取的功耗。
ai加速器通常以比pc處理器低的時鐘速度運行,其設計師更關心吞吐量而不是延遲。此外,cpu通常具有隨機存取模式,但cnn產生的則是順序存儲器存取,其處理的向量常常具有數以百計或數以千計的元素。為了更好地支持這些設計,格芯在sram陣列和多路復用器之間添加了一個鎖存器,這樣做會給讀取路徑增加一個周期,cpu設計師絕不會接受這種做法,但它為ai加速器帶來了可觀的好處。
總線供電的pcie卡的功耗限值為75w。其第一款芯片具有120個獨立的核心,每個核心包含1mb的sram和大約500個mac單元。這種方法仍然需要大量的sram和mac單元。該芯片以1.3ghz的初始速度可提供368 tops(參見mpr 4/13/20,“tenstorrent提升ai性能”)。12lp技術幫助tenstorrent實現了每瓦4.9 tops的性能,這一效率在數據中心產品中遙遙領先。
在這個市場上占有最大份額的nvidia最近發布了基于新型ampere架構的a100加速器。ampere引入了許多創新特性,峰值性能提高到624 tops,超過了除groq之外的所有已發布芯片。然而,盡管采用7nm工藝,但a100仍需要400w tdp,比之前的12nm產品還高33%。為了適應功耗預算的增加,nvidia不得不降低時鐘速度(相對于12nm產品),并禁用芯片上15%的核心。這是一種不尋常的策略,可能意味著芯片功耗大大高于仿真功耗(參見mpr 6/8/20,“nvidia a100稱霸ai性能”)。雖然a100的晶體管較小,但其每瓦性能嚴重落后于groq和tenstorrent芯片。
與格芯的12nm工藝相比,臺積電7nm工藝的一個優點是晶體管密度增加一倍,使得nvidia可將超過500億個晶體管封裝到a100中。為了幫助客戶在這方面競爭,格芯支持各種小芯片方法。格芯在多芯片封裝方面擁有豐富的經驗,包括具有高帶寬存儲器(hbm)的2.5d硅中介層設計。針對3d芯片堆疊,格芯已開發出混合晶圓鍵合(hwb)技術,其使用間距為5.76微米的硅通孔(tsv),并有密度提升的路線圖。對于低密度互連,客戶可以在便宜的有機襯底上構建小芯片配置,類似于amd的rome處理器。這些小芯片方法中的任何一種都能在不遷移到7nm工藝的情況下實現很高的晶體管數量。
(素材來源:eepw和chinaaet.如涉版權請聯系刪除。特別感謝)
上一篇:雙功函數晶體管尺寸降低功耗
下一篇:鎖存器將多路復用器與陣列解耦