IPU-M2000和縱向擴展的IPU-POD64快5.3倍
發布時間:2020/12/12 17:29:38 訪問次數:467
BERT-Large的訓練時間比最新的NVIDIA DGX-A100快5.3倍(比雙DGX設置快2.6倍以上),這一結果彰顯了Graphcore的IPU-POD橫向擴展解決方案在數據中心的優勢,以及Poplar軟件棧管理復雜工作負載的能力,這些工作負載能夠利用多個處理器并行工作。”Graphcore為其最新的AI計算系統——IPU-M2000和縱向擴展的IPU-POD64發布了第一套性能benchmark。
在各種流行的模型中,Graphcore技術在訓練和推理方面均顯著優于NVIDIA的A100(基于DGX)。
EfficientNet-B4:吞吐量高18倍
ResNeXt-101:吞吐量高3.7倍
BERT-Large:與DGX A100相比,在IPU-POD64上的訓練時間快5.3倍(比雙DGX系統縮短2.6倍)
LSTM:以更低時延實現吞吐量提升超過600倍
EfficientNet-B0:吞吐量提升60倍/時延縮短超過16倍
ResNeXt-101:吞吐量提升40倍/時延縮短10倍
BERT-Large:以更低的時延實現吞吐量提升3.4倍
Benchmark中包括了BERT-Large(基于Transformer的自然語言處理模型)在IPU-POD64的全部64個處理器上運行的結果。
與Poplar軟件棧的其他元素一樣,Graphcore正在將其用于IPU接口庫的PyTorch開源,從而使社區能夠對PyTorch的開發做出貢獻,并且加速PyTorch的開發。
IPU-Machine:M2000(IPU-M2000)是一臺即插即用的機器智能計算刀片,旨在輕松部署并為可大規模擴展的系統提供支持。
纖巧的1U刀片可提供1 PetaFlop的機器智能計算能力,并在機箱內部納入針對AI橫向擴展進行了優化的集成網絡技術。
(素材來源:ttic和eccn.如涉版權請聯系刪除。特別感謝)
BERT-Large的訓練時間比最新的NVIDIA DGX-A100快5.3倍(比雙DGX設置快2.6倍以上),這一結果彰顯了Graphcore的IPU-POD橫向擴展解決方案在數據中心的優勢,以及Poplar軟件棧管理復雜工作負載的能力,這些工作負載能夠利用多個處理器并行工作。”Graphcore為其最新的AI計算系統——IPU-M2000和縱向擴展的IPU-POD64發布了第一套性能benchmark。
在各種流行的模型中,Graphcore技術在訓練和推理方面均顯著優于NVIDIA的A100(基于DGX)。
EfficientNet-B4:吞吐量高18倍
ResNeXt-101:吞吐量高3.7倍
BERT-Large:與DGX A100相比,在IPU-POD64上的訓練時間快5.3倍(比雙DGX系統縮短2.6倍)
LSTM:以更低時延實現吞吐量提升超過600倍
EfficientNet-B0:吞吐量提升60倍/時延縮短超過16倍
ResNeXt-101:吞吐量提升40倍/時延縮短10倍
BERT-Large:以更低的時延實現吞吐量提升3.4倍
Benchmark中包括了BERT-Large(基于Transformer的自然語言處理模型)在IPU-POD64的全部64個處理器上運行的結果。
與Poplar軟件棧的其他元素一樣,Graphcore正在將其用于IPU接口庫的PyTorch開源,從而使社區能夠對PyTorch的開發做出貢獻,并且加速PyTorch的開發。
IPU-Machine:M2000(IPU-M2000)是一臺即插即用的機器智能計算刀片,旨在輕松部署并為可大規模擴展的系統提供支持。
纖巧的1U刀片可提供1 PetaFlop的機器智能計算能力,并在機箱內部納入針對AI橫向擴展進行了優化的集成網絡技術。
(素材來源:ttic和eccn.如涉版權請聯系刪除。特別感謝)