硬件最新推薦

發布時間:2018/12/18 10:10:33 訪問次數:35167

51電子網公益庫存:: SDC3122; SDC3123; SDC5121; SDC5122; SDC5123; SDC5125; SDC5126; SDC5131; SDC5132; SE2520L; SE2527L-R; SE2579U-R; SE2603L-R; SE2622L-R; SFH618A-4; SFI0806SV241-201; SFI0806SV431-101A; SG1103DG; SGM4054B-YN5/TR; SGM809-LXN3/TR

gpu顯卡（gpu）是深度學習的重要部件，甚至比cpu更重要。做深度學習不用gpu只用cpu顯然是不明智的，所以作者tim先介紹了gpu的選擇。選購gpu有三大注意事項：性價比、顯存、散熱。

使用16bit的rtx 2070或者rtx 2080 ti性價比更高。另外在ebay上購買二手的32bit gtx 1070、gtx 1080或者1080 ti也是不錯的選擇。

除了gpu核心，顯存（gpu ram）也是不可忽視的部分。rtx比gtx系列顯卡在顯存方面更具優勢，在顯存相同的情況下，rtx能夠訓練兩倍大的模型。

通常對顯存的要求如下：如果想在研究中追求最高成績：顯存>=11 gb；在研究中搜尋有趣新架構：顯存>=8 gb；其他研究：8gb；kaggle競賽：4~8gb；創業公司：8gb（取決于具體應用的模型大小）公司：打造原型8gb，訓練不小于11gb需要注意的是，如果你購買了多個rtx顯卡，一定不要忽視散熱。兩個顯卡堆疊在相鄰pci-e插槽，很容易令gpu過熱降頻，可能導致性能下降30%。這個問題后面還會具體討論。內存選擇內存（ram）有兩個參數：時鐘頻率、容量。這兩個參數哪個更重要？時鐘頻率

炒作內存時鐘頻率是廠家常用的營銷手段，他們宣傳內存越快越好，實際上真的是這樣嗎？

知名數碼博主linus tech tips解答了這個問題：廠商會引誘你購買“更快”的ram，實際上卻幾乎沒有性能提升。

內存頻率和數據轉移到顯存的速度無關，提高頻率最多只能有3%的性能提升，你還是把錢花在其他地方吧！

內存容量

內存大小不會影響深度學習性能，但是它可能會影響你執行gpu代碼的效率。內存容量大一點，cpu就可以不通過磁盤，直接和gpu交換數據。

所以用戶應該配備與gpu顯存匹配的內存容量。如果有一個24gb顯存的titan rtx，應該至少有24gb的內存。但是，如果有更多的gpu，則不一定需要更多內存。http://ryzw.51dzw.com

tim認為：內存關系到你能不能集中資源，解決更困難的編程問題。如果有更多的內存，你就可以將注意力集中在更緊迫的問題上，而不用花大量時間解決內存瓶頸。

他還在參加kaggle比賽的過程中發現，額外的內存對特征工程非常有用。cpu過分關注cpu的性能和pcie通道數量，是常見的認知誤區。用戶更需要關注的是cpu和主板組合支持同時運行的gpu數量。cpu和pcie

人們對pcie通道的執念近乎瘋狂！而實際上，它對深度學習性能幾乎沒有影響。

如果只有一個gpu，pcie通道的作用只是快速地將數據從內存傳輸到顯存。

imagenet里的32張圖像（32x225x225x3）在16通道上傳輸需要1.1毫秒，在8通道上需要2.3毫秒，在4通道上需要4.5毫秒。

這些只是是理論數字，實際上pcie的速度只有理論的一半。pcie通道通常具有納秒級別的延遲，因此可以忽略延遲。

tim測試了用32張imagenet圖像的mini-batch，訓練resnet-152模型所需要的傳輸時間：前向和后向傳輸：216毫秒16個pcie通道cpu-> gpu傳輸：大約2毫秒（理論上為1.1毫秒）8個pcie通道cpu-> gpu傳輸：大約5毫秒（2.3毫秒）4個pcie通道cpu-> gpu傳輸：大約9毫秒（4.5毫秒）因此，在總用時上，從4到16個pcie通道，性能提升約3.2％。但是，如果pytorch的數據加載器有固定內存，則性能提升為0％。因此，如果使用單個gpu，請不要在pcie通道上浪費金錢。

在選擇cpu pcie通道和主板pcie通道時，要保證你選擇的組合能支持你想要的gpu數量。如果買了支持2個gpu的主板，而且希望用上2個gpu，就要買支持2個gpu的cpu，但不一定要查看pcie通道數量。pcie通道和多gpu并行計算

如果在多個gpu上訓練網絡，pcie通道是否重要呢？tim曾在iclr 2016上發表了一篇論文指出（https://arxiv.org/abs/1511.04561）：如果你有96個gpu，那么pcie通道非常重要。

但是，如果gpu數量少于4個，則根本不必關心pcie通道。幾乎很少有人同時運行超過4個gpu，所以不要在pcie通道上花冤枉錢。這不重要！

cpu核心數

為了選擇cpu，首先需要了解cpu與深度學習的關系。

cpu為深度學習中起到什么作用？當在gpu上運行深度網絡時，cpu幾乎不會進行任何計算。cpu的主要作用有：（1）啟動gpu函數調用（2）執行cpu函數。

到目前為止，cpu最有用的應用是數據預處理。有兩種不同的通用數據處理策略，具有不同的cpu需求。

第一種策略是在訓練時進行預處理，第二種是在訓練之前進行預處理。

對于第一種策略，高性能的多核cpu能顯著提高效率。建議每個gpu至少有4個線程，即為每個gpu分配兩個cpu核心。tim預計，每為gpu增加一個核心，應該獲得大約0-5％的額外性能提升。

對于第二種策略，不需要非常好的cpu。建議每個gpu至少有2個線程，即為每個gpu分配一個cpu核心。用這種策略，更多內核也不會讓性能顯著提升。

cpu時鐘頻率

4ghz的cpu性能是否比3.5ghz的強？對于相同架構處理器的比較，通常是正確的。但在不同架構處理器之間，不能簡單比較頻率。cpu時鐘頻率并不總是衡量性能的最佳方法。

在深度學習的情況下，cpu參與很少的計算：比如增加一些變量，評估一些布爾表達式，在gpu或程序內進行一些函數調用。所有這些都取決于cpu核心時鐘率。http://ryzw.51dzw.com

雖然這種推理似乎很明智，但是在運行深度學習程序時，cpu仍有100％的使用率，那么這里的問題是什么？tim做了一些cpu的降頻實驗來找出答案。

cpu降頻對性能的影響：請注意，這些實驗是在一些“上古”cpu（2012年推出的第三代酷睿處理器）上進行的。但是對于近年推出的cpu應該仍然適用。硬盤/固態硬盤（ssd）通常，硬盤不會限制深度學習任務的運行，但如果小看了硬盤的作用，可能會讓你追、悔、莫、及。

想象一下，如果你從硬盤中讀取的數據的速度只有100mb/s，那么加載一個32張imagenet圖片構成的mini-batch，將耗時185毫秒。

相反，如果在使用數據前異步獲取數據，將在185毫秒內加載這些mini-batch的數據，而imagenet上大多數神經網絡的計算時間約為200毫秒。所以，在計算狀態時加載下一個mini-batch，性能將不會有任何損失。

tim小哥推薦的是固態硬盤（ssd），他認為ssd在手，舒適度和效率皆有。和普通硬盤相比，ssd程序啟動和響應速度更快，大文件的預處理更是要快得多。

頂配的體驗就是nvme ssd了，比一般ssd更流暢。電源裝置（psu）一個程序員對電源最基礎的期望，首先得是能滿足各種gpu所需能量吧。隨著gpu朝著更低能耗發展，一個質量優秀的psu能陪你走很久。

應該怎么選？tim小哥有一套計算方法：將電腦cpu和gpu的功率相加，再額外加上10%的功率算作其他組件的耗能，就得到了功率的峰值。

舉個例子，如果你有4個gpu，每個功率為250瓦，還有一個功率為150瓦的cpu，則需電源提供4×250+150+100=1250瓦的電量。

tim通常會在此基礎上再額外添加10%確保萬無一失，那就總共需要1375瓦。所以這種情況下，電源性能需達1400瓦。

這樣手把手教學，應該不難理解了。還有一點得注意，即使一個psu達到了所需瓦數，也可能沒有足夠的pcie 8-pin或6-pin的接頭，所以買的時候還要確保電源上有足夠多的接頭接gpu。另外，買一個能效等級高的電源，特別是當你需要連很多gpu并且可能運行很長時間的時候，原因你懂的。

再舉個例子吧，如果以滿功率（1000-1500瓦）運行4 gpu系統、花兩周時間訓練一個卷積神經網絡，需要耗用300-500度電。按德國每度0.2歐元計算，電費最終耗費約折合人民幣455-766元。

如果電源效率降到80%，電費將增加140-203元人民幣。

需要的gpu數量越多，拉開的差距越明顯。psu的挑選是不是比之前想象的復雜一點？cpu和gpu的冷卻對于產熱大戶cpu和gpu來說，散熱性不好會降低它們的性能。

對cpu來說，則標配的散熱器，或者aio水冷散熱器都是不錯的選擇。

但gpu該用哪種散熱方案，卻是個復雜的事。

風冷散熱

如果只有單個gpu，風冷是安全可靠的，但若你gpu多達3-4個，靠空氣冷卻可能就不能滿足需求了。

目前的gpu會在運行算法時將速度提升到最大，所以功耗也達到最大值，一旦溫度超過80℃，很有可能降低速度，無法實現最佳性能。

對于深度學習任務來說這種現象更常見了，一般的散熱風扇遠達不到所需效果，運行幾秒鐘就達到溫度閾值了。如果是用多個gpu，性能可能會降低10%~25%。怎么辦？目前，英偉達gpu很多是針對游戲設計的，所以對于windows系統進行了專門的優化，也可以輕松設置風扇方案。

但在linux系統中這招就不能用了，麻煩的是，很多深度學習庫也都是針對linux編寫的。

這是一個問題，但也不是無解。

在linux系統中，你可以進行xorg服務器的配置，選擇“coolbits”選項，這對于單個gpu還是很奏效。

若你有多個gpu，就必須模擬一個監視器，tim小哥說自己嘗試了很長時間，但還是沒有什么改進。

如果你想在空氣冷卻的環境中運行3-4個小時，則最應該注意風扇的設計。

目前市場上的散熱風扇原理大致有兩種：鼓風式的風扇將熱空氣從機箱背面推出，讓涼空氣進來；非鼓風式的風扇是在gpu中吸入空氣達到冷卻效果。所以，如果你有多個gpu彼此相鄰，那么周圍就沒有冷空氣可用了，所以這種情況，一定不要用非鼓風式的散熱風扇了。

那用什么？接著往下看——

水冷散熱http://ryzw.51dzw.com

水冷散熱雖然比風冷法成本略高，但很適用于多個gpu相鄰的情況，它能hold住四個最強勁的gpu保持周身涼爽，是風冷無法企及的效果。另外，水冷散熱可以更安靜地進行，如果你在公共區域運行多個gpu，水冷的優勢更為凸顯了。

至于大家最關心的成本問題，水冷單個gpu大概需要100美元（約690元人民幣）再加一些額外的前期成本（大約350元人民幣）。除了財力準備，還需要你投入一些精力，比如額外花時間組裝計算機等。這類事情網上教程已經很多了，只需要幾個小時搞定，后期的維護也不復雜。

結論

對于單個gpu，風冷便宜也夠用；多個gpu情況下，鼓風式的空氣冷卻比較便宜，可能會帶來10%~15%的性能損失。如果想追求散熱極致，水冷散熱安靜且效果最好。

所以，風冷or水冷都合理，看你自己的實際情況和預算了。但小哥最后建議，通常情況下，還是考慮下低成本的風冷吧。主板主板應該有足夠的pcie插槽來支持所需的gpu數量。但需要注意的是，大多數顯卡寬度需要占用兩個pcie插槽。

如果打算使用多個gpu，就要購買pcie插槽之間有足夠空間的主板，確保顯卡之間不會相互遮擋。機箱選機箱的時候，必須保證機箱能裝下主板頂部的全長gpu，雖然大部分機箱是沒問題的，但是萬一你買小了，那就得看商家給不給你七天無理由了……

所以，買之前最好確認一下機箱的尺寸規格，也可以搜一下機箱裝著gpu的圖，有別人的成品圖的話就能買得放心一些。

另外，如果你想用定制水冷的話，保證你的機箱能裝得下散熱器，尤其是給gpu用定制水冷的時候，每個gpu的散熱器都需要占空間。

顯示器

怎么配顯示器還用教？

必須得教。

tim放出了買家秀：是的，作為一個成熟的技術人員，用多臺顯示器是基本配置了。

想象一下把買家秀上這三臺顯示器上的內容堆到同一塊屏幕里，來回切換窗口，這得多累人。太長不看版gpu：

rtx 2070、rtx 2080 ti、gtx 1070、gtx 1080、gtx 1080，這些都不錯。

cpu：

1.給每個gpu配1-2個cpu核心，具體要看你預處理數據的方式；

2.頻率要大于2ghz，cpu要能支持你的gpu數量；

3.pcie通道不重要。

內存：

1.時鐘頻率無關緊要，內存買最便宜的就行了；

2.內存 ≥ 顯存最大的那塊gpu的ram；

3.內存不用太大，用多少買多少；

4.如果你經常用大型數據集，買更多內存會很有用。

硬盤/ssd：

1.給你的數據集準備足夠大的硬盤（≥3tb）；

2.有ssd會用的舒坦一些，還能預處理小型數據集。

psu：

1.需要的功率最大值≈（cpu功率+gpu功率）×110%；

2.買一個高能效等級的電源，特別是當你需要連很多gpu并且可能運行很長時間的時，這樣可以節省很多電費；

3.買之前請確保電源上有足夠多的接頭（pcie 8-pin或6-pin）接gpu。

散熱：

cpu：

標準配置的cpu散熱器或者aio水冷散熱器；

gpu：

1.單個gpu，風冷散熱即可；

2.若用多個gpu，選擇鼓風式風冷散熱或水冷散熱。

主板：

準備盡可能多的鏈接gpu的pcle插槽，一個gpu需要兩個插槽，每個系統最多4個gpu，不過你也要考慮gpu的厚度。

顯示器：

為了提高效率，多買幾塊屏幕吧。發了三篇頂會的博士在讀小哥哥這篇指南的作者tim dettmers去年碩士畢業，目前在華盛頓大學讀博，主要研究知識表達、問答系統和常識推理，曾在ucl機器學習組和微軟實習。按照去年畢業開始讀博的話，tim的博士才讀了一年半，現在就已經是三篇頂會論文的作者了，其中還有一篇aaai是一作，一篇iclr是唯一作者。

另外，他還是一個刷kaggle愛好者，曾經在2013年排到全球第63名（前0.22%）。one more thing其實說了這么多，你也不想裝機對不對？

tim已然料到，所以，在裝機指南之外，他還主動奉獻了一些裝機鼓勵：

雖然買硬件很貴，一不小心搞錯會肉疼，但是不要怕裝電腦這件事。

其一，裝機本身很簡單，主板手冊里都把如何裝機寫的明明白白，比裝樂高難不了多少，還附帶了大量的指南和分步操作視頻，就算你是0經驗小白也能學得會。

其二，裝機這件事，只要有第一次，后面就不難了，因為所有的計算機都是那幾個硬件構成的。所以，只要裝一次，就可以get一門終身技能，投資回報率非常高。http://ryzw.51dzw.com

硬件設備，是任何一名深度學習er不可或缺的核心裝備。各位初級調參魔法師們，你們有沒有感到缺少那一根命中注定的魔杖？從gpu開始，依次看看各重要部件應該如何選擇。文章出自：原創量子位

51電子網公益庫存:: SDC3122; SDC3123; SDC5121; SDC5122; SDC5123; SDC5125; SDC5126; SDC5131; SDC5132; SE2520L; SE2527L-R; SE2579U-R; SE2603L-R; SE2622L-R; SFH618A-4; SFI0806SV241-201; SFI0806SV431-101A; SG1103DG; SGM4054B-YN5/TR; SGM809-LXN3/TR

使用16bit的rtx 2070或者rtx 2080 ti性價比更高。另外在ebay上購買二手的32bit gtx 1070、gtx 1080或者1080 ti也是不錯的選擇。

除了gpu核心，顯存（gpu ram）也是不可忽視的部分。rtx比gtx系列顯卡在顯存方面更具優勢，在顯存相同的情況下，rtx能夠訓練兩倍大的模型。

炒作內存時鐘頻率是廠家常用的營銷手段，他們宣傳內存越快越好，實際上真的是這樣嗎？

知名數碼博主linus tech tips解答了這個問題：廠商會引誘你購買“更快”的ram，實際上卻幾乎沒有性能提升。

內存頻率和數據轉移到顯存的速度無關，提高頻率最多只能有3%的性能提升，你還是把錢花在其他地方吧！

內存容量

內存大小不會影響深度學習性能，但是它可能會影響你執行gpu代碼的效率。內存容量大一點，cpu就可以不通過磁盤，直接和gpu交換數據。

人們對pcie通道的執念近乎瘋狂！而實際上，它對深度學習性能幾乎沒有影響。

如果只有一個gpu，pcie通道的作用只是快速地將數據從內存傳輸到顯存。

imagenet里的32張圖像（32x225x225x3）在16通道上傳輸需要1.1毫秒，在8通道上需要2.3毫秒，在4通道上需要4.5毫秒。

這些只是是理論數字，實際上pcie的速度只有理論的一半。pcie通道通常具有納秒級別的延遲，因此可以忽略延遲。

但是，如果gpu數量少于4個，則根本不必關心pcie通道。幾乎很少有人同時運行超過4個gpu，所以不要在pcie通道上花冤枉錢。這不重要！

cpu核心數

為了選擇cpu，首先需要了解cpu與深度學習的關系。

cpu為深度學習中起到什么作用？當在gpu上運行深度網絡時，cpu幾乎不會進行任何計算。cpu的主要作用有：（1）啟動gpu函數調用（2）執行cpu函數。

到目前為止，cpu最有用的應用是數據預處理。有兩種不同的通用數據處理策略，具有不同的cpu需求。

第一種策略是在訓練時進行預處理，第二種是在訓練之前進行預處理。

對于第二種策略，不需要非常好的cpu。建議每個gpu至少有2個線程，即為每個gpu分配一個cpu核心。用這種策略，更多內核也不會讓性能顯著提升。

cpu時鐘頻率

雖然這種推理似乎很明智，但是在運行深度學習程序時，cpu仍有100％的使用率，那么這里的問題是什么？tim做了一些cpu的降頻實驗來找出答案。

想象一下，如果你從硬盤中讀取的數據的速度只有100mb/s，那么加載一個32張imagenet圖片構成的mini-batch，將耗時185毫秒。

tim小哥推薦的是固態硬盤（ssd），他認為ssd在手，舒適度和效率皆有。和普通硬盤相比，ssd程序啟動和響應速度更快，大文件的預處理更是要快得多。

應該怎么選？tim小哥有一套計算方法：將電腦cpu和gpu的功率相加，再額外加上10%的功率算作其他組件的耗能，就得到了功率的峰值。

舉個例子，如果你有4個gpu，每個功率為250瓦，還有一個功率為150瓦的cpu，則需電源提供4×250+150+100=1250瓦的電量。

tim通常會在此基礎上再額外添加10%確保萬無一失，那就總共需要1375瓦。所以這種情況下，電源性能需達1400瓦。

如果電源效率降到80%，電費將增加140-203元人民幣。

對cpu來說，則標配的散熱器，或者aio水冷散熱器都是不錯的選擇。

但gpu該用哪種散熱方案，卻是個復雜的事。

風冷散熱

如果只有單個gpu，風冷是安全可靠的，但若你gpu多達3-4個，靠空氣冷卻可能就不能滿足需求了。

目前的gpu會在運行算法時將速度提升到最大，所以功耗也達到最大值，一旦溫度超過80℃，很有可能降低速度，無法實現最佳性能。

但在linux系統中這招就不能用了，麻煩的是，很多深度學習庫也都是針對linux編寫的。

這是一個問題，但也不是無解。

在linux系統中，你可以進行xorg服務器的配置，選擇“coolbits”選項，這對于單個gpu還是很奏效。

若你有多個gpu，就必須模擬一個監視器，tim小哥說自己嘗試了很長時間，但還是沒有什么改進。

如果你想在空氣冷卻的環境中運行3-4個小時，則最應該注意風扇的設計。

那用什么？接著往下看——

水冷散熱http://ryzw.51dzw.com

結論

所以，買之前最好確認一下機箱的尺寸規格，也可以搜一下機箱裝著gpu的圖，有別人的成品圖的話就能買得放心一些。

另外，如果你想用定制水冷的話，保證你的機箱能裝得下散熱器，尤其是給gpu用定制水冷的時候，每個gpu的散熱器都需要占空間。

顯示器

怎么配顯示器還用教？

必須得教。

tim放出了買家秀：是的，作為一個成熟的技術人員，用多臺顯示器是基本配置了。

想象一下把買家秀上這三臺顯示器上的內容堆到同一塊屏幕里，來回切換窗口，這得多累人。太長不看版gpu：

rtx 2070、rtx 2080 ti、gtx 1070、gtx 1080、gtx 1080，這些都不錯。

cpu：

1.給每個gpu配1-2個cpu核心，具體要看你預處理數據的方式；

2.頻率要大于2ghz，cpu要能支持你的gpu數量；

3.pcie通道不重要。

內存：

1.時鐘頻率無關緊要，內存買最便宜的就行了；

2.內存 ≥ 顯存最大的那塊gpu的ram；

3.內存不用太大，用多少買多少；

4.如果你經常用大型數據集，買更多內存會很有用。

硬盤/ssd：

1.給你的數據集準備足夠大的硬盤（≥3tb）；

2.有ssd會用的舒坦一些，還能預處理小型數據集。

psu：

1.需要的功率最大值≈（cpu功率+gpu功率）×110%；

2.買一個高能效等級的電源，特別是當你需要連很多gpu并且可能運行很長時間的時，這樣可以節省很多電費；

3.買之前請確保電源上有足夠多的接頭（pcie 8-pin或6-pin）接gpu。

散熱：

cpu：

標準配置的cpu散熱器或者aio水冷散熱器；

gpu：

1.單個gpu，風冷散熱即可；

2.若用多個gpu，選擇鼓風式風冷散熱或水冷散熱。

主板：

準備盡可能多的鏈接gpu的pcle插槽，一個gpu需要兩個插槽，每個系統最多4個gpu，不過你也要考慮gpu的厚度。

顯示器：

另外，他還是一個刷kaggle愛好者，曾經在2013年排到全球第63名（前0.22%）。one more thing其實說了這么多，你也不想裝機對不對？

tim已然料到，所以，在裝機指南之外，他還主動奉獻了一些裝機鼓勵：

雖然買硬件很貴，一不小心搞錯會肉疼，但是不要怕裝電腦這件事。

上一篇：FP6606CM：USB PD快充協議芯片和方案

下一篇：AMD 2019驅動體驗

相關電子資訊: 11-29高性能四核應用處理器（MPU）結構技術及應用需求; 11-29雙通道任意波形發生器系列參數封裝設計結構; 11-29射頻隔直器的技術結構參數與應用研究; 11-29F28P55X系列產品的特性參數及關鍵技術概述; 11-29廣州國際智能制造技術與裝備展覽會; 11-29第十二屆深圳•軍博會|華南專業國防軍工展; 11-29最新功率可編程電阻模塊的原理參數技術及應用規格; 11-29PXI程控電阻40-29x系列結構及工作原理; 11-29100w功放電路圖技術參數與應用; 11-29linux 系統結構應用描述; 11-28新產品S-19721系列技術結構封裝應用分析; 11-28第四代車規級三相智能柵極驅動器IC解讀

相關IC型號: LT1460EIS8-2.5PBF; 74LS253PC; M58484P; MAX9717BEUA-T; SP3076EEN-L; AK6480AM-E2; SI9435DY-T1-E3; SE527; UPD28C64AGX-15-EJA; MC10EL11D

91精品一区二区三区久久久久久_欧美一级特黄大片色_欧美一区二区人人喊爽_精品一区二区三区av

硬件最新推薦

熱門點擊

推薦電子資訊