Aug 27, 2020

案例實(shí)析|GPU服務(wù)器≠堆疊GPU，高效穩(wěn)定還需獨(dú)特設(shè)計(jì)

簡單來說，GPU服務(wù)器是利用GPU的異構(gòu)計(jì)算特性，為視頻編解碼、深度學(xué)習(xí)、科學(xué)計(jì)算等多種場景提供快速、穩(wěn)定、彈性的計(jì)算服務(wù)。然而，存在這樣一種誤區(qū)，將GPU服務(wù)器對(duì)等于就是GPU的堆疊。我們通過一次客戶求助案例，詳解GPU服務(wù)器和普通PC的區(qū)別之處。

求助案列

該用戶計(jì)劃啟動(dòng)一個(gè)人工智能項(xiàng)目，需要建立一個(gè)GPU計(jì)算集群來支撐相關(guān)的數(shù)據(jù)計(jì)算?？蛻舻淖杂薪鉀Q方案卻出現(xiàn)了GPU卡無法識(shí)別、工作不正常等問題。

客戶自有的解決方案是：

管理節(jié)點(diǎn)：某品牌通用服務(wù)器
計(jì)算節(jié)點(diǎn)：DIY服務(wù)器＋自購GPU卡（T4）
存儲(chǔ)節(jié)點(diǎn)：某品牌存儲(chǔ)服務(wù)器

在看了客戶之前的開會(huì)和機(jī)器的檢測記錄，發(fā)現(xiàn)目前主要故障出在開機(jī)一段時(shí)間后無法識(shí)別GPU卡或GPU卡計(jì)算性能下降。

初步懷疑應(yīng)該是GPU卡沒有充分散熱導(dǎo)致的這個(gè)問題。

緊接著我們嘗試將目前GPU服務(wù)器的多GPU先后分別拔出來，觀察其運(yùn)行的狀態(tài)；（原GPU服務(wù)器有2~4塊GPU不等）并檢測出風(fēng)口的溫度。

過了一段時(shí)間后結(jié)果出來了，發(fā)現(xiàn)當(dāng)GPU服務(wù)器的GPU數(shù)量減少后，特別是單塊GPU運(yùn)行的時(shí)候，服務(wù)器的性能沒有出現(xiàn)明顯的下降，但出風(fēng)口的溫度還是在75°以上！

結(jié)果分析

很明顯這是因?yàn)樵O(shè)備的散熱能力不足，導(dǎo)致了關(guān)鍵元件（GPU）溫度過高，從而導(dǎo)致掉卡或降頻。

再加上用戶所選為你自己DIY的服務(wù)器，其溫度監(jiān)測機(jī)制或傳感器無法與品牌服務(wù)器相提并論，所以監(jiān)測結(jié)果并不一定準(zhǔn)確。

解決方案

1.將目前DIY的服務(wù)器都給其他用戶當(dāng)小型圖形工作站使用，并且只能使用單個(gè)GPU。

2.DIY服務(wù)器的GPU和CPU的散熱均換成水冷。

3.務(wù)必選擇專業(yè)的GPU服務(wù)器，保證工作穩(wěn)定性。

術(shù)業(yè)有專攻，GPU服務(wù)器的獨(dú)特之處

專業(yè)的GPU服務(wù)器，從供電、散熱通道等多方面和通用服務(wù)器都不一樣，整套散熱套件的設(shè)計(jì)和零件都不是相同的。往往元件的分布需要經(jīng)過精心考慮而設(shè)計(jì)，通過散熱風(fēng)道實(shí)驗(yàn)驗(yàn)證降溫效果。

再者，GPU服務(wù)器內(nèi)部的物理架構(gòu)和邏輯架構(gòu)是根據(jù)GPU使用環(huán)境專門設(shè)計(jì)，并通過真實(shí)環(huán)境不斷檢驗(yàn)、完善的。所以，并不是標(biāo)準(zhǔn)的X86服務(wù)器插上GPU卡就是GPU服務(wù)器了。

定制優(yōu)化GPU解決方案

數(shù)據(jù)科學(xué)研究快如閃電

寬泛科技作為英特爾、英偉達(dá)等芯片及品牌廠商的堅(jiān)實(shí)合作伙伴，NVIDIA潛力AI公司加速計(jì)劃成員，攜手專注為人工智能提供硬件解決方案及相關(guān)服務(wù)，已成為國內(nèi)過萬家企業(yè)、院校及研究機(jī)構(gòu)的信息化解決方案供應(yīng)商。

旗下Cloudhin?云軒支持Deep learning和高性能計(jì)算服務(wù)器定制，針對(duì)主要深度學(xué)習(xí)框架（如TensorFlow、Caffe 2、Theano或Torch）進(jìn)行了優(yōu)化和設(shè)置，為計(jì)算系統(tǒng)提供強(qiáng)大的深度學(xué)習(xí)功能。

Cloudhin?云軒GS4288-P4采用Intel C612最高速芯片組，性能穩(wěn)定，把握十足。其支持兩顆E5-2600 v4/v3（24核48線程），內(nèi)存最大支持3TB內(nèi)存。

最高可搭載8個(gè)NVIDIA圖形處理器，RTX 2080/S/TI、RTX TITAN/V、TESLA T4/P100/V100，均支持按需定制。輕松應(yīng)對(duì)分子動(dòng)力學(xué)模擬、排序，生命科學(xué)與醫(yī)療分析、石油天然氣勘探、GPU虛擬化，是復(fù)雜模型計(jì)算的理想選擇。

專業(yè)勤修，銳意進(jìn)取。云軒技術(shù)工程師畢業(yè)于NVIDIA深度學(xué)習(xí)研究所，豐富經(jīng)驗(yàn)，值得信賴。更多定制方案請(qǐng)聯(lián)系客服，我們將實(shí)時(shí)響應(yīng)您的定制需求。

聯(lián)系我們

如果您有合作需求或?qū)氋F建議，歡迎來信。

郵箱：hezuo@kuanfans.com

合作熱線：400-610-1360轉(zhuǎn)375899

返回列表

.精品久久久麻豆国产精品,а√天堂网www在线中文,国产成人欧美一区二区三区,疯狂的欧美乱大交另类,99热都是精品久久久久久

案例實(shí)析|GPU服務(wù)器≠堆疊GPU，高效穩(wěn)定還需獨(dú)特設(shè)計(jì)

核心業(yè)務(wù)

合作伙伴

客戶案例

新聞資訊

行研報(bào)告

關(guān)于我們

加入我們

會(huì)員中心

.精品久久久麻豆国产精品,а√天堂网www在线中文,国产成人欧美一区二区三区,疯狂的欧美乱大交另类,99热都是精品久久久久久

案例實(shí)析|GPU服務(wù)器≠堆疊GPU，高效穩(wěn)定還需獨(dú)特設(shè)計(jì)

推薦新聞

WAIC2025倒計(jì)時(shí)！寬泛云6U八卡AI服務(wù)器：以硬核算力重構(gòu)智能未來

未來已來，復(fù)興相見！寬泛科技閃耀2025楊浦全球推介大會(huì)

核心業(yè)務(wù)

合作伙伴

客戶案例

新聞資訊

行研報(bào)告

關(guān)于我們

加入我們

會(huì)員中心

WAIC2025倒計(jì)時(shí)！寬泛云6U八卡AI服務(wù)器：以硬核算力重構(gòu)智能未來

未來已來，復(fù)興相見！寬泛科技閃耀2025楊浦全球推介大會(huì)