RTX 30系列性能≥2倍圖靈GPU!AI算力前瞻,性價(jià)比超泰坦
「無論性能還是能效,安培架構(gòu)GPU都是圖靈的兩倍,」黃仁勛于今日凌晨的RTX 30系列線上發(fā)布會坦言?!笍募軜?gòu)、定制流程設(shè)計(jì)、電路、邏輯、封裝、series IO、顯存、供電、散熱、軟件和算法…… 我們在所有層面壓榨GPU的性能,最終實(shí)現(xiàn)了世界領(lǐng)先水平。」
今天,距離英偉達(dá)發(fā)布世界首款GPU、也是第一款以Geforce為名的顯示核心——Geforce 256已經(jīng)21年了。21年來,GPU徹底改變了現(xiàn)代計(jì)算機(jī)圖形學(xué)。如今,采用NVIDIA Ampere架構(gòu)的GeForce RTX 30系列GPU再次走出邁向未來的一大步。
前所未有的性能飛躍
最強(qiáng)旗艦級GPU問世
NVIDIA最先進(jìn)的技術(shù)和二十多年的圖形研發(fā)成果,使NVIDIA RTX集可編程著色、光線追蹤和人工智能于一身,為全新GeForce RTX 30系列GPU和NVIDIA Ampere架構(gòu)帶來驚人性能,將助力開發(fā)者打造新世界。
技術(shù)突破詳情:
全新的流式多處理器:全球速度最快、效率最高的GPU部件,其處理能力為30 Shader-TFLOP/s, 并且FP32吞吐量是上一代產(chǎn)品的2倍。
第二代RT Cores:全新專用RT Core計(jì)算能力為58 RT-TFLOPS,是上一代的2倍,同時(shí)支持光線追蹤、著色與計(jì)算。
第三代Tensor Cores:全新專用Tensor Core吞吐量是上一代的2倍,能夠更快速、更高效地運(yùn)行AI驅(qū)動的技術(shù),如NVIDIA DLSS,算力高達(dá)238 Tensor-TFLOPS。
NVIDIA RTX IO:實(shí)現(xiàn)基于GPU的快速加載和游戲資源解壓,與硬盤和傳統(tǒng)存儲API相比,輸入/輸出性能最高可加速100倍。結(jié)合微軟全新Windows版 DirectStorage API,RTX IO將幾十個(gè)CPU核心的工作轉(zhuǎn)移到RTX GPU上,提高幀率,并實(shí)現(xiàn)近乎瞬時(shí)的游戲加載。
全球最快顯存:NVIDIA與鎂光合作,為RTX 30系列打造全球最快的GDDR6X顯存,為顯卡應(yīng)用提供接近1TB/s的數(shù)據(jù)傳輸速度,最大限度地提升游戲和應(yīng)用性能。
新一代工藝技術(shù):來自三星的全新8nm NVIDIA定制工藝,可實(shí)現(xiàn)更高的晶體管密度和更高的效率。
總體來說,GeForce RTX 30系列確實(shí)占據(jù)了GPU界的多項(xiàng)「第一」:首款有著24GB GDDR6X顯存的消費(fèi)級圖形卡;首批支持 HDMI 2.1的GPU,一塊顯卡即可實(shí)現(xiàn)4k高刷新率或8k游戲;首批支持AV1編譯碼器的獨(dú)立GPU,實(shí)現(xiàn)以更少的帶寬觀看更高分辨率的視頻流。
RTX 30系列具體參數(shù)
GeForce RTX 3080:建議零售價(jià)¥5,499起,預(yù)計(jì)9月17日起售。GeForce RTX 3080內(nèi)建8704 個(gè)CUDA,比GeForce RTX 2080快2倍。GeForce RTX 3080 擁有10GB的全新高速GDDR6X顯存,運(yùn)行速度高達(dá)19Gbps,在4K分辨率下帶來每秒60幀穩(wěn)定的游戲體驗(yàn)。
GeForce RTX 3070:建議零售價(jià)¥3,899起,預(yù)計(jì)9月24日起售。GeForce RTX 3070 售價(jià)僅為GeForce RTX 2080 Ti的一半不到,比GeForce RTX 2070快60%。它配備8GB GDDR6顯存,有5888 個(gè)CUDA,相比之下,2080Ti的CUDA核心是4300個(gè),所以3070性能超過 2080Ti,看來是沒什么問題的。
GeForce RTX 3090:建議零售價(jià)¥11,999起,預(yù)計(jì)10月起售。GeForce RTX 3090 被稱為 "性能猛獸"。它配備有一個(gè)三槽雙軸,流線型設(shè)計(jì)的散熱器,比TITAN RTX安靜10倍,并且極致冷靜,可降低GPU保持溫度最高達(dá)30℃。它的24GB GDDR6X顯存可以應(yīng)對最具挑戰(zhàn)性的人工智能算法,并滿足大規(guī)模內(nèi)容創(chuàng)作的需求。GeForce RTX 3090比TITAN RTX快50%,在8K分辨率下讓玩家能在眾多頂級游戲中達(dá)到60fps。
AI算力性能前瞻
RTX 30系列采用的都是今年 5 月剛剛推出的最新7納米制程架構(gòu)安培(Ampere),其首先被 Tesla A100所采用。RTX 3090的24G內(nèi)存和1399美元的價(jià)格或許能夠讓很多對深度學(xué)習(xí)有需求的用戶省下買泰坦的預(yù)算。
針對稀疏矩陣的加速可以讓安培架構(gòu)GPU處理AI任務(wù)的效率提高一倍
安培架構(gòu)還有一些針對AI計(jì)算特有的機(jī)制,其中的三代Tensor Core會對稀疏張量運(yùn)算進(jìn)行特別加速:執(zhí)行速度提高一倍,也支持TF32、FP16、BFLOAT16、INT8和INT4等精度的加速—系統(tǒng)會自動將數(shù)據(jù)轉(zhuǎn)為TF32格式加速運(yùn)算,現(xiàn)在你無需修改任何代碼量化了,直接自動訓(xùn)練即可。
不過由于消費(fèi)級和專業(yè)級芯片的結(jié)構(gòu)不盡相同,我們不能把 Ampere A100 芯片的AI訓(xùn)練性能簡單地直接拿來作為參考,還需要等待官方公布,以及最終實(shí)測的數(shù)據(jù)。
黃仁勛表示,GeForce RTX 30 系列顯卡具備三項(xiàng)基礎(chǔ)處理技術(shù):30TFLOPS 算力的可編程著色器(Turing架構(gòu)是11),雙倍吞吐量,用于光追的RT Core(58 RT TFLOPS,Turing架構(gòu)是34),以及可自動忽略次要DNN權(quán)重的Tensor Core(238Tensor TFLOPS,舊版為 89)。
三個(gè)方面,性能相比前一代都是翻倍。
寬泛科技攜手NVIDIA
寬泛科技作為英特爾、英偉達(dá)等芯片及品牌廠商的堅(jiān)實(shí)合作伙伴,NVIDIA潛力AI公司加速計(jì)劃成員,攜手專注為人工智能提供硬件解決方案及相關(guān)服務(wù),已成為國內(nèi)過萬家企業(yè)、院校及研究機(jī)構(gòu)的信息化解決方案供應(yīng)商。
旗下Cloudhin?云軒支持Deep learning和高性能計(jì)算服務(wù)器定制,針對主要深度學(xué)習(xí)框架(如TensorFlow、Caffe 2、Theano或Torch)進(jìn)行了優(yōu)化和設(shè)置,為計(jì)算系統(tǒng)提供強(qiáng)大的深度學(xué)習(xí)功能。
NVIDIA Tesla A100(PCIE版)、RTX 30系列深度學(xué)習(xí)服務(wù)器現(xiàn)已開啟預(yù)約定制服務(wù),A100由NVIDIA Ampere優(yōu)化軟件提供支持:包括CUDA 11;50多個(gè)CUDA-X?庫的新版本;多模式對話式AI服務(wù)框架NVIDIA Jarvis;深度推薦應(yīng)用框架NVIDIA Merlin;RAPIDS?開源數(shù)據(jù)科學(xué)軟件庫套件;NVIDIA HPC SDK,其中內(nèi)含編譯器、庫和軟件工具,可最大程度地提高開發(fā)者的工作效率以及HPC應(yīng)用的性能和可移植性。
憑借這些功能強(qiáng)大的軟件工具,開發(fā)者們能夠構(gòu)建并加速HPC、基因組學(xué)、5G、數(shù)據(jù)科學(xué)、機(jī)器人學(xué)、深度學(xué)習(xí)等領(lǐng)域的應(yīng)用。
專業(yè)勤修,銳意進(jìn)取。云軒技術(shù)工程師畢業(yè)于NVIDIA深度學(xué)習(xí)研究所,豐富經(jīng)驗(yàn),值得信賴。更多定制方案請聯(lián)系客服,我們將實(shí)時(shí)響應(yīng)您的定制需求。
如果您有合作需求或?qū)氋F建議,歡迎來信。
郵箱:hezuo@kuanfans.com
合作熱線:400-610-1360轉(zhuǎn)375899