亚洲乱淫 I 香蕉成人av I 哺乳期av I 欧美播放器 I 成人私密视频 I 福利小导航 I 男人都懂的网站 I 日韩av网址在线观看 I 91超碰成人 I 色噜噜久久 I av无限看 I 国产综合在线播放 I 亚洲综合免费观看高清完整版 I 双腿张开被9个男人调教 I 欧美裸体xxx I 在线午夜电影 I 日韩女女同性aa女同 I 成人91 I 日本中文字幕免费 I 91久久久国产精品 I 免费观看黄色大片 I 伊人天堂视频 I 欧美日韩国产999 I 操人黄色 I 久久久久久性高 I 亚洲综合熟女久久久30p I 视频二区最新视频 I 亚洲国产成人二区 I 岛国黄色专区 I 亚洲www. I 欧美特黄视频在线观看 I 黄色三级软件 I 国产9页 I 久久动漫av I 免费看18禁止观看黄网站 I 青青久在线视观看视 I 欧美一夜爽爽爽爽爽爽 I 波多野结衣vs黑人 I 国产最爽乱淫视频免费

Nvidia發(fā)布下一代GPU架構(gòu) 芯粒技術(shù)成為新亮點

來源:半導(dǎo)體行業(yè)觀察

Nvidia不久前發(fā)布了下一代GPU架構(gòu),架構(gòu)名字為“Hopper”(為了紀(jì)念計算機科學(xué)領(lǐng)域的先驅(qū)之一Grace Hopper)。

根據(jù)Nvidia發(fā)布的具體GPU規(guī)格,我們認(rèn)為Nvidia對于Hopper的主要定位是進一步加強對于人工智能方面的算力,而其算力升級依靠的不僅僅是硬件部分,還有不少算法和軟件協(xié)同設(shè)計部分,本文將為讀者做詳細分析。

我們認(rèn)為,在Nvidia更下一代的GPU中,我們有望看到芯粒技術(shù)成為新的亮點來突破其瓶頸。

Hopper的能有多強

根據(jù)Nvidia公布的數(shù)據(jù),基于Hopper架構(gòu)的GPU(H100)使用TSMC的4nm工藝設(shè)計,將會是Ampere架構(gòu)(使用TSMC 7nm工藝)之后的又一次重大升級,其16位浮點數(shù)峰值算力(FP16)將會由之前的312 TFLOPS增加到1000 TFLOPS,INT8峰值算力則由之前的624TOPS增加到2000TOPS。

由此可見FP16(常用于人工智能訓(xùn)練)和INT8(常用于人工智能推理)的峰值算力基本上都是翻了三倍,這個H100相對A100峰值算力提升的比例基本符合A100和再上一代GPU V100的提升數(shù)字。

而根據(jù)Nvidia官方公布的具體任務(wù)能提升,我們也可以看到大多數(shù)人工智能相關(guān)任務(wù)的能提升基本在2-4倍之間(尤其是使用transformer類模型的能提升較為突出,接4倍),初看也和峰值算力提升三倍基本吻合。

但是如果我們仔細分析Nvidia H100具體芯片指標(biāo),我們認(rèn)為在人工智能任務(wù)中,H100的提升不僅僅是來自于一些硬件指標(biāo)(例如核心數(shù)量,DRAM帶寬,片上存儲器)的提升,更是來自于Nvidia做了算法硬件協(xié)同設(shè)計。

例如,Nvidia在Hopper架構(gòu)中引入了為Transformer系列模型專門設(shè)計的八位浮點數(shù)(FP8)計算支持,并且還加入了專門的Transformer engine硬件模塊來確保transformer模型的運行效率。因此,我們看到在Nvidia公布的人工智能任務(wù)能提升中,使用transformer的任務(wù)(如GPT-3)的能提升要高于傳統(tǒng)的基于CNN(如Mask R-CNN)的能提升。

存儲方面提升相對較小

在人工智能等高能計算中,存儲(包括DRAM接口帶寬和片上存儲容量)和計算單元一樣重要,在很多時候存儲甚至?xí)蔀檎w能的瓶頸,例如峰值算力無法持續(xù),導(dǎo)致均計算能力遠低于峰值算力。

在Hopper架構(gòu)中,我們看到了峰值算力提升大約是Ampere的三倍,然而在DRAM帶寬和片上存儲方面,Hopper相對于Ampere的提升較小,只有1.5倍和1.25倍。

在DRAM帶寬方面,我們看到H100有兩個版本,其中使用最新一代HBM3的版本的內(nèi)存帶寬是3TB/s,相比于A100(2TB/s)的提升為1.5倍,相比峰值算力的三倍提升相對較小。

反觀A100相對更上一代V100的內(nèi)存帶寬提升為2.2倍,因此我們認(rèn)為H100的HBM3內(nèi)存帶寬提升幅度確實相對上一代來說較小。我們認(rèn)為,HBM3帶寬提升較小可能和功耗有關(guān)。

仔細分析Hopper發(fā)布的GPU,我們發(fā)現(xiàn)Hopper架構(gòu)的GPU目前有兩個品類,一個是使用HBM3內(nèi)存的版本,而另一個是仍然使用HBM2e的版本。

HBM3版本的H100相對于使用HBM2e版本的H100在其他芯片架構(gòu)上(包括計算單元)的差距不過10%(HBM3版本的計算單元較多),但是在功耗(TDP)上面,HBM3版本的H100的TDP比HBM2e版本H100整整高出兩倍(700W vs. 350W)。即使是相對于上一代使用7nm的Ampere架構(gòu),其功耗也提高了兩倍,因此能效比方面提升并不多,或者說即使更先進的芯片工藝也沒法解決HBM3的功耗問題。

因此,我們認(rèn)為H100 HBM3版本DRAM內(nèi)存帶寬增加可能是受限于整體功耗。而當(dāng)DRAM帶寬提升較小時,如何確保DRAM帶寬不成為能瓶頸就是一個重要的問題,因此Nvidia會提出FP4和Transformer Engine等算法-硬件協(xié)同設(shè)計的解決方案,來確保在執(zhí)行下游任務(wù)的時候仍然效率不會受限。

除了DRAM帶寬之外,另一個值得注意的點是Hopper GPU的片上存儲增長僅僅是從A100的40MB增長到了H100的50MB;相對來說,A100的片上存儲相對于更上一代V100則是增加了6倍。

我們目前尚不清楚H100上片上存儲增長這么少的主要原因,究竟是因為Nvidia認(rèn)為40-50MB對于絕大部分任務(wù)已經(jīng)夠用,還是因為工藝良率的原因?qū)е略偌覵RAM會大大提升成本。

但是,無論如何,隨著人工智能模型越來越復(fù)雜, 對于片上存儲的需求越來越高,片上存儲容量較小就會需要有更好的人工智能模型編譯器和底層軟件庫來確保模型執(zhí)行過程中能有最高的效率(例如,確保能把模型數(shù)據(jù)更好地劃分以盡量在片上存儲中執(zhí)行,而盡可能少地使用DRAM)。

Nvidia在這一點上確實已經(jīng)有了很深厚的積累,各種高能相關(guān)的軟件庫已經(jīng)有很好的成熟度。

我們估計Nvidia有強大的軟件生態(tài)作為后盾也是它有能力在設(shè)計中放較少片上存儲(以及較小的DRAM帶寬)的重要原因。

這一點結(jié)合之前Nvidia在Hopper引入的新模型-芯片結(jié)合設(shè)計技術(shù),例如能大大降低內(nèi)存需求的FP4技術(shù),以及為了Transformer模型專門設(shè)計的Transformer Engine,這些其實從正反兩面論證了我們的觀點,即Hopper架構(gòu)很多的能提升事實上是來自于軟硬件結(jié)合設(shè)計,而并非僅僅是芯片/硬件能提升。

Nvidia下一步突破點在哪里?

如前所述,Nvidia的Hopper架構(gòu)GPU的芯片領(lǐng)域的突破相比上一代Ampere架構(gòu)并沒有特別大,而是主要由軟硬件結(jié)合設(shè)計實現(xiàn)能提升。

我們看到在存儲領(lǐng)域(包括DRAM接口和片上存儲容量)的提升尤其小,而這可能也會是Nvidia進一步提升GPU能的一個重要瓶頸,當(dāng)然突破了之后也會成為一個重要的技術(shù)壁壘。

如前所述,HBM3的功耗可能是一個尚未解決的問題,而如何在芯片上放入更多的片上存儲器則將會被良率和成本所限制。

在存儲成為瓶頸的時候,芯片粒(chiplet)將會成為突破瓶頸的重要技術(shù)。正如之前所討論的,當(dāng)片上存儲容量更大時,GPU對于DRAM等片外存儲的需求就會越來越少,而片上存儲的瓶頸則是良率和成本。

一般來說,芯片的良率和其芯片面積成負(fù)相關(guān),當(dāng)芯片面積越大時,則芯片良率會相應(yīng)下降,尤其是在先進工藝中,良率更是一個重要考量。

而芯片粒則是可以大大改善這個問題:芯片粒技術(shù)并不是簡單地增加芯片的面積(例如更多片上存儲),而是把這些模塊分散在不同的芯片粒中,這樣一來整個芯片粒的芯片面積就會大大下降,從而改善良率。

此外,隨著GPU規(guī)模越來越大,為了能更好地控制整體良率,使用芯片粒技術(shù)也是一個自然地選擇。

我們認(rèn)為,在今天HBM3技術(shù)的功耗遇到瓶頸的時候,或者說HBM技術(shù)整體從功耗上遇到挑戰(zhàn)的時候,下一步的重要方向一定是從簡單地增加DRAM帶寬和在單個芯片上放更多晶體管變到更精細地設(shè)計架構(gòu)和片上存儲,這也就讓芯片粒占到了舞臺中央

事實上芯片粒和GPU的結(jié)合對于業(yè)界來說并不陌生。事實上Nvidia最有力地競爭對手AMD已經(jīng)把芯片粒技術(shù)使用在GPU上,此外在片上存儲部分AMD也發(fā)布了3D V-Cache,可望成為下一代繼續(xù)增加片上存儲的重要技術(shù)。

Nvidia在芯片粒方面也有相關(guān)布局,這次與Hopper同時間發(fā)布的用于芯片粒互聯(lián)的UCIe標(biāo)準(zhǔn)也意味著Nvidia在芯片粒領(lǐng)域的投資

我們認(rèn)為,在Nvidia未來公布的GPU中,非常有可能可以看到芯片粒技術(shù)的大量應(yīng)用,而這結(jié)合Nvidia的軟硬件協(xié)同優(yōu)化技術(shù)有可能會成為下一代Nvidia GPU的最大亮點。

標(biāo)簽: 高端顯卡 游戲玩家 性能提升

推薦

財富更多》

動態(tài)更多》

熱點

主站蜘蛛池模板: 四虎永久在线精品国产馆v视影院 | 伦伦影院午夜理论片 | 青青青青青手机视频在线观看视频 | 在线欧美日韩国产 | 97碰碰碰免费公开在线视频 | 偷窥日本少妇撒尿chinese | 国产精品久久久久久久久久直播 | 中文精品久久久久国产网址 | 草草影院精品一区二区三区 | 亚洲a∨无码无在线观看 | 成人三级视频在线观看不卡 | 少妇人妻精品一区二区三区 | 日本视频www色 | 国产精品卡1卡2卡3网站 | 日韩黄网站| 久久日本片精品aaaaa国产 | 国内熟女啪啪自拍 | 国语自产少妇精品视频蜜桃 | 日本欧美久久久久免费播放网 | 五月天亚洲激情 | 欧美亚洲激情视频 | 欧美成人性视频在线播放 | 亚洲天堂手机在线 | 国产超级av | 成在人av抽搐高潮喷水流白浆 | 十八女人水多三级 | 亚洲美女啪啪 | 亚洲熟妇无码一区二区三区导航 | 一级片久久久久 | 亚洲乱码国产乱码精品精大量 | 国产情侣疯狂作爱系列 | 天堂成人在线视频 | 亚洲国产果冻传媒av在线观看 | 久久久久久久久黄色 | 欧美人与禽zozzo性伦交 | 日韩精品1区 | 国产播放隔着超薄丝袜进入 | 2020精品国产视 | 六月婷婷久香在线视频 | 色综合久久综合欧美综合网 | 卡1卡2卡三卡精品视频 | 亚洲精品国产v片在线观看 国产精品久久久久久久久免费看 | 污漫网站 | 国产99久60在线视频 | 传媒 | 少妇又紧又色又爽又刺激视频 | 流白浆视频 | 真实国产乱子伦精品一区二区三区 | 办公丝袜av一区二区三区 | 天堂网站| 波多野结衣久久精品 | 国产精品泄火熟女 | 欧美mv日韩mv国产网站 | 久久久国产精品网站 | 国产精品高潮呻吟久久 | 久久久久久91亚洲精品中文字幕 | www.精品在线 | 国产毛片毛片精品天天看软件 | 欧洲a级毛片 | 久久人人爽人人人人爽av | 欧色丰满女同hd | 涩涩网站在线观看 | 久久99热全是成人精品 | 国产欧美精品一区二区三区小说 | 少妇特黄v一区二区三区图片 | 作爱视频在线 | 91精品一区二区三区久久久久 | 妇女bbbbb撒尿正面视频 | 麻豆国产av丝袜白领传媒 | 国产精品免费一区二区区 | 婷婷亚洲天堂影院 | 久久久妻 | 中文字幕人成无码人妻 | 国产亚洲综合一区二区三区 | 中文精品一卡2卡3卡4卡 | 亚洲一区二区三区高清在线看 | 亚洲gv猛男gv无码男同短文 | 日韩va中文字幕无码电影 | 动漫无遮挡羞视频在线观看 | 热99| 中文字幕在线二区 | 国产 | 久你欧洲野花视频欧洲1 | 国产视频中文字幕 | 日韩av片在线免费观看 | 又黄又爽又湿又无遮挡的在线视频 | 男人的天堂2019 | 国产高清不卡一区 | 日本中文字幕在线视频二区 | 午夜视频在线免费观看 | 亚洲午夜福利精品久久 | 亚洲成av人片在线观看高清 | 国产精品久久国产 | 又黄又湿免费高清视频 | 日韩女同强女同hd | 欧洲极品无码一区二区三区 | 色网在线免费观看 | 琪琪电影午夜理论片八戒八戒 | 97国产精品视频在线观看 | 国产a大片免费 | 久久综合第一页 |