巔峰之作 4GB顯存GTX680四星大將評(píng)測(cè)

開普勒之架構(gòu)：流處理器暴增之謎

來(lái)源：泡泡網(wǎng)　更新日期：2012-05-06 作者：佚名

商顯市場(chǎng)最大的看點(diǎn)何在年度評(píng)選盛典獲獎(jiǎng)揭曉 Infocomm China 深入報(bào)道

內(nèi)容導(dǎo)航：　　分頁(yè)瀏覽 | 全文瀏覽

開普勒之架構(gòu)：流處理器暴增之謎

基于效能和計(jì)算能力方面的考慮，NVIDIA與AMD不約而同的改變了架構(gòu)，NVIDIA雖然還是采用SIMT架構(gòu)，但也借鑒了AMD“較老”的SIMD 架構(gòu)之作法，降低控制邏輯單元和指令發(fā)射器的比例，用較少的邏輯單元去控制更多的CUDA核心。于是一組SM當(dāng)中容納了192個(gè)核心的壯舉就變成了現(xiàn)實(shí)！

通過(guò)上面這個(gè)示意圖就看的很清楚了，CUDA核心的縮小主要?dú)w功于28nm工藝的使用，而如此之多的CUDA核心，與之搭配的控制邏輯單元面積反而縮小了，NVIDIA強(qiáng)化運(yùn)算單元削減控制單元的意圖就很明顯了。

此時(shí)相信有人會(huì)問(wèn)，降低控制單元的比例那是不是意味著NVIDIA賴以成名的高效率架構(gòu)將會(huì)一去不復(fù)返了？理論上來(lái)說(shuō)效率肯定會(huì)有損失，但實(shí)際上并沒(méi)有想象中的那么嚴(yán)重。NVIDIA發(fā)現(xiàn)線程的調(diào)度有一定的規(guī)律性，編譯器所發(fā)出的條件指令可以被預(yù)測(cè)到，此前這部分工作是由專門的硬件單元來(lái)完成的，而現(xiàn)在可以用簡(jiǎn)單的程序來(lái)取代，這樣就能節(jié)約不少的晶體管。

隨意在開普勒中NVIDIA將一大部分指令派發(fā)和控制的操作交給了軟件(驅(qū)動(dòng))來(lái)處理。而且GPU的架構(gòu)并沒(méi)有本質(zhì)上的改變，只是結(jié)構(gòu)和規(guī)模以及控制方式發(fā)生了變化，只要驅(qū)動(dòng)支持到位，與游戲開發(fā)商保持緊密的合作，效率損失必然會(huì)降到最低——事實(shí)上NVIDIA著名的The Way策略就是干這一行的！

這方面NVIDIA與AMD的思路和目的是相同的，但最終體現(xiàn)在架構(gòu)上還是有所區(qū)別。NVIDIA的架構(gòu)被稱為SIMT(Single Instruction Multiple Threads，單指令多線程)，NVIDIA并不像AMD那樣把多少個(gè)運(yùn)算單元捆綁為一組，而是以線程為單位自由分配，控制邏輯單元會(huì)根據(jù)線程的任務(wù)量和SM內(nèi)部CUDA運(yùn)算單元的負(fù)載來(lái)決定調(diào)動(dòng)多少個(gè)CUDA核心進(jìn)行計(jì)算，這一過(guò)程完全是動(dòng)態(tài)的。

但不可忽視的是，軟件預(yù)解碼雖然大大節(jié)約了GPU的晶體管開銷，讓流處理器數(shù)量和運(yùn)算能力大增，但對(duì)驅(qū)動(dòng)和游戲優(yōu)化提出了更高的要求，這種情況伴隨著AMD度過(guò)了好多年，現(xiàn)在NVIDIA也要面對(duì)相同的問(wèn)題了，希望他能做得更好一些。

返回投影機(jī)頻道首頁(yè)

推薦

年度大屏視聽行業(yè)評(píng)選，花落誰(shuí)家？

　標(biāo)簽：

上一頁(yè) 1 2 3 4 5 6 下一頁(yè)

在本頁(yè)閱讀全文

本文導(dǎo)航