扛起CUDA大旗 GeForce GTX 200深入評(píng)測(cè)

GTX 200的主要改進(jìn)
來(lái)源:超能網(wǎng) 更新日期:2008-06-20 作者:佚名
內(nèi)容導(dǎo)航:  分頁(yè)瀏覽 | 全文瀏覽

◆ GTX 200的主要改進(jìn)

  ·SIMT架構(gòu)

  NVIDIA的統(tǒng)一渲染以及運(yùn)算架構(gòu)使用了兩種不同的處理模式,在使用TPC執(zhí)行指令時(shí)該模式被稱為MIMD(Multiple instruction multiple data),在使用每一個(gè)SM執(zhí)行指令時(shí),模式被稱為SIMT(single instruction, multiple thread)。

  SIMT改進(jìn)了純SIMD(single instruction, multiple data)設(shè)計(jì),能夠同時(shí)保證性能以及可編程特性。在擁有可擴(kuò)充性的同時(shí),SIMT并沒(méi)有一個(gè)固定的矢量寬度(vector width),這使得在SIMT處理模式下,運(yùn)算速度可以全速展開(kāi),完全和矢量寬度脫離關(guān)系。

  相反,如果輸入信息較MIMD或SIMD寬度少的話,SIMD模式會(huì)開(kāi)始低負(fù)載運(yùn)作,SIMT保證所有流處理器能夠在任何使用都能夠被充分利用。在一個(gè)編程者的角度來(lái)看,SIMT同樣允許線程使用自己的路徑。由于分支機(jī)構(gòu)(branching)是由硬件來(lái)控制的,所以并不需要在矢量寬度(vector width)內(nèi)手動(dòng)管理分支。

  ·同時(shí)支持大量線程

  GTX 200系列顯卡的GPU能夠同時(shí)支持超過(guò)三萬(wàn)個(gè)線程(thread),基于硬件的線程管理保證了所有流處理器核心能夠100%全部利用。核心架構(gòu)的設(shè)計(jì)避免CPU內(nèi)經(jīng)常出現(xiàn)的延時(shí)問(wèn)題:如果某個(gè)線程正在等待讀取緩存信息,那么GPU能夠?qū)崿F(xiàn)一個(gè)完全即時(shí)沒(méi)有損耗的轉(zhuǎn)換,將另一個(gè)等待處理的線程交由空閑部分繼續(xù)處理。

  SIMT多線程指令單元處在SM內(nèi)部,能夠管理安排以及處理一組32個(gè)平行的線程,被稱為"warps"。前一代的GeForce 8或者GeForce 9 GPU每SM只能同時(shí)處理24個(gè)warps,而GTX 200系列顯卡的GPU能夠達(dá)到32warps/SM的效率。我們可以看到,憑借SM以及TPC數(shù)量的增多,可同時(shí)處理的線程數(shù)量也由GeForce 8和9系列的12888上升至30720個(gè)(1024*3*10=30720)。

  ·加大的寄存器組

  和GeForce 8或9系產(chǎn)品相比,在GTX200系列顯卡中本地寄存器組的大小增加了一倍,在以往,寄存器組往往會(huì)因?yàn)檫^(guò)小導(dǎo)致信息必須轉(zhuǎn)存至顯存中,增大的寄存器組能夠允許顯卡更快速有效地處理大且復(fù)雜的shader。雖然寄存器組容量加大了,不過(guò)在核心die內(nèi)這些額外的寄存器只占用了不多的些許面積。

  現(xiàn)在的游戲越來(lái)越多地使用復(fù)雜的shader,需要更加大的寄存器組空間。

  ·改進(jìn)的Dual Issue

  在SM內(nèi)部的特殊功能單元(Special Function Unit,SFU)負(fù)責(zé)超越數(shù)的運(yùn)算,屬性插值(從一個(gè)原始的頂點(diǎn)屬性中解釋像素屬性,interpreting pixel attributes from a primitive vertex attributes),以及處理浮點(diǎn)MUL指令。GT200內(nèi)每一個(gè)獨(dú)立的流處理核心都以幾乎全速的速度,用Dual issue的方法來(lái)運(yùn)算:使用核心內(nèi)部的MAD單元處理MADs(multiply add operations)以及MULs(3flops/SP),另外在同一時(shí)間也使用SFU單元來(lái)進(jìn)行MUL運(yùn)算。改進(jìn)和直接的測(cè)試表明這種結(jié)構(gòu)能夠帶來(lái)93%~94%的效率。

  在GPU內(nèi)部的所有特殊功能單元陣列能夠?yàn)轱@卡帶來(lái)幾乎1Tflops的single -precision, IEEE 754浮點(diǎn)運(yùn)算能力。

  ·支持雙精度浮點(diǎn)運(yùn)算

  在GTX 200核心架構(gòu)內(nèi)部有一個(gè)非常重要的新特點(diǎn):支持double precision、64bit雙精度浮點(diǎn)運(yùn)算。這對(duì)高端的科學(xué)工程以及金融運(yùn)算更加有利,能夠?yàn)槠鋷?lái)非常高精確度的結(jié)果,每一個(gè)SM內(nèi)都有一個(gè)double-precision 64bit的浮點(diǎn)運(yùn)算單元,整個(gè)芯片內(nèi)總共有30個(gè)。

  這些double precision單元能進(jìn)行融合的MAD演算,完全兼容與IEEE 754R浮點(diǎn)運(yùn)算規(guī)格。所有TPC內(nèi)部的double precision性能幾乎等同與一個(gè)八核的XeonCPU,接近90Gflops。

  ·改進(jìn)的紋理性能

  8800GTX核心內(nèi)部擁有8個(gè)TPC,允許進(jìn)行每頻率內(nèi)64像素的紋理過(guò)濾,每頻率32像素尋址,每頻率32像素的兩倍反鋸齒雙線性過(guò)濾(8bit整數(shù))或者32-雙線性過(guò)濾像素(8bit整數(shù)或者16bit浮點(diǎn)),而GTX 200改進(jìn)的紋理性能平衡了尋址能力和過(guò)濾能力。

  ·提高Shader to texture比例

  由于游戲和其他圖形程序的需要,系統(tǒng)正在使用越來(lái)越多的復(fù)雜化shader,為了重新平衡顯卡的運(yùn)算能力,GTX 200系列GPU的設(shè)計(jì)重新調(diào)整了Shader to texture的比例,通過(guò)在TPC內(nèi)部增加1個(gè)SM讓Shader to texture的比例上升了50%,這讓GTX 200系列顯卡在處理目前以及將來(lái)的游戲時(shí)能夠更加有效率。

  ·ROP改進(jìn)

  GeForce 8系列的ROP系統(tǒng)支持multisampled,supersampled,透明適應(yīng)以及Sampling抗鋸齒等功能,對(duì)于GTX 200同樣支持這些特性,ROP單元數(shù)量由6個(gè)增加到8個(gè)之外,總的ROPs數(shù)達(dá)到32個(gè),相對(duì)于G80每時(shí)鐘周期24像素的輸出和12像素的混合速度,GTX 200均提升至每時(shí)鐘周期32像素,更加有利于高分辨率以及AA環(huán)境中速度的提升。

  ·1GB的Framebuffer

  現(xiàn)在的3D游戲采用了大量的紋理來(lái)提高畫(huà)面的真實(shí)度,例如用普通的map提高表面真實(shí)度,用立方map來(lái)增強(qiáng)反射效果,用高分辨率的perspective shadow map來(lái)模擬soft shadow。這些map使得渲染每一幀畫(huà)面都需要大量的顯存,而不像傳統(tǒng)的游戲,有base texture就可以了。另外,Deferred rendering引擎在multiple render時(shí),需要有一個(gè)預(yù)先渲染圖片特性的過(guò)程,這意味著又需要額外的顯存,還有就是很耗顯存的反鋸齒技術(shù),這些技術(shù)使得內(nèi)存和帶寬的需求都大大高于以前。

  Geforce GTX 280和GTX 260分別支持1024MB和896MB的Framebuffer,是上一代顯卡的兩倍。1GB顯存將使高分辨率的反鋸齒能力得到提升。


  ·幾何shading和stream out

  比起上一代顯卡,GTX 200將內(nèi)部緩存輸出結(jié)構(gòu)提高了6倍,使幾何渲染和stream out的速度大大提升。

  ·512bit顯存接口

  GTX 200的最大顯存帶寬從原來(lái)的384bit提高到了512bit,擁有8個(gè)64-bit-wide FrameBuffer單元,為了使texture單元在被有效利用的同時(shí),又不會(huì)出現(xiàn)不足,F(xiàn)reamBuffer帶寬需要反復(fù)調(diào)整達(dá)到最佳,NVIDIA的工程師測(cè)試了許多應(yīng)用程序,最終達(dá)到了這個(gè)目的。

  GTX 200 GPu的framebuffer總效率得到了提高,為了支持更高速度的顯存,重新設(shè)計(jì)了framebuffer重要的path,使得顯卡最高能支持到1.1GHz的DDR3顯存,內(nèi)存的存取模式和緩存算法也都得到了改良。另外硬件壓縮加大了數(shù)據(jù)傳輸率,而實(shí)際上是增加了framebuffer帶寬,也提升了顯卡在高分辨率下的性能。

 標(biāo)簽:
上一頁(yè) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 下一頁(yè)
廣告聯(lián)系:010-82755684 | 010-82755685 手機(jī)版:m.pjtime.com官方微博:weibo.com/pjtime官方微信:pjtime
Copyright (C) 2007 by PjTime.com,投影時(shí)代網(wǎng) 版權(quán)所有 關(guān)于投影時(shí)代 | 聯(lián)系我們 | 歡迎來(lái)稿 | 網(wǎng)站地圖
返回首頁(yè) 網(wǎng)友評(píng)論 返回頂部 建議反饋
快速評(píng)論
驗(yàn)證碼: 看不清?點(diǎn)一下
發(fā)表評(píng)論