◆ GeForce GTX 200并行計(jì)算架構(gòu)
前面說(shuō)過(guò),GTX 200不再僅是一塊娛樂(lè)級(jí)的顯卡,開始注重非游戲的密集型計(jì)算任務(wù),這也是GTX 200與以往GPU最大的不同,GTX 200的并行計(jì)算架構(gòu)為NVIDIA倡導(dǎo)的GPU Computing打下了堅(jiān)實(shí)基礎(chǔ)。
|
上圖展示了GTX 280在并行運(yùn)算模式下的架構(gòu),一個(gè)硬件級(jí)別的線程管理器在最上方,管理著TPC所處理的不同線程。除此以外你還可以輕易發(fā)現(xiàn)在在并行運(yùn)算架構(gòu)下該圖還包括了紋理緩存和顯存位寬單元(memory interface unit)。紋理緩存用以和顯存相結(jié)合,提高緩存的讀取效率,加大帶寬和加快讀寫速度!癆tomic”單元能夠執(zhí)行顯存的讀取-改動(dòng)-寫入操作,該單元能夠提供到顯存位置的granular access,幫助減少并行運(yùn)算數(shù)據(jù)存儲(chǔ)量以及數(shù)據(jù)存儲(chǔ)管理。
|
一個(gè)TPC(Thread Processing Cluster)在并行計(jì)算模式下的結(jié)構(gòu)如上圖,可以看見每三個(gè)SMs內(nèi)都有一個(gè)邏輯的16k大小的共享緩存,每一個(gè)流處理器核心都能夠和SM內(nèi)的其他核心共享信息,省下了從外部緩存系統(tǒng)中讀取信息的時(shí)間,這種設(shè)計(jì)大大加快了處理器的運(yùn)算速度,同時(shí)提高了各種算法的效率。
在并行計(jì)算模式下,Streaming Processor稱之為Thread Processor(線程處理器),仍然是前代的標(biāo)量設(shè)計(jì),即1MAD+2SFU,因此對(duì)于GTX 280來(lái)說(shuō),其浮點(diǎn)運(yùn)算能力達(dá)到了933GFLOPs(3*1296*240=933120),幾乎是Intel四核處理器9650的十倍之多,意味著GPU在浮點(diǎn)運(yùn)算中有得天獨(dú)厚的優(yōu)勢(shì)。