◆ GeForce GTX 200并行計算架構
前面說過,GTX 200不再僅是一塊娛樂級的顯卡,開始注重非游戲的密集型計算任務,這也是GTX 200與以往GPU最大的不同,GTX 200的并行計算架構為NVIDIA倡導的GPU Computing打下了堅實基礎。
|
上圖展示了GTX 280在并行運算模式下的架構,一個硬件級別的線程管理器在最上方,管理著TPC所處理的不同線程。除此以外你還可以輕易發(fā)現(xiàn)在在并行運算架構下該圖還包括了紋理緩存和顯存位寬單元(memory interface unit)。紋理緩存用以和顯存相結合,提高緩存的讀取效率,加大帶寬和加快讀寫速度�!癆tomic”單元能夠執(zhí)行顯存的讀取-改動-寫入操作,該單元能夠提供到顯存位置的granular access,幫助減少并行運算數據存儲量以及數據存儲管理。
|
一個TPC(Thread Processing Cluster)在并行計算模式下的結構如上圖,可以看見每三個SMs內都有一個邏輯的16k大小的共享緩存,每一個流處理器核心都能夠和SM內的其他核心共享信息,省下了從外部緩存系統(tǒng)中讀取信息的時間,這種設計大大加快了處理器的運算速度,同時提高了各種算法的效率。
在并行計算模式下,Streaming Processor稱之為Thread Processor(線程處理器),仍然是前代的標量設計,即1MAD+2SFU,因此對于GTX 280來說,其浮點運算能力達到了933GFLOPs(3*1296*240=933120),幾乎是Intel四核處理器9650的十倍之多,意味著GPU在浮點運算中有得天獨厚的優(yōu)勢。