曾經(jīng)與Intel“摩爾定律”齊名的NVIDIA“黃氏定律”稱“在圖形處理器領(lǐng)域,每過半年GPU的性能提高一 倍”!但縱觀2011年,不管是NVIDIA還是AMD,桌面顯卡發(fā)展都陷入了一種形式化的怪圈,新品看似不斷實則“不新”、定位看似精準(zhǔn)實則混亂,架構(gòu) 工藝鮮有創(chuàng)新,性能體驗躑躅不前。GTX500和HD6000均乏善可陳,反而讓Intel集顯在轉(zhuǎn)碼領(lǐng)域搶到一席之地。2012年伊始,AMD一舉推出 南方群島的旗艦產(chǎn)品,無論架構(gòu)設(shè)計還是性能表現(xiàn)都非常強勁,AFan迎來了有一個春天!
在全球所有IT媒體和顯卡用戶的目光注視下,AMD再次問鼎消費級顯卡的王者寶座,作為AMD全球合作伙伴之一的鐳風(fēng)顯卡,第一時間在國內(nèi)發(fā)布了HD7970龍蜥版3072M!
古人云魚與熊掌不可兼得,HD7970的確優(yōu)秀,但在雙芯的HD6990和GTX590面前還是遜色不少,雙芯顯卡雖然強悍,但發(fā)熱問題一直困擾著它,不管是頻率還是壽命都難以完全保障,有沒有兩者兼得的方法呢?
HD7970雙卡交火測試,希望能給渴望超越極限的朋友一些參考。
核心架構(gòu)對顯卡性能至關(guān)重要,可能有些讀者對HD7970的核心還不熟悉,這里我們簡單介紹一下。
我們知道AMD歷代GPU的瓶頸除了曲面細分以外,其實最重要的是5D/4D VLIW架構(gòu)的效率問題。HD7950和HD7970核心代號Tahiti,采用了全新的GCN架構(gòu),流處理器結(jié)構(gòu)全部重新設(shè)計而來。
Tahiti徹底拋棄VLIW架構(gòu)
通過Tahiti的整體架構(gòu)圖我們看到,傳統(tǒng)的SIMD流處理器陣列消失了,取而代之的是GCN陣列,Tahiti總計擁有2048個流處理器,這樣每個GCN陣列里面擁有64個流處理器,F(xiàn)在來看看GCN陣列的微觀結(jié)構(gòu)。
GCN與GF100的SM何其相似
GCN陣列里有4組SIMD單元,每組SIMD單元里面包括16個流處理器、或者說是標(biāo)量運算器。GCN架構(gòu)已經(jīng)完全拋棄了此前5D/4D流處理器 VLIW超長指令架構(gòu)的限制,不存在5D/4D指令打包-派發(fā)-解包的問題,所有流處理器以16個為一組SIMD陣列完成指令調(diào)度。簡單來說,以往是指令 集并行,而現(xiàn)在是線程級并行。
可以這么理解,一個GCN陣列與GF100當(dāng)中的一組SM相當(dāng),GF100的一組SM當(dāng)中有4組共計32個流處理器,而Tahiti的一組GCN當(dāng)中有4組共計64個流處理器。
緩存部分
每個SIMD-16單元都擁有64KB向量寄存器
每組GCN陣列擁有64KB的本地數(shù)據(jù)共享緩存,還有16KB的一級緩存
每組GCN陣列有一個標(biāo)量運算單元,用于執(zhí)行整數(shù)指令、媒體指令和浮點原子操作,這個標(biāo)量運算單元擁有自己的4KB寄存器
而GF100的緩存設(shè)計得更加靈活,每組SM里面擁有總計64KB的共享緩存+一級緩存,這64KB緩存可以根據(jù)實際運算量來動態(tài)調(diào)整,如果把16KB分配給一級緩存的話,那剩下的48KB就是共享緩存,反之亦然。
一般來說,進行圖形渲染時需要共享緩存比較多,而并行計算時則會用到更多的一級緩存。GF100這種靈活的緩存分配機制更適合做并行計算,而GCN架構(gòu)更大的共享緩存會有更好的圖形渲染性能,并行計算則會稍遜一籌。
更多的線程調(diào)度
從緩存部分的設(shè)計來看,雖然GCN擁有更大的緩存容量,但在并行計算領(lǐng)域經(jīng)營多年的NVIDIA顯然要棋高一手。
從線程級別來看,GCN與SM是不可分割的最小單元,GCN一次可以執(zhí)行64個線程,而SM是48個(其實就是流處理器的數(shù)量)。
從多線程執(zhí)行上來看,GCN可以同時執(zhí)行4個硬件線程,而SM是雙線程調(diào)度器的設(shè)計(參見架構(gòu)圖)。
所以GCN架構(gòu)的多線程性能更加優(yōu)秀。
HD7970應(yīng)用:EYEFINITY“2.0”解析
Eyefinity歷史回顧:
2009年9月,Eyefinity驚艷登場,震驚業(yè)內(nèi)。
2010年2月:催化劑10.2加入了交火系統(tǒng)對Eyefinity的支持。
2010年3月:催化劑10.3支持邊框補償、顯示器單獨色彩調(diào)整、多屏分組、改進多屏配置切換。
2010年4月:六屏版Radeon HD 5870 Eyefinity 6發(fā)布。
2010年7月:催化劑10.7,交火系統(tǒng)支持垂直模式的Eyefinity,同時增強HydraVision。
2011年4月:催化劑11.4,配置界面改版。
2011年5月:催化劑11.5,HydraVision繼續(xù)增強。
很顯然,Eyefinity的進步是與催化劑驅(qū)動息息相關(guān)的,未來也是。
Eyefinity 2.0新特性:催化劑11.10就已經(jīng)支持的有新的多屏布局配置、彈性的邊框補償、16K×16K超高清分辨率。
催化劑11.12和明年催化劑12.1/12.2將會陸續(xù)支持的則有:Eyefinity+HD3D多屏立體技術(shù)、自定義分辨率(等待太久了!)、預(yù)設(shè)管理改進、桌面和任務(wù)欄重新定位。
最后一項,之前三屏系統(tǒng)上桌面圖標(biāo)會停留在第一屏,任務(wù)欄則橫跨三個屏幕,看起來很費勁,今后則會全部集中在中央屏幕上,就像單屏那樣。
必須承認,NVIDIA是一家很有遠見的公司,一年多前就研發(fā)成功的3D Vision立體顯示技術(shù),現(xiàn)在已經(jīng)成為整個IT業(yè)界的發(fā)展趨勢。但AMD的3D立體顯示技術(shù)從HD6000開始也獲得了長足的進步,而在HD7000上已經(jīng)越來越成熟。
首先在硬件方面,只要能夠支持120Hz刷新率的輸出,就可以在PC上實現(xiàn)3D顯示技術(shù)。而想要在平板電視和投影儀上實現(xiàn)3D輸出、120Hz刷新率、 1080p全高清的3D立體游戲,左右眼各有60Hz,都能達到60FPS的流暢幀率,就需要高帶寬的HDMI 1.4a標(biāo)準(zhǔn)的支持,上一代顯卡中HD6870/6850率先做到了,而HD7000更是不在話下。
DisplayPort 1.2 HBR2、HDMI 1.4a都有超高帶寬,單個接口即可滿足4K×4K分辨率輸出,顯示設(shè)備方面的支持不是問題,市面上主流的3D電視、投影儀,還有120Hz LCD或者雙面板LCD都能支持ATI顯卡,尤其是三星和LG都有多款型號早已上市。
支持AMD HD3D立體技術(shù)的游戲正在越來越多,現(xiàn)已超過600款,而且可以選擇第三方的iZ3D、DDD或者原生的HD3D等不同方案,其中原生的有:《塵埃3》、《戰(zhàn)地3》、《殺出重圍3:人類革命》、《兩個世界2》。
目前AMD的3D顯示技術(shù),無論效果、兼容性還是軟件支持度方面,都絲毫不差于3D Vision。無論是對于3D游戲的立體化,還是2D視頻的3D化,都得到了主流媒體播放器的支持,而且AMD的新一代UVD3引擎還能支持3D藍光硬解 碼,可以說已經(jīng)相當(dāng)成熟了。
HD7970應(yīng)用:AMD APP 加速并行技術(shù)
CUDA是NVIDIA顯卡的一大賣點,它能夠?qū)PU龐大的運算能力釋放出來,對非3D游戲應(yīng)用軟件進行加速,實現(xiàn)比純CPU運算更快的效能。CUDA目前雖然有很多種類的軟件,但最主要的應(yīng)用還是集中在視頻編輯和轉(zhuǎn)碼方面。
Radeon HD 7900系列上的APP加速技術(shù)包括三個方面:獨立的硬件高清視頻加速引擎、增強的計算硬件和軟件、基于AMD APP SDK開發(fā)包的應(yīng)用生態(tài)系統(tǒng)。
AMD此番帶來了新的高清編碼技術(shù)“視頻編碼引擎”(VCE),其核心功能是一個多流硬件H.264高清編碼器,編碼速度甚至超過1080p@60FPS的播放速度,而且支持完全固定、混合計算兩種編碼模式。
質(zhì)量方面支持4:2:0色彩取樣,針對游戲和視頻場景變化做出優(yōu)化,并且可以自行控制壓縮質(zhì)量。此外還支持音頻視頻復(fù)合,顯存輸入用于轉(zhuǎn)碼、視頻會議,GPU顯示引擎輸入用于無線顯示。
TotalMedia Theatre 5.2(簡稱TMT 5.2),特別針對AMD技術(shù)優(yōu)化,支持MVC編碼硬件加速(藍光3D節(jié)目)、MPEG-4 ASP UVD硬件加速解碼、基于AMD APP SDK重新編寫的OpenCL SimHD高清差值插件。
TMT 5.2還進行了新概念的重新設(shè)計,包括Alpha混合用戶界面、本地與在線媒體管理、電影元數(shù)據(jù)搜索、DVD電影和視頻片段智能菜單、2D-3D實時轉(zhuǎn)換插件Sim3D等等。
WinZip 16.5,通過Corel、AMD的合作,針對A卡優(yōu)化,現(xiàn)在可以利用OpenCL進行Deflate壓縮、Inflate解壓、AES加密的加速,并且 能夠同時利用處理器、集成/獨立顯卡的資源。官方宣稱,APU使用集顯或獨顯的測試證明,WinZip 16.5 AES加密的速度提升了兩三倍。
AMD APP生態(tài)系統(tǒng):瀏覽器與插件、消費級視頻編輯、辦公與地圖、流行媒體播放器。
還有新的媒體處理指令SAD(絕對差值和),這是多項關(guān)鍵視頻與圖像處理算法的關(guān)鍵操作,包括動態(tài)監(jiān)測、姿態(tài)識別、食品與圖像搜索、深度提取、計算機視覺等等。
Radeon HD 7900系列支持4×1 SAD、4×4 QSAD,每個時鐘周期可處理最多64個像素,其中Radeon HD 7970每秒鐘能處理18多萬億個像素。此外還有MQSAD,可以忽略背景像素、加速移動物體的隔離。
Steady Video技術(shù)也將進化為2.0版本,不過這里AMD只是介紹了基本原理,沒有公開新特性,據(jù)說支持QSAD硬件加速、隔行模式視頻、左右對比模式。
一如其在DX10.1上的率先支持一樣,HD 7970的發(fā)布也讓AMD再一次在DX規(guī)格支持上獲得領(lǐng)先。DX11.1,相比目前廣泛應(yīng)用的DX11規(guī)范,它的升級能帶來什么樣的技術(shù)改變,需要什么樣的軟件平臺,什么時候才有支持DX11.1的游戲或者應(yīng)用呢?
DX11.1升級了什么?
從小數(shù)點后的步進來看,DX11.1只是一次版本上的小步快跑而非大步飛躍,所以不會有什么激動人心的功能變化,但是這不代表DX11.1沒有亮點,相反DX11.1的看點還是挺多的。
1.加入3D立體支持
DX11發(fā)布后的這兩年,DX圖形技術(shù)沒啥變化,但是伴隨3D電影興起的3D游戲也火了起來,體驗過3D游戲之后大多數(shù)人都會覺得很震撼(也有 人覺得很暈),栩栩如生的感覺不再是“科幻”。DX11.1很重要的一點改進就是增加了D3D 3D API,可以讓開發(fā)者通過D3D實現(xiàn)3D渲染。
之所以這么說是因為目前實現(xiàn)3D立體顯示的技術(shù)要么是部分繞過D3D API而使用四倍緩沖器(Quad Buffer)實現(xiàn)3D游戲或應(yīng)用,要么就是利用驅(qū)動/中間件實現(xiàn)的。在DX11.1中,3D渲染可以通過新增的D3D API實現(xiàn),而且微軟的D3D 3D API并非排他性的,依然支持其他驅(qū)動/中間件方案。換句話就是DX11.1之后,開發(fā)者多了一個實現(xiàn)3D的選擇。
2.支持TBDR渲染
TBDR(Tile Based Deferred Render,延遲渲染貼圖)也是DX11.1中新增的一個操作指令。它原本是Power VR公司使用的3D渲染技術(shù),主要用在智能手機以及平板、游戲機等設(shè)備上。與傳統(tǒng)z緩沖的渲染過程相比,TBDR不需要渲染不可見像素,這樣極大地減少了 數(shù)量運算量,非常適合移動設(shè)備使用。
這項技術(shù)對桌面圖形計算來說并沒有太大意義,只是DX11.1并不只會用在桌面顯卡上,還承載著微軟擴張移動領(lǐng)域疆土的希望,TBDR依然是DX11.1中的重要功能,低功耗設(shè)備的福音。
3.TIR目標(biāo)獨立光柵化
TIR(Target Independent Rasterization,目標(biāo)獨立光柵化)的功能要求有所不同,因為前面的兩項技術(shù)只需升級DX11.1運行時程序即可,而TIR卻需要更改硬件設(shè)計,因此只有新一代顯卡才能支持,無法在原有顯卡上直接升級。
Rasterization光柵化是圖像處理的后期過程,DX11.1支持目標(biāo)獨立光柵化,可以將原本CPU負責(zé)的工作完全轉(zhuǎn)移到GPU上,進而提高D2D的抗鋸齒性能。
4.支持雙精度浮點運算
雙精度浮點運算(Double-precision shader functionality)或者叫FP64不僅在GPU計算上意義非凡,在圖形渲染中也大有用武之地。雖然DX11中其實已經(jīng)包含了FP64雙精度支持,但是功能有限,DX11.1中才真正實用化。
5.圖形與視頻之間的操作性更靈活
DX11.1強化了圖形、視頻等各種資源之間的操作靈活性,比如計算渲染器(Compute Shader)可以通過Media Foundation處理視頻(video),并將以前的D3DDX9、D3DX10視頻處理全部統(tǒng)一到D3DX11中去,可以簡化編程,提高效率。
以上列舉的只是DX11.1規(guī)范功能升級的一部分,在微軟的MSDN頁面上有詳細的DX11.1功能介紹,不過里面的內(nèi)容主要針對開發(fā)者/程序員,普通讀者讀起來肯定頭大,我們也不需要搞這么復(fù)雜。
簡單來說,DX11.1相對DX11只是一次優(yōu)化升級,但是從DX10到DX10.1性能有提升的經(jīng)驗來看,DX11.1可能也有小小的驚喜,即便畫質(zhì)上沒有提高,性能也會因效率的提高而受益多多。
DX11.1什么時候發(fā)布,支持平臺如何?
微軟之前稱DX11.1將伴隨Win8一起發(fā)布,不過Win8開發(fā)者預(yù)覽版上還是DX11,至少也要等到Win8 beta之后了,時間上差不多是明年2月份,最慘的就是要等待正式版發(fā)布了,這個就沒準(zhǔn)了。由于軟硬件平臺都沒準(zhǔn)備好,所以目前還沒有一個基于 DX11.1的游戲或者demo,不知道一向敢為人先的Unigine公司什么時候放出第一個DX11.1 demo。
綜上來看,DX11.1只是顯卡架構(gòu)升級中的小甜點,不能當(dāng)成大餐,不過甜點也有自己獨特的味道,就看廠商如何應(yīng)用了。AMD先發(fā)制人,又一次用行動證實了自己在支持DX11規(guī)范上的領(lǐng)先。
介紹完GCN核心架構(gòu),下面我們就來看看這款HD7970的做工用料如何……
核心方面,鐳風(fēng)HD7970龍蜥版3072M基于全新28nm工藝制造的Tahiti XT 顯示核心,擁有2048個流處理器、32個光柵單元和128個紋理單元,支持DirectX 11.1 API,Eyefinity 2.0、AMD App Acceleration等全新技術(shù)。
供電方面,鐳風(fēng)HD7970龍蜥版3072M采用5+1相數(shù)字供電設(shè)計,全固態(tài)電容的用料,外接供電接口采用6pin+8pin設(shè)計,并且支持全新的ZeroCore Power(核心零功耗技術(shù)),使得理論待機功耗僅為3W。
顯存方面,鐳風(fēng)HD7970龍蜥版3072M采用12顆顯存芯片組成了384bit顯存規(guī)格,顯存為GDDR5。默認核心顯存頻率為925MHz/5500MHz。
在散熱方面,鐳風(fēng)HD7970龍蜥版3072M采用的是高壓渦輪風(fēng)扇+真空腔流體熱板的設(shè)計全公版的外形配合7MM的渦輪風(fēng)扇讓外觀顯得非常拉風(fēng)。
接口方面,鐳風(fēng)HD7970龍蜥版3072M擁有1×DVI-I,1×HDMI,2×mini Display Port。其中,mini Display Port接口是新一代影像顯示介面技術(shù)規(guī)格之一,高達10.8 Gbit/s 的頻寬,并支持HD3D多屏3D技術(shù),7.1 高比特率音頻格式和三維立體技術(shù)。
此次測試平臺選擇了Intel最高端的六核心處理器,搭配最新的X79芯片組,盡量發(fā)揮雙HD7970的最大性能。
測試平臺配置:
此次測試的顯卡定位頂級玩家,所以測試時所有游戲中開啟2560X1600分辨率+全部特效,包括4X抗鋸齒(AA)和16X各向異性過濾(AF)。雖然很多游戲提供了更高精度的AA,但由于實用價值不高,且沒有可對比性,所以不做測試。
這款來自技嘉的X79采用E-ATX大板型,尺寸達到驚人的30.5 x 26.4厘米,可搭配采用LGA2011接口的Intel SNB-E處理器使用,支持四通道內(nèi)存技術(shù),板載八根內(nèi)存插槽,同時支持3路多卡并聯(lián)技術(shù),PCIE 3.0 X16規(guī)格顯卡插槽,3D BIOS技術(shù)和3D Power技術(shù)。雙BIOS設(shè)計又為誤操作提供了安全保障,讓主板隨時原地滿血復(fù)活。
輸入輸出方面提供兩個SATA 6Gbps接口和四個SATA 3Gbps接口,另由Marvell 88SE9172芯片提供四個SATA 6Gbps接口和兩個eSATA 6Gbps接口,可以滿足大多數(shù)人的硬件接駁需要。
鐳風(fēng)HD7970龍蜥版3072M雙卡性能測試和全文總結(jié)
從上面的做工拆解我們看到了這款鐳風(fēng)HD7970龍蜥版3072M不輸于公版的品質(zhì),下面我們看看它的單、雙卡游戲性能。
既然是卡皇CF,那小分辨率低畫質(zhì)就完全沒有測試的必要了,所以我們僅測試了2560分辨率下的表現(xiàn)。默認頻率和公版完全一樣,所以沒有必要和公版對比性 能。從上表中的測試數(shù)據(jù)我們發(fā)現(xiàn)參加測試的游戲中,要求BT的地鐵2033單卡依然難以流暢運行,而選擇雙卡交火這樣的霸氣配置,終于突破了30幀大關(guān), 可以說沒有什么游戲能難得住鐳風(fēng)HD7970龍蜥版3072MX2這樣的無敵組合。
總結(jié):
HD7970作為AMD最新高端顯卡,完美支持DX11.1,應(yīng)用豐富,性能強勁。通過本次的測試,我們發(fā)現(xiàn)該卡從做工用料扎實,在溫度、噪音方面都表現(xiàn)不錯。
曾幾何時,雙卡讓骨灰級玩家又愛又恨,愛的是它爆表的性能,恨的是各種驅(qū)動不完善,交火效率低下,功耗發(fā)熱失控。而HD7970的發(fā)布無疑讓籠罩在CF上 空的陰霾慢慢消散,憑借超低的待機功耗,超高的能效比和最新的應(yīng)用技術(shù),28nm的HD7970無疑是目前市場上組建頂級多卡平臺的不二之 選,HD6990之類的雙芯顯卡顯然無法與之相提并論,當(dāng)然一切的前提是你有足夠的零花錢。