新一代顯示晶片 NV40

（GNN 記者 Sam 報導） 2004-04-22 09:10:24

　　NVIDIA 於日前發表了傳聞以久的新一代顯示卡產品 GeForce 6800，不但令外界耳目一新，更洗刷了 NVIDIA 長久以來在微軟 DirectX 9 世代產品一直居於下風的恥辱，並且以超越現有高階產品兩倍以上的高效能，以及具備目前最高影像品質與最完備影像處理功能，替下一代的顯示晶片立下了一個典範。

　　GeForce 6800 是以代號 NV40 的繪圖晶片為核心，NV40 是首顆支援 DirectX 9 Shader Model 3.0，或稱為 DirectX 9.0c 規格的繪圖晶片，晶片內部是以 6 組 Vertex Shader（頂點著色器），以及 16 條具備超純量設計管線的 Pixel Shader（像素著色器）所構成，並整合了 MPEG 1、2、4 以及 Windows Media Video 9 格式動態影像壓縮與解壓縮的輔助處理電路。

　　GeForce 6800 產品目前分為 Ultra 版與非 Ultra 版兩種：

	GeForce 6800 Ultra	GeForce 6800
繪圖晶片	NV40	NV40
頂點著色器	6 組	6 組
像素著色器管線	16 條超純量	12 條超純量
核心時脈	400MHz	未確認，推測 350MHz
記憶體類型	GDDR3	DDR
記憶體運作時脈	1.1GHz	1GHz
匯流排寬度	256 位元	256 位元
記憶體容量	256MB	128MB
記憶體頻寬	35GBps	32GBps
電源供應需求	2 組電源接頭，建議配備 480 瓦以上電源供應器	1 組電源接頭
預估售價	499 美金	299 美金

◆ DirectX 9 第二世代產品

　　自 ATI 推出 R300 顯示晶片產品後，顯示卡產品正式進入 DX9 的世代中，而 NVIDIA 在 DX9 產品的推出上，不但晚了對手一步，而且首次推出的 NV30，因為設計與製程的問題，使得首代的 GeForce 5800 產品不但耗電量大，散熱系統體積與噪音驚人（NVIDIA 研發人員亦曾製作搞笑影片來自我嘲諷），而且效能明顯的不如競爭對手的產品，使得自 TNT 以來連戰連勝的 NVIDIA 遭逢了第一次的重大挫敗。

　　其後 NVIDIA 雖然於 NV35 上力求振作，修改了部分設計，如記憶體匯流排與像素著色器的配置，但是由於其整體設計仍然是與 NV30 屬於同一代的架構，所以一直無法於效能競賽中真正領先。

　　因此，NVIDIA 在這次所推出的 NV40 產品上，採取了幾乎完全翻新的設計，其執行單元的數目、配置、功能...等等都與前代的 NV3X 有著非常大的不同，如將 NV3X 視為 NVIDIA DX9 第一世代的產品，則 NV40 即可視為 DX9 第二世代的產品，一般預料也將會是 NVIDIA DX9 的末代產品，架構上不會再有大更動。

◆ 效能成長

　　與前一代產品 GeForce 5950 相比，GeForce 6800 Ultra 的效能成長了數倍之多，以各種不同的應用程式與遊戲的綜合測試下，總合表現約比 GeForce 5950 高出一倍。在 NVIDIA 以廣泛用於評估 3D 繪圖效能的 3DMark 2003 所做的測試中，特製高時脈版本的 GeForce 6800 Ultra 更得到了史無前例的 14860 分，而標準版本的 GeForce 6800 Ultra 則是 12353，兩者皆遠超越現有的任何產品。

◆ DirectX 9.0 Shader Model 3.0

　　NV40 首度支援了 DirectX 9 Shader Model 3.0（以下簡稱 Shader 3.0），以下就 Shader 2.0 與 3.0 的差異作一列表：

	Shader 2.0	Shader 3.0
頂點著色器指令	256	65535
置換式貼圖	─	ˇ
頂點材質擷取	─	ˇ
座標引用機制	─	ˇ
動態流程控制	─	ˇ
著色器精確度	24 位元浮點數	32 位元浮點數
像素著色器指令	96	65535
子常式	─	ˇ
迴圈與分支	─	ˇ
動態流程控制	─	ˇ

　　由列表中可以看出，Shader 3.0 主要的進步在於著色器程式所能容許的指令數目大幅的增加，像素著色器也導入了原先只有頂點著色器才支援的迴圈與流程控制，且頂點與像素著色器兩者皆增加了動態流程控制，使得著色器程式碼的撰寫自由度大幅提高。在先前的 Shader 2.0 標準中，僅允許靜態的流程控制。利用動態流程控制，將可以依照實際情況動態判定使用何種程式碼來進行處理，NVIDIA 於 NV40 虛擬代言人，美人魚 Nalu 的展示中，在 Nalu 身上皮膚與鱗甲交錯之處，使用了動態流程控制的分支執行功能來針對皮膚與鱗甲所需不同處理的需求，動態決定該使用哪一種著色器程式碼來處理，使得原本需要多步驟繁複處理的過程可以大幅的簡化，提昇程式撰寫與執行的效率。

◆ 頂點著色器

　　NV40 的頂點著色器相較於 NV3X 家族所具備，較標準 Shader 2.0 更為強化的 Shader 2.0a 相比，主要的改進在於支援了頂點材質貼圖擷取功能，用以支援 Shader 3.0 內入標準支援項目的置換式貼圖（Displacement Mapping），置換式貼圖可以使用各種不同的頂點材質，配合相同的基礎 3D 模型，讓頂點依照頂點材質的資料來作偏移，產生不同外觀的模型。

　　而大幅強化的頂點著色器程式碼長度限制，以及靈活的動態流程控制，使得頂點著色器能更有效率的處理複雜的運算。

◆ 像素著色器

　　原本於 NV3X 世代產品中，其像素著色器皆是以虛擬 8 條管線，實際 4 條管線的配置，一般視為 4 x 2（4 管線 x 2 材質貼圖單元）或 8 x 0（處理 Z-stencil 像素時），而這個設計並未能與真正 8 條管線的 ATI 競爭產品達成相同的效益，所以 NVIDIA 在 NV40 的設計上，採用了真正 16 條管線並列的設計，而且不單是如此，每條管線還配置了兩組著色器，數量為前一代的四倍之多。

　　NVIDIA 先前並未承認過外界認定 NV3X 是 4 x 2、8 x 0 架構的說法，但這次在 NV40 發表資料中，首次以此標準來突顯 NV40 的進步，就 NVIDIA 的說法，如果 NV3X 是 4 x 2、8 x 0 架構，那麼 NV40 就是 16 x 1、32 x 0 的架構，執行單元成長了 2～4 倍之多。

　　而 NV40 像素著色器所具備的超純量 16 管線設計，則是以每條管線配置兩個著色器執行單元的方式，達成兩倍於前一代設計的執行效能，不過由於其中一組著色器與材質貼圖處理單元是共用的，所以在執行材質貼圖處理時，仍舊與前代產品相同，每週期可執行 1 材質貼圖運算 + 4 組著色器運算，但在執行著色器指令時，則較前代產品的每週期 4 組運算多出一倍，達每週期 8 組運算。可處理的指令數亦由前代的每個週期每個像素 2 個指令提昇至每個週期每個像素 4 個指令，像素元件（R G B A）的群組設定（例如 RGB + A 或 RG + BA 等配置）上，亦提供較前代更充分的彈性。因此，當執行指令數目較多較複雜的著色器程式時，NV40 將能得到顯著的效能提昇。

　　對於像素著色器的資料格式來說，NV40 則是充分對應 Shader 3.0，全面提升為 32 位元浮點數，而且內部的處理單元完全對應 32 位元浮點數格式。由於 NV3X 家族使用 32 位元浮點數效率僅有 16 位元浮點數的一半，明顯不如競爭對手 ATI 以 24 位元浮點數所達成的品質與效能的良好平衡，所以在 NV40 上 NVIDIA 改以完全的 32 位元浮點數架構設計，能保持一貫的速度運作，並得到最佳的品質。

◆ 影像處理器引擎

　　除了 3D 繪圖效能與功能上的進步之外，NV40 更針對了動態影像編解碼的需求，整合了可程式化的影像處理器引擎，以高效能的專屬硬體支援高解析度高畫質的 MPEG 1、2、4 與微軟 Windows Media Video 9 影像格式的壓縮解壓縮處理。在執行 MPEG2 編碼時，NV40 所具備的影像處理器引擎可負擔 60％的運算量，解碼時更可負擔高達 95％的運算量，並可以硬體支援如去交錯、色域轉換、伽碼校正、雜訊消除...等處理，大幅減輕 CPU 的負擔。

　　NV40 的影像處理器引擎並具備完整的視訊輸出入處理功能，支援視訊輸入，高傳真電視（HDTV）解析度高達 1920 x 1080(i) 的視訊輸出，以及高傳真影像訊號版權保護標準 HDCP，充分滿足新一代的高傳真多媒體影音需求。也正因為 NV40 內建完整的影像處理功能，所以在實作顯示卡產品時很容易整合必要的外部視訊輸出入轉換控制元件，讓顯示卡具備視訊輸出入的功能，由 NVIDIA 提供給各廠商的公版設計，以及目前眾多廠商所推出的 NV40 頂級顯示卡產品 GeForce 6800 Ultra 幾乎都具備此功能，即可看出此一趨勢。

　　而針對此一強大的影像處理器引擎，動態影像處理軟體龍頭廠商 Adobe 亦發表將充分發揮 NV40 可程式化影像處理引擎所帶來的新功能，來加強旗下動態影像處理軟體的功能與效能。

◆ 記憶體匯流排

　　相較於繪圖晶片核心的大幅進步，GeForce 6800 的記憶體匯流排的進展顯得不是那麼的突出，GeForce 6800 Ultra 版本採用了時脈 1.1GHz，匯流排寬度 256 位元的 GDDR3 記憶體，理論頻寬約 35GBps，相較於前代產品的 950MHz 256bits GDDR 來說，頻寬約提昇 15％，而由於 GDDR3 採用了較低的運作時脈，所以記憶體的耗電量較前代所採用的 GDDR2下降，有助於顯示卡的散熱處理。

　　但由於相對於繪圖晶片核心兩倍以上的效能成長，僅僅 15％的記憶體頻寬成長於是成了效能的瓶頸之一，為了解決這個問題，提昇多管線著色器的實際效能，NV40 首次採用了二階材質快取（L2 Texture Cache）的設計，讓個別頂點著色器與像素著色器管線內部的一階材質快取連結到統一的二階材質快取，以減低著色器管線對於外部記憶體存取的需求。

　　但這並未完全解決記憶體頻寬的瓶頸，使得 NV40 理論上應該可以達到單一週期內處理 16 個單材質貼圖的像素，但實際上僅能達到 12.27 個像素，相較於 NV35 理論 4 實際 3.99 來說，落差較大，後續產品如改用更高速的 GDDR3 繪圖記憶體時，將能有效提昇實際處理效能。

　　而由於 NV40 使用了完全的浮點數頂點與像素格式，並支援浮點數材質，所以對於記憶體空間的需求也將較前代產品提昇，目前所發表的頂級產品 GeForce 6800 Ultra 配備有 256MB 記憶體，NVIDIA 公布後續將發表高達 512MB 記憶體的產品，以充分發揮 NV40 的高精準度浮點數處理與儲存格式，應用於高階遊戲或者是專業 3D 繪圖製作的輔助上。

◆ 製程與功率

　　以往 NVIDIA 的顯示晶片都是交由台積電代工，但自去年 3 月 NVIDIA 正式與 IBM 簽定合作案之後，部分效能取向產品便由 IBM 代工生產，這次 NV40 則是完全以 IBM 所提供的 0.13 微米製程所生產，這是否意味著將來 NVIDIA 會自 TSMC 抽身而大幅轉進 IBM 代工，目前尚不得而知。

　　與同樣是採用 0.13 微米製程所生產的 NV3X 家族來說，這次 NV40 的電晶體數與晶片尺寸則是史無前例的巨大，共包含了 2.22 億的電晶體，相對於 NV35 的 1.3 億來說，整整成長了 70％，而晶片尺寸也由 NV35 的約 200 平方公厘成長為 300 平方公厘。另一個引人側目之處在於由 NV40 所構成的 GeForce 6800 Ultra 顯示卡居然配備了“兩”個外部電源接頭，官方並建議最好配備超過 480 瓦的電源供應器來供電，可見其功率消耗的可觀程度。

　　晶片尺寸與耗電過大，是 NV40 兩個最大的隱憂，因為這會導致 NV40 產能的低落與成本的高昂。如果以先前 NV3X 家族的規劃來看，NV4X 家族陸續應會推出像素著色器管線減半（8 條）的效能導向產品，以及再減半（4 條）的主流及價位導向產品，如 NV40 的晶片尺寸過大，則這些削減管線的中低價位晶片也將連帶的受到影響，而無法有效的壓低成本與耗電量，由於實際上獲利最多的是這兩個產品線，所以 NVIDIA 將必須要面對採用既有 0.13 製程硬上超多電晶體設計的苦果。

　　一般認為唯有儘速轉移至 90 奈米製程，才能讓 NV4X 家族達到成本與效能的平衡，目前 0.13 微米製程對於超過 2 億電晶體的設計，已經頗為勉強。不過，雖然目前 NV40 的耗電量驚人，但是在實際的測試中，GeForce 6800 Ultra 的溫度並未如耗電量般高，僅微溫而已，而且散熱系統的噪音也不大，並不像當初 GeForce 5800 Ultra 被比喻作電熱吹風機那般的高熱與吵雜。

◆ AGP 8X 與 PCI-Express 16X

　　如同 NV3X 家族一般，NV40 仍舊以 AGP 為原生支援介面，對於 PCI-Express 的支援則是透過 HSI（High-Speed Interconnect）橋接晶片，以獨特的 AGP 16X 規格來轉換至 PCI-Express 16X 的全雙工 4GBps 新一代高速匯流排。目前所發表的 GeForce 6800 產品皆為 AGP 8X 版本，PCI-Express 16X 版本則預定於今年下半年推出。

　　有別於競爭對手 ATI 以設計原生支援 PCI-Express 繪圖晶片的方式來提供 PCI-Express 顯示卡產品，NVIDIA 目前皆採用 HSI 橋接晶片的方式來提供 PCI-Express 的支援，HSI 方案的優點在於不需要變動既有繪圖晶片的設計，但缺點在於橋接方式並無法完全滿足 PCI-Express 全雙工 4GBps 的傳輸頻寬，以及 HSI 橋接晶片與電路造成生產成本的上升，這對於獲利空間較小的效能與主流市場產品來說，影響不可謂不大。

　　目前 NVIDIA 預計於 NV40 的下一代改良產品上實作 PCI-Express 的原生支援，預計當正式支援 PCI-Express 原生模式後，將更能充分發揮 NV4X 家族的效能優勢與應用範圍。

◆ 結論

　　在 ATI 率先以 R300 繪圖處理器進入 DirectX 9 世代之後，NVIDIA 在 DX9 世代可以說是棋差一著，在一連串的產品競賽中落於下風，如今 NVIDIA 推出大幅革新的 GeForce 6800 新一代產品，希望藉此扭轉情勢，而由目前所公布資料顯示，GeForce 6800 確實已領先 ATI 預定推出的新一代產品 R420。

　　對此情勢，目前傳聞 ATI 將於 5 月初正式發表新一代的產品 R420 Pro 來迎戰 NV40，由先前 ATI 所釋出的 R420 產品資訊來看，規格與效能與 NV40 有一段落差，所以這次冠上 Pro 的 R420，究竟作了哪些強化，相當引人注意，而這場 4 對 4 的競賽（NV4X 對 R4XX）究竟鹿死誰手，也將會是 PC 遊戲業界與遊戲玩家們所關心的焦點，GNN 後續亦將針對 ATI 與 NVIDIA 新產品的競爭作深入分析報導。

新一代顯示晶片 NV40

NT$1190

NT$2580

NT$850

NT$10480

NT$680

延伸報導