NVIDIA 發表 7nm 製程新一代「安培」架構 AI 高效能運算 GPU 核心「A100」

(GNN 記者 Sam 報導) 2020-05-14 23:43:21

  NVIDIA 於 5 月 14 日正式發表針對人工智慧與高效能運算所研發的新一代「NVIDIA Ampere(安培)」架構 GPU 核心「NVIDIA A100」,能提供比前一代「Volta(伏打)」架構 GPU 核心 20 倍的運算效能。
 
  • image
    NVIDIA A100
 
  A100 採用新一代 Ampere 架構,以台積電 7nm 製程打造,內含 540 億個電晶體,晶片尺寸達到史上最大的 826mm^2。配備 40MB L2 快取記憶體,以及由三星提供、頻寬高達每秒 1.5TB 的 40GB HBM2 記憶體。
 
image
 

NVIDIA A100 規格概要

Tensor 核心 432 個
FP64 最佳效能 9.7 TFLOPS
FP64 Tensor 核心最佳效能 19.5 TFLOPS
FP32 最佳效能 19.5 TFLOPS
FP32 Tensor 核心最佳效能 156 TFLOPS / 312 TFLOPS
BFLOAT16 Tensor 核心最佳效能 312 TFLOPS / 624 TFLOPS 
FP16 Tensor 核心最佳效能 312 TFLOPS / 624 TFLOPS 
INT8 Tensor 核心最佳效能 624 TOPS / 1248 TOPS 
INT4 Tensor 核心最佳效能 1248 TOPS / 2496 TOPS 
GPU 記憶體 40 GB
GPU 記憶體頻寬 每秒 1555 GB
互連 NVIDIA NVLink 每秒 600 GB
PCIe Gen4 每秒 64 GB
多執行個體 GPU 最高到 7 個 5 GB 不同容量的執行個體
尺寸規格 NVIDIA HGX A100 使用 4 / 8 SXM
最大 TDP 功耗 400W

 ※ 稀疏優化

 
  A100 導入第三代 Tensor 核心,採用全新 TF32 精度與標準 FP64 精度以加速並簡化人工智慧應用,同時將 Tensor 核心效能拓展至 HPC。當使用 TF32 時,無需更改程式碼即可將 AI 速度提升至最高 10 倍。透過 NVIDIA 自動混合精度運算,只要多加一行程式碼就能將效能提升 2 倍。支援 BF16、INT8 與 INT4 格式。
 
image
 
  A100 支援多執行個體 GPU 技術,能將單一 GPU 分割成最多 7 個獨立運作的虛擬 GPU,各自在硬體中完全獨立受到保護,並具備個別的高頻寬記憶體、快取與運算核心,提供更具彈性的運用方式。
 
image
 
  A100 支援第三代 NVLink,將 GPU 與 GPU 之間的連接頻寬翻倍至每秒 600GB,比 PCIe Gen4 的速度快將近 10 倍。當搭配最新一代 NVSwitch 時,伺服器中所有 GPU 都能透過 NVLink 全速相互交流,執行極高速的資料傳輸。還可以搭配 NVIDIA Mellanox ConnectX-6 Dx SmartNIC 來提供每秒 20 GB 的網路連線頻寬。
 
image
 
  NVIDIA 同時發表配備 A100 的 AI 運算系統「NVIDIA DGX A100」,內含 8 組以 NVLink 互連的 A100,記憶體總頻寬每秒 12.4TB、總容量 320GB,最高可提供 5PFLOPS 的處理效能,價格 19 萬 9000 美元。
 
  此外還發表了配備 1 組 A100 的邊緣 AI 運算加速卡「NVIDIA EGX A100」。
 
image

NVIDIA EGX A100

新聞評語

載入中...

相關新聞


face基於日前微軟官方表示 Internet Explorer 不再支援新的網路標準,可能無法使用新的應用程式來呈現網站內容,在瀏覽器支援度及網站安全性的雙重考量下,為了讓巴友們有更好的使用體驗,巴哈姆特即將於 2019年9月2日 停止支援 Internet Explorer 瀏覽器的頁面呈現和功能。
屆時建議您使用下述瀏覽器來瀏覽巴哈姆特:
。Google Chrome(推薦)
。Mozilla Firefox
。Microsoft Edge(Windows10以上的作業系統版本才可使用)

face我們了解您不想看到廣告的心情⋯ 若您願意支持巴哈姆特永續經營,請將 gamer.com.tw 加入廣告阻擋工具的白名單中,謝謝 !【教學】