NVIDIA 於 5 月 14 日正式發表針對人工智慧與高效能運算所研發的新一代「NVIDIA Ampere(安培)」架構 GPU 核心「NVIDIA A100」,能提供比前一代「Volta(伏打)」架構 GPU 核心 20 倍的運算效能。
-
A100 採用新一代 Ampere 架構,以台積電 7nm 製程打造,內含 540 億個電晶體,晶片尺寸達到史上最大的 826mm^2。配備 40MB L2 快取記憶體,以及由三星提供、頻寬高達每秒 1.5TB 的 40GB HBM2 記憶體。
Tensor 核心 |
432 個 |
FP64 最佳效能 |
9.7 TFLOPS |
FP64 Tensor 核心最佳效能 |
19.5 TFLOPS |
FP32 最佳效能 |
19.5 TFLOPS |
FP32 Tensor 核心最佳效能 |
156 TFLOPS / 312 TFLOPS ※ |
BFLOAT16 Tensor 核心最佳效能 |
312 TFLOPS / 624 TFLOPS ※ |
FP16 Tensor 核心最佳效能 |
312 TFLOPS / 624 TFLOPS ※ |
INT8 Tensor 核心最佳效能 |
624 TOPS / 1248 TOPS ※ |
INT4 Tensor 核心最佳效能 |
1248 TOPS / 2496 TOPS ※ |
GPU 記憶體 |
40 GB |
GPU 記憶體頻寬 |
每秒 1555 GB |
互連 |
NVIDIA NVLink 每秒 600 GB
PCIe Gen4 每秒 64 GB |
多執行個體 GPU |
最高到 7 個 5 GB 不同容量的執行個體 |
尺寸規格 |
NVIDIA HGX A100 使用 4 / 8 SXM |
最大 TDP 功耗 |
400W |
A100 導入第三代 Tensor 核心,採用全新 TF32 精度與標準 FP64 精度以加速並簡化人工智慧應用,同時將 Tensor 核心效能拓展至 HPC。當使用 TF32 時,無需更改程式碼即可將 AI 速度提升至最高 10 倍。透過 NVIDIA 自動混合精度運算,只要多加一行程式碼就能將效能提升 2 倍。支援 BF16、INT8 與 INT4 格式。
A100 支援多執行個體 GPU 技術,能將單一 GPU 分割成最多 7 個獨立運作的虛擬 GPU,各自在硬體中完全獨立受到保護,並具備個別的高頻寬記憶體、快取與運算核心,提供更具彈性的運用方式。
A100 支援第三代 NVLink,將 GPU 與 GPU 之間的連接頻寬翻倍至每秒 600GB,比 PCIe Gen4 的速度快將近 10 倍。當搭配最新一代 NVSwitch 時,伺服器中所有 GPU 都能透過 NVLink 全速相互交流,執行極高速的資料傳輸。還可以搭配 NVIDIA Mellanox ConnectX-6 Dx SmartNIC 來提供每秒 20 GB 的網路連線頻寬。
NVIDIA 同時發表配備 A100 的 AI 運算系統「NVIDIA DGX A100」,內含 8 組以 NVLink 互連的 A100,記憶體總頻寬每秒 12.4TB、總容量 320GB,最高可提供 5PFLOPS 的處理效能,價格 19 萬 9000 美元。
此外還發表了配備 1 組 A100 的邊緣 AI 運算加速卡「NVIDIA EGX A100」。
NVIDIA EGX A100