Hôm nay, NVIDIA đã khai mạc sự kiện GPU Technology Conference với việc CEO Jen-Hsun Huang bước lên sân khấu để công bố GPU đầu tiên dựa trên kiến trúc Volta – Tesla V100. Đây là bộ gia tốc tiên tiến nhất từng được chế tạo, được cung cấp sức mạnh bởi 5120 nhân CUDA, hơn 21 tỷ bóng bán dẫn, bộ nhớ HBM2 16GB băng thông 900GB/s.
GV100 bao gồm 21 tỉ bóng bán dẫn trong một nhân GPU kích thước 815mm2, được sản xuất dựa trên quy trình sản xuất 12nm FFN hiệu suất cao của TSMC. Nhìn chung, nó là một bướt nhảy vọt trong hiệu năng tính toán so với Pascal GP100.
Để nâng cao hiệu suất tính toán FP32 và FP64, NVIDIA đã trang bị cho GV100 một kiến trúc SMP mới. SMP trên Volta có tiêu thụ năng lượng hiệu quả hơn 50% so với thiết kế của Pascal. Trên hết, một trang bị mới trên Volta đó là “Tensor Cores” mà được thiết kế đặc biệt để cung cấp năng lực xử lý TFLOP lên đến 12 lần cho các ứng dụng học thuật chuyên sâu.
Nói về bộ nhớ, NVIDIA đã chọn sử dụng các modun bộ nhớ HBM2 của Samsung, kết hợp với bộ điều khiển bộ nhớ thế hệ mới trên Volta. Sự kết hợp này mang đến một hiệu suất băng thông tăng 1,5 lần so với GP100. Bộ nhớ HBM2 trên Volta được cho là hiệu quả hơn 95% khi chạy dưới các khối lượng công nhất định.
Dưới đây là các đơn vị tính toán đỉnh cao của Tesla V100:
- Hiệu suất tính toán FB64 là 7.5 TFLOP
- Hiệu suất tính toán FB32 là 15 TFLOP
- Hiệu tính toán ma trận Tensor 120 TFLOP/s
Bảng so sánh thông số của Tesla V100 với một số bản Tesla thế hệ trước đó.
TESLA PRODUCT | TESLA K40 | TESLA M40 | TESLA P100 | TESLA V100 |
GPU | GK110 (Kepler) | GM200 (Maxwell) | GP100 (Pascal) | GV100 (Volta) |
SMs | 15 | 24 | 56 | 80 |
TPCs | 15 | 24 | 28 | 40 |
FP32 Cores / SM | 192 | 128 | 64 | 64 |
FP32 Cores / GPU | 2880 | 3072 | 3584 | 5120 |
FP64 Cores / SM | 64 | 4 | 32 | 32 |
FP64 Cores / GPU | 960 | 96 | 1792 | 2560 |
Tensor Cores / SM | NA | NA | NA | 8 |
Tensor Cores / GPU | NA | NA | NA | 640 |
GPU Boost Clock | 810/875 MHz | 1114 MHz | 1480 MHz | 1455 MHz |
Peak FP32 TFLOP/s* | 5.04 | 6.8 | 10.6 | 15 |
Peak FP64 TFLOP/s* | 1.68 | 2.1 | 5.3 | 7.5 |
Peak Tensor Core TFLOP/s* | NA | NA | NA | 120 |
Texture Units | 240 | 192 | 224 | 320 |
Memory Interface | 384-bit GDDR5 | 384-bit GDDR5 | 4096-bit HBM2 | 4096-bit HBM2 |
Memory Size | Up to 12 GB | Up to 24 GB | 16 GB | 16 GB |
L2 Cache Size | 1536 KB | 3072 KB | 4096 KB | 6144 KB |
Shared Memory Size / SM | 16 KB/32 KB/48 KB | 96 KB | 64 KB | Configurable up to 96 KB |
Register File Size / SM | 256 KB | 256 KB | 256 KB | 256KB |
Register File Size / GPU | 3840 KB | 6144 KB | 14336 KB | 20480 KB |
TDP | 235 Watts | 250 Watts | 300 Watts | 300 Watts |
Transis tors | 7.1 billion | 8 billion | 15.3 billion | 21.1 billion |
GPU Die Size | 551 mm² | 601 mm² | 610 mm² | 815 mm² |
Manufacturing Process | 28 nm | 28 nm | 16 nm FinFET+ | 12 nm FFN |