NVIDIA công bố Tesla V100, GPU đầu tiên mang kiến trúc Volta

Hôm nay, NVIDIA đã khai mạc sự kiện GPU Technology Conference với việc CEO Jen-Hsun Huang bước lên sân khấu để công bố GPU đầu tiên dựa trên kiến trúc Volta – Tesla V100. Đây là bộ gia tốc tiên tiến nhất từng được chế tạo, được cung cấp sức mạnh bởi 5120 nhân CUDA, hơn 21 tỷ bóng bán dẫn, bộ nhớ HBM2 16GB băng thông 900GB/s.

GV100 bao gồm 21 tỉ bóng bán dẫn trong một nhân GPU kích thước 815mm2, được sản xuất dựa trên quy trình sản xuất 12nm FFN hiệu suất cao của TSMC. Nhìn chung, nó là một bướt nhảy vọt trong hiệu năng tính toán so với Pascal GP100.

Để nâng cao hiệu suất tính toán FP32 và FP64, NVIDIA đã trang bị cho GV100 một kiến trúc SMP mới. SMP trên Volta có tiêu thụ năng lượng hiệu quả hơn 50% so với thiết kế của Pascal. Trên hết, một trang bị mới trên Volta đó là “Tensor Cores” mà được thiết kế đặc biệt để cung cấp năng lực xử lý TFLOP lên đến 12 lần cho các ứng dụng học thuật chuyên sâu.

Nói về bộ nhớ, NVIDIA đã chọn sử dụng các modun bộ nhớ HBM2 của Samsung, kết hợp với bộ điều khiển bộ nhớ thế hệ mới trên Volta. Sự kết hợp này mang đến một hiệu suất băng thông tăng 1,5 lần so với GP100. Bộ nhớ HBM2 trên Volta được cho là hiệu quả hơn 95% khi chạy dưới các khối lượng công nhất định.

Dưới đây là các đơn vị tính toán đỉnh cao của Tesla V100:

  • Hiệu suất tính toán FB64 là 7.5 TFLOP
  • Hiệu suất tính toán FB32 là 15 TFLOP
  • Hiệu tính toán ma trận Tensor 120 TFLOP/s

Bảng so sánh thông số của Tesla V100 với một số bản Tesla thế hệ trước đó.

TESLA PRODUCT TESLA K40 TESLA M40 TESLA P100 TESLA V100
GPU GK110 (Kepler) GM200 (Maxwell) GP100 (Pascal) GV100 (Volta)
SMs 15 24 56 80
TPCs 15 24 28 40
FP32 Cores / SM 192 128 64 64
FP32 Cores / GPU 2880 3072 3584 5120
FP64 Cores / SM 64 4 32 32
FP64 Cores / GPU 960 96 1792 2560
Tensor Cores / SM NA NA NA 8
Tensor Cores / GPU NA NA NA 640
GPU Boost Clock 810/875 MHz 1114 MHz 1480 MHz 1455 MHz
Peak FP32 TFLOP/s* 5.04 6.8 10.6 15
Peak FP64 TFLOP/s* 1.68 2.1 5.3 7.5
Peak Tensor Core TFLOP/s* NA NA NA 120
Texture Units 240 192 224 320
Memory Interface 384-bit GDDR5 384-bit GDDR5 4096-bit HBM2 4096-bit HBM2
Memory Size Up to 12 GB Up to 24 GB 16 GB 16 GB
L2 Cache Size 1536 KB 3072 KB 4096 KB 6144 KB
Shared Memory Size / SM 16 KB/32 KB/48 KB 96 KB 64 KB Configurable up to 96 KB
Register File Size / SM 256 KB 256 KB 256 KB 256KB
Register File Size / GPU 3840 KB 6144 KB 14336 KB 20480 KB
TDP 235 Watts 250 Watts 300 Watts 300 Watts
Transis tors 7.1 billion 8 billion 15.3 billion 21.1 billion
GPU Die Size 551 mm² 601 mm² 610 mm² 815 mm²
Manufacturing Process 28 nm 28 nm 16 nm FinFET+ 12 nm FFN

Related posts

Doanh Thu Quý III/2024 Của Xiaomi Vượt Kỳ Vọng, Đạt 12,78 Tỷ USD, Đánh Dấu Cột Mốc Mới Trong Chiến Lược Nâng Tầm Thương Hiệu Của Xiaomi 

realme C75 – Điện Thoại Đạt Chuẩn Kháng Nước IP69 Đầu Tiên Tại Thị Trường Việt Nam

Enabot Ra Mắt Robot Camera Chăm Sóc Thú Cưng All-In-One ROLA Petpal, Tích Hợp Tiện Lợi Phụ Kiện Tương Tác, Cho Ăn Và Quan Sát Thú Cưng Từ Xa.