NVIDIA lần đầu tiên công bố vi xử lý Grace và thiết kế Superchip tại GTC 2022. CPU Grace là bộ xử lý đầu tiên của NVIDIA dựa trên kiến trúc ARM tùy chỉnh sẽ hướng đến phân khúc máy chủ/HPC. CPU có hai cấu hình Superchip, một mô-đun Grace Superchip với hai CPU Grace và một Grace + Hopper Superchip với một CPU Grace được kết nối với GPU Hopper H100.
Grace là vi xử lý máy chủ đầu tiên của NVIDIA với 72 lõi ARM V9.0 sẽ hỗ trợ SVE2 cũng như là các nền tảng ảo hóa mở rộng phổ biến bao gồm cả Nested Virtualization và S-EL2. CPU này sẽ được sản xuất dựa trên tiến trình 4N của TSMC, một tiến trình tối ưu của 5nm và sẽ được độc quyền sử dụng bởi NVIDIA.
Một trong những tính năng quan trọng của Grace là khả năng ghép nối Chip- to-Chip nhờ vào NVLINK được sử dụng để tạo SuperChip và loại bỏ hầu hết các nút cổ chai có trong các cấu hình đa socket. Kết nối C2C NVLINK cung cấp băng thông hai chiều lên đến 900GB/s đồng thời tiêu thụ điện năng thấp chỉ 1.3pJ/bit hoặc hiệu quả hơn giao thức PCIe đến 5 lần.
CPU NVIDIA Grace có thể mở rộng với thiết kế bộ đệm phân tán. Con chip này có băng thông bi-section lên đến 3.225TB/s, có thể mở rộng hơn 72 lõi (144 Superchip), tích hợp 117MB bộ nhớ đệm L3 và hỗ trợ phân vùng và giám sát bộ nhớ. Hai NVIDIA Grace + Hopperchip có thể được kết nối với nhau thông qua NVSwitch và một CPU Grace trên một Superchip này có thể giao tiếp trực tiếp với GPU trên chip kia hoặc thậm chí là truy xuất VRAM của nó ở tốc độ NVLINK gốc.
Xem xét kỹ hơn thì NVIDIA đang sử dụng lên đến 512GB LPDDR5X trên 32 kênh với băng thông bộ nhớ lên đến 564 GB/s. NVIDIA tuyên bố rằng LPDDR5X mang đến giá trị tốt nhất khi xem xét các yêu cầu về băng thông, chi phí và điện năng tổng thể. Đối với I/O, chúng ta sẽ có đến 68 lanes PCIe 5.0, bốn trong số đó có thể được sử dụng cho các kết nối x16 với tốc độ 128 GB/s, hai lanes được sử dụng cho MISC. Ngoài ra còn có 12 lanes NVLINK chia sẽ hai liên kết PCIe 5.0 x16.
Về TPD, NVIDIA Grace Superchip (chỉ CPU) được tối ưu hóa cho hiệu suất đơn nhân với băng thông lên đến 1 TB/s và TDP là 500W cho cấu hình hai chip 144 lõi. Để so sánh, chúng ta có một chip AMD EPYC 7736 có TDP là 280W và với cấu hình 2 socket là 580W.
NVIDIA đã nói rằng Gracce là một bộ xử lý chuyên biệt cao nhằm vào mục tiêu các khối lượng công việc như đào tạo các mô hình NLP thế hệ tiếp theo có hơn 1 nghìn tỷ thông số. Khi được kết hợp với GPU NVIDIA, hệ thống dựa trên Grace sẽ mang lại hiệu suất gấp 10 lần so với NVIDIA DGX hiện đại nhất hiện nay vốn chạy trên CPU x86.
nguồn: wccftech