Đế bán dẫn Zeppelin cao cấp
Trên loạt Ryzen, AMD sử dụng thiết kế một đế bán dẫn chứa 8 nhân hay còn được gọi là đế bán dẫn Zeppelin. Đế bán dẫn này sẽ bao gồm hai cụm phức hợp (CCX) với mỗi cụm chứa 4 nhân xử lý, với mỗi CCX sẽ truy xuất vào một bộ nhớ đệm L3 có dung lượng 8MB. Đế bán dẫn Zeppelin sẽ truy cập vào hai kênh DRAM, cũng như số lanes PCIe đến add-in-card được cố định ở con số 16 lanes. Với Threadripper, AMD đã tăng gấp đôi đế bán dẫn.
Nếu bạn đã từng xem qua các bài viết delid một CPU Threadripper, bạn sẽ thấy có đến 4 tấm bán dẫn trên một đế silicon, tương tự như một vi xử lý EPYC, có nghĩa là Threadripper mang thiết kế Multi-Core Module (MCM). Với 2 tấm trong số được sử dụng như các miếng đệm gia cố, nghĩa là 2 tấm bán dẫn trống không được sử dụng ngoài việc giúp phân bổ trọng lượng của bộ tản nhiệt cũng như hỗ trợ trong quá trình làm mát. Hai tấm bán dẫn còn lại về cơ bản là giống như đế Zeppelin như Ryzen, chứa 8 nhân trong mỗi tấm bán dẫn và sẽ có quyền truy xuất vào hai kênh bộ nhớ. Chúng sẽ giao tiếp với nhau thông qua cầu kết nối Infinity Fabric, theo AMD công bố thì bang thông die- to-die là 102 GB/s với độ trể đối với bộ nhớ gần nhất là 78ns và với bộ nhớ xa nhất là 133ns (độ trể trên các bộ nhớ DDR4-2400) và trên bộ nhớ DDR4-3200 độ trể tương ứng lần lượt là 65ns và 108ns.
Trong khi đó, với các bộ xử lý EPYC, AMD công bố băng thông die- to-die là 42,6GB/s với bộ nhớ DDR4-2666. Sở dĩ EPYC thấp hơn là do cầu liên kết Infinity Fabric chỉ liên kết với 3 tấm bán dẫn bên trong và một tấm bán dẫn bên ngoài (trên một socket CPU thứ hai), đây là băng thông tối đa cho tất cả các liên kết. Nhưng với tấm bán dẫn trong Threadripper chỉ phải giao tiếp với một tấm bán dẫn khác do đó sẽ linh hoạt hơn. Dựa vào các thông số công bố bởi AMD, chúng tôi đưa ra các rằng Threadripper sử dụng hai liên kết 10.4GT/s theo các phương pháp sau:
- Die to Die for EPYC is quoted as 42.6 GB/s at DDR4-2667
- Die to Die for Threadripper is quoted as 102.2 GB/s at DDR4-3200
- 42.6 GB/s * 2 links * 3200/2667 = 102.2 GB/s
- 42.6 GB/s * 3 links * 3200/2667 at 8.0 GT/s = 115.8 GB/s ( too high)
- 42.6 GB/s * 3 links * 3200/2667 at 6.4 GT/s = 92.6 GB/s ( too low)
Khái niệm NUMA
Để khắc phục các vấn đề với bộ nhớ từ xa, AMD đã giới thiệu một khái niệm truy xuất bộ nhớ mới mà người dùng có thể chuyển đổi bên trong BIOS hoặc với phần mềm Ryzen Master. Hai thiết lập chế độ Local và Distributed tương ứng với NUMA (Non-Uniform Memory Access) và UMA (Uniform Memory Access)
UMA (Distributed) đơn giản hơn là nó cho phép đế bán dẫn truy xuất đế tất cả bộ nhớ có sẳn. Chế độ NUMA (Local) sẽ cố gắng giữ lại tất cả dữ liệu cho quá trình tính toán trên đế bán dẫn mà bộ điều khiển bộ nhớ có liên kết trực tiếp. Nó thiết lập một node NUMA trên đế bán dẫn (ẩn bên trong trình quản lý tác vụ – task manager). Điều này làm giảm hoặc thậm chí loại bỏ việc lấy dữ liệu từ bộ nhớ từ xa kết nối trên một đế bán dẫn khác, mặc dù đế bán dẫn vẫn có thể truy cập nó khi cần thiết. NUMA có nguồn gốc xuất phát từ các nền tảng doanh nghiệp, nhưng kỹ thuật này đòi hỏi các ứng dụng phải được phát triển đặc thù để có thể tận dụng được nó. Đối với các phần mềm được phát triển cho nền tảng tiêu dùng hầu như không có mấy phần mềm được thiết kế để hỗ trợ NUMA, nhưng vẫn có những lợi thế về hiệu suất cho các ứng dụng non-NUMA.
Threadripper của AMD đã được giới thiệu với số nhân nhiều nhất cho máy tính để bàn mà chúng ta đã từng được nhìn thấy, nhưng hầu hết các ứng lại chưa thể khai thác hết. Trong thực tế, một vài tựa game như Far Cry Primal và series DiRT thậm chí sẽ không chạy tất cả các luồng của Threadripper. Đó rõ ràng là một vấn đề, AMD đã đưa ra chế độ Legacy Compatibility để có thể vô hiệu hóa một nửa số nhân của bộ xử lý chỉ với câu lệnh “bcdedit / set numproc XX” trong hệ điều hành Win dows. Và khi kích hoạt dòng lệnh này, tất cả các lõi/luồng trên đế bán dẫn thứ hai sẽ bị vô hiệu hóa. Ở đây lại xuất hiện một lợi ích phụ đó là loại bỏ việc giao tiếp giữa các luồng với các luồng trên một đế bán dẫn khác tạo nên sự đồng bộ liên tục giữa các luồng trong hầu hết các tác vụ chơi game.
Và bởi vì đế bán dẫn được tắt thông qua phần mềm nên nguồn năng lượng trên nó vẫn được giữ nguyên, do đó hệ thống vẫn có thể truy xuất bộ nhớ và bộ điều khiển PCIe kết nối đến đế bán dẫn không hoạt động.
Game Mode và Crea tor Mode.
Vậy bạn sẽ làm gì với tất cả các node này? Có bốn sự kết hợp riêng biệt sẽ tác động khác nhau đến từng ứng dụng hoặc trò chơi, do đó bạn sẽ phải tìm hiểu tất cả để tìm ra một sự kết hợp tốt nhất cho công việc của bạn. Đây là một điều tuyệt vời với những ai muốn vắt kiệt từng mức hiệu suất cuối cùng nhưng lại là một thử thách đối với gần như 99% người dùng khác.
Nhưng AMD đã đơn giản quá quy trình bằng hai sự kết hợp đặc biệt mà sẽ tốt nhất cho Game hoặc các ứng dụng cụ thể. Crea tor Mode là một cấu hình mặc định, nhận dạng được tất cả các luồng (36 hoặc 24 luồng) do đó sẽ mang đến hiệu suất tuyệt vời cho các ứng dụng đòi hỏi hiệu suất cao.
Trong khi đó chế độ Game Mode sẽ cắt giảm một nữa số nhân/luồng thông qua chế độ tương thích và làm giảm bộ nhớ và độ trể giữa die- to-die so với chế độ Local Mode.