/ / Bộ tăng tốc AI bản năng của AMD là gì?

Bộ tăng tốc AI bản năng của AMD là gì?

Không còn nghi ngờ gì nữa, NVIDIA tiếp tục thống trị không gian điện toán song song với các dòng GPU phổ biến khác nhau của mình. Nhưng với bộ tăng tốc AI Instinct của AMD trang bị cho hai siêu máy tính mới nhất và lớn nhất (Frontier và El Capitan) cũng như sự hỗ trợ ngày càng tăng của cộng đồng đối với nền tảng ROCm nguồn mở của họ, NVIDIA có thể đã tìm thấy đối thủ lớn nhất của họ.


Vậy chính xác thì bộ tăng tốc AI Instinct của AMD là gì? Điều gì làm cho chúng mạnh mẽ và làm thế nào để chúng so sánh với GPU Tensor của NVIDIA?


Bộ xử lý AMD Instinct là gì?

Bộ xử lý Instinct của AMD là phần cứng cấp doanh nghiệp được sử dụng cho điện toán hiệu năng cao (HPC) và xử lý tăng tốc AI. Không giống như GPU thông thường, dành cho người tiêu dùng, GPU Instinct chuyên dùng để xử lý tốt hơn quá trình học AI và các tác vụ hiệu suất cao khác thông qua các đổi mới phần mềm và phần cứng.

Dòng GPU Instinct của AMD được sử dụng để cung cấp năng lượng cho siêu máy tính đầu tiên phá vỡ rào cản Exascale, hoạt động ở tốc độ 1,1 EFLOP ở các hoạt động có độ chính xác kép mỗi giây. Các siêu máy tính sử dụng GPU Instinct hiện đang được sử dụng để nghiên cứu các phương pháp điều trị ung thư, năng lượng bền vững và biến đổi khí hậu.

Cách bộ xử lý Instinct tăng tốc AI và HPC

Để các máy chủ và siêu máy tính chính mạnh nhất thế giới đạt được khả năng xử lý ở cấp độ Exascale, bộ tăng tốc Instinct của AMD phải được trang bị một số cải tiến và nâng cấp công nghệ.

Hãy thảo luận về một số công nghệ mới và cập nhật được sử dụng trên GPU AMD Instinct.

1. Tính toán DNA (CDNA)

đồ họa kỹ thuật số của thành phần CDNA bản năng AMD
Tín dụng hình ảnh: Pascal Liebart/AMDLibrary

Các bộ tăng tốc AMD Instinct gần đây (bắt đầu từ MI100) đã sử dụng kiến ​​trúc CDNA của công ty.

CDNA chủ yếu tập trung vào các tính năng như xử lý song song, phân cấp bộ nhớ và hiệu suất tính toán được tối ưu hóa thông qua công nghệ Matrix Core của họ. Ngay cả HPC và AI hoặc máy học chạy trên các máy chủ đơn lẻ cũng có thể được hỗ trợ bởi CDNA, cũng như các máy tính Exascale khổng lồ.

Công nghệ Matrix Core của AMD tăng tốc quá trình học AI bằng cách hỗ trợ các hoạt động có độ chính xác hỗn hợp. Khả năng tính toán ở các độ chính xác khác nhau cho phép GPU Instinct tính toán hiệu quả các hoạt động của ma trận dựa trên mức độ chính xác cần thiết.

Các định dạng tính toán chính xác phổ biến nhất bao gồm FP64, FP32, FP16, BF16 và INT8. FP là viết tắt của Floating Point, BF cho Brain Floating Point và INT cho Integer. Con số tương ứng với định dạng càng cao thì tính toán càng chính xác. Hoạt động ở 64-bit được gọi là độ chính xác kép. Với 32 bit, đó là độ chính xác đơn, 16 bit là độ chính xác một nửa, v.v.

Do phần lớn việc đào tạo các mô hình học sâu không yêu cầu độ chính xác cao nên việc có khả năng tính toán các phép toán ma trận ở độ chính xác một nửa hoặc thậm chí một phần tư để suy luận giúp giảm đáng kể khối lượng công việc, do đó tăng tốc quá trình học AI.

2. Bộ nhớ băng thông cao (HBM)

đồ họa kỹ thuật số của các thành phần bên trong bộ tăng tốc AMD
Tín dụng hình ảnh:Jason De Vos/AMDLibrary

Mỗi bộ tăng tốc AMD Instinct AI đi kèm với tối đa 880 Lõi ma trận. Với bộ xử lý Matrix Core của AMD có thể thực hiện 383 TFLOP phép tính nửa chính xác, việc có bộ nhớ cực nhanh là cần thiết. Các sản phẩm Instinct mới nhất của AMD được trang bị Bộ nhớ băng thông cao (HBM) thay vì RAM DDR4 hoặc DDR5 thông thường.

Không giống như bộ nhớ thông thường, HBM sử dụng cái được gọi là kiến ​​trúc xếp chồng 3D. Loại kiến ​​trúc này đề cập đến một phương pháp thiết kế trong đó các khuôn DRAM được xếp chồng lên nhau theo chiều dọc. Điều này cho phép các khuôn được xếp chồng lên nhau trên cả trục dọc và trục ngang, do đó có thuật ngữ xếp chồng 3D.

Với công nghệ xếp chồng 3D này, HBM có thể có dung lượng bộ nhớ vật lý lớn tới vài trăm gigabyte trên mỗi mô-đun, trong khi DRR5 chỉ có thể lên tới hàng chục gigabyte trên mỗi mô-đun. Ngoài dung lượng, HBM còn được biết là có hiệu suất cao hơn về tốc độ truyền tải và hiệu suất năng lượng tốt hơn so với bộ nhớ DDR thông thường.

3. Vải vô cực

Một cải tiến khác có trong GPU Instinct là công nghệ Infinity Fabric của AMD. Infinity Fabric là một loại hệ thống kết nối liên kết CPU và GPU theo cách năng động thông minh. Điều này cho phép các thành phần giao tiếp hiệu quả với nhau.

Với Infinity Fabric, thay vì kết nối các thành phần bằng một bus thông thường, các thành phần hiện được kết nối trong một mạng dạng lưới nơi băng thông có thể lên tới vài trăm gigabyte mỗi giây.

Ngoài kết nối dạng lưới, Infinity Fabric còn sử dụng các cảm biến được nhúng trong mỗi khuôn để tự động kiểm soát tần số, tốc độ truyền dữ liệu và các hành vi thích ứng khác, tối ưu hóa hiệu suất và giảm thiểu độ trễ.

4. Nền tảng phát triển ROCm

CUDA của NVIDIA (kiến trúc thiết bị điện toán hợp nhất) là nền tảng phát triển được sử dụng rộng rãi nhất để đào tạo các mô hình AI. Vấn đề với CUDA là nó chỉ hoạt động với GPU NVIDIA. Đây là một trong những lý do chính tại sao NVIDIA chiếm phần lớn thị phần áp đảo đối với bộ tăng tốc GPU HPC và AI.

Với việc AMD muốn giành được một phần lớn hơn trong thị trường HPC và AI, họ đã phải phát triển nền tảng của riêng mình, ROCm (Radeon Open Compute). ROCm là một nền tảng phần mềm mã nguồn mở cho phép sử dụng GPU Instinct làm công cụ tăng tốc AI.

Mặc dù không nhất thiết phải là một phần của phần cứng Instinct, ROCm là nền tảng khi nói đến sự tồn tại của dòng GPU Instinct. Với ROCm, các nhà phát triển và nhà nghiên cứu có được các công cụ ROCm, trình biên dịch, trình điều khiển nhân, toàn bộ thư viện và quyền truy cập vào các khung như TensorFlow và PyTorch để phát triển bằng ngôn ngữ lập trình AI ưa thích của họ.

Bộ tăng tốc AI Instinct so với bộ tăng tốc AI GPU Radeon như thế nào?

AMD cung cấp dòng GPU Instinct cho doanh nghiệp và GPU Radeon cho người tiêu dùng thông thường. Như đã thảo luận trước đó, GPU Instinct sử dụng kiến ​​trúc CDNA, HBM và kết nối Infinity Fabric của AMD. Ngược lại, Radeon sử dụng kiến ​​trúc RDNA của AMD, bộ nhớ DDR6 và Infinity Cache.

Mặc dù ít khả năng hơn, dòng Radeon của bộ tăng tốc AI vẫn có một cú đấm thực hiện một hoặc hai lõi bộ tăng tốc AI trên mỗi đơn vị tính toán. GPU Radeon RX7900 XT mới nhất có hai lõi tăng tốc AI trên mỗi đơn vị tính toán, cho phép 103 TFLOP ở độ chính xác một nửa cao nhất và 52 TFLOP ở độ chính xác đơn cao nhất.

Mặc dù dòng GPU Instinct phù hợp hơn với LLM và HPC, nhưng bộ tăng tốc Radeon AI có thể được sử dụng để tinh chỉnh các mô hình được đào tạo trước, suy luận và các tác vụ chuyên sâu về đồ họa.

Bản năng AMD so với NVIDIA Tensor

Theo khảo sát của TrendForce, NVIDA chiếm 80% thị phần GPU máy chủ, trong khi AMD chỉ có 20%. Thành công vượt trội này của NVIDIA là do họ là một công ty chuyên về thiết kế và lắp ráp GPU. Điều này cho phép họ thiết kế các GPU hoạt động tốt hơn đáng kể mà các sản phẩm khác không thể so sánh được.

Hãy so sánh Bản năng MI205X của AMD và H100SXM5 của NVIDIA bằng cách sử dụng thông số kỹ thuật từ trang web chính thức của AMD và bảng dữ liệu riêng của NVIDIA:

Mô hình GPU

FP64 (TFLOP)

FP32 (TFLOP)

FP16 (TFLOP)

INT8 (TFLOP)

Bản năng AMD MI250X

30,0

60,0

1000

2000

NVIDIA H100SXMS

47,9

95,7

383.2

383

Như bạn có thể thấy trong bảng, MI250X của AMD hoạt động tốt hơn về tính toán độ chính xác kép và độ chính xác một nửa, trong khi H100SXMS của NVIDIA tốt hơn nhiều về tính toán ma trận độ chính xác một nửa và độ chính xác một phần tư. Điều này làm cho MI250X của AMD phù hợp hơn với HPC trong khi H100SXMS của NVIDIA với khả năng học hỏi và suy luận của AI.

Tương lai của bộ xử lý bản năng của AMD

Mặc dù sản phẩm mới nhất của AMD, MI250X, được thiết kế cho HPC, MI300 sắp tới của họ được định hướng đào tạo AI nhiều hơn. Bộ tăng tốc AI này được công bố là một APU, kết hợp GPU và CPU trong một gói. Điều này cho phép MI300 sử dụng kiến ​​trúc APU bộ nhớ hợp nhất CNDA3 của họ, trong đó GPU và CPU sẽ chỉ sử dụng một bộ nhớ, tăng hiệu quả và giảm giá.

Mặc dù AMD sẽ không cạnh tranh với NVIDIA trên thị trường máy gia tốc AI ngày nay, nhưng một khi MI300 được phát hành và ROCm trở nên bóng bẩy, dòng Instinct của AMD có thể đủ tốt để giành lấy một phần đáng kể thị trường máy gia tốc AI từ NVIDIA.

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *