/ / Nvidia CUDA Cores so với Tensor Cores: Đâu là sự khác biệt?

Nvidia CUDA Cores so với Tensor Cores: Đâu là sự khác biệt?

GPU Nvidia đã đi một chặng đường dài, không chỉ về hiệu suất chơi game mà còn trong các ứng dụng khác, đặc biệt là trí tuệ nhân tạo và máy học. Hai yếu tố chính chịu trách nhiệm về hiệu suất GPU của Nvidia là lõi CUDA và Tensor có trên mọi GPU Nvidia hiện đại mà bạn có thể mua.


Nhưng chính xác những lõi này làm gì, và nếu cả hai đều được sử dụng trong các ứng dụng trí tuệ nhân tạo và học máy, thì chúng khác nhau như thế nào?


Lõi CUDA là gì và chúng được sử dụng để làm gì?

CUDA là viết tắt của Compute Unified Device Architecture, không giải thích được nhiều về sự hiện diện của chúng trong GPU. Các lõi này đã được đưa vào dòng GPU Nvidia trong kiến ​​trúc Maxwell năm 2014 và chuyên xử lý song song.

Chúng khá giống với lõi CPU về chức năng nhưng tốt hơn trong việc xử lý một số tác vụ nhất định, bao gồm hàm băm mật mã, công cụ vật lý, dự án liên quan đến khoa học dữ liệu và thậm chí cả phát triển trò chơi.

Hình ảnh cận cảnh Quạt GPU Geforce RTX 3080
Tín dụng hình ảnh: Nvidia

Mặc dù chúng tôi đã đề cập đến cách các lõi CUDA ảnh hưởng đến hiệu suất chơi trò chơi trên PC của bạn, nhưng chúng cũng hữu ích trong việc xử lý các con số. Mặc dù ngay cả những CPU mạnh nhất cũng có số lõi ở mức hai chữ số, GPU Nvidia đi kèm với vài nghìn lõi CUDA giúp chúng nhanh hơn nhiều ở khối lượng công việc số. Ngoài ra, vì chúng thực hiện các phép tính này song song, nên bạn sẽ có tốc độ nhanh hơn nhiều với các lõi CUDA.

Các lõi CUDA nhanh hơn các lõi CPU thông thường khi nói đến các con số khủng, nhưng chúng vẫn không phải là giải pháp lý tưởng. Đó là bởi vì chúng không bao giờ có ý định được sử dụng theo cách đó. Các lõi CUDA được thiết kế nhằm mục đích xử lý đồ họa và giúp GPU Nvidia có hiệu suất chơi game cao hơn.

Tensor Cores là gì và chúng được sử dụng để làm gì?

Khi GPU bắt đầu được sử dụng cho khối lượng công việc trí tuệ nhân tạo và học máy, Nvidia đã giới thiệu lõi Tensor trong kiến ​​trúc Volta cho GPU trung tâm dữ liệu của mình bắt đầu từ năm 2017.

Tuy nhiên, phải đến kiến ​​trúc Nvidia Turing (GPU dòng RTX 20) thì các lõi này mới xuất hiện trên GPU tiêu dùng. Hãy nhớ rằng mặc dù các thẻ GTX 16-Series cũng dựa trên kiến ​​trúc Turing, nhưng chúng không bao gồm bất kỳ lõi dò tia hoặc lõi Tensor nào.

GPU được cắm vào Vỏ máy tính đang chạy

Mặc dù các lõi CUDA phù hợp ở mức tốt nhất cho khối lượng công việc tính toán, nhưng các lõi Tensor đã tăng tốc độ trước đó bằng cách nhanh hơn đáng kể. Trong khi các lõi CUDA chỉ có thể thực hiện một thao tác trên mỗi chu kỳ xung nhịp, thì các lõi Tensor có thể xử lý nhiều thao tác, giúp chúng tăng hiệu suất đáng kinh ngạc. Về cơ bản, tất cả các lõi Tensor làm là tăng tốc độ nhân ma trận.

Việc tăng tốc độ tính toán này phải trả giá bằng độ chính xác, với các lõi CUDA chính xác hơn đáng kể. Điều đó nói rằng, khi đào tạo các mô hình máy học, các lõi Tensor hiệu quả hơn nhiều về tốc độ tính toán và chi phí tổng thể; do đó sự mất mát về độ chính xác thường bị bỏ qua.

Lõi Tensor và CUDA ảnh hưởng đến hiệu suất GPU như thế nào?

Như bạn có thể đoán bây giờ, trong khi lõi CUDA và Tensor có thể xử lý cùng một khối lượng công việc, thì cả hai lõi này đều là lõi chuyên dụng để kết xuất đồ họa và khối lượng công việc số tương ứng.

Điều này có nghĩa là tùy thuộc vào người dùng mà một GPU cụ thể được nhắm mục tiêu, nó sẽ có số lượng lõi khác nhau. Ví dụ: nếu chúng tôi xem xét RTX 4090, GPU chơi game hướng tới người tiêu dùng mới nhất và tốt nhất của Nvidia, thì bạn sẽ nhận được nhiều lõi CUDA hơn nhiều so với lõi Tensor. Cụ thể là 16.384 lõi CUDA đến 512 lõi Tenor.

Để so sánh, GPU Nvidia L40 dành cho trung tâm dữ liệu, dựa trên cùng kiến ​​trúc Ada Lovelace như RTX 4090, có 18.176 lõi CUDA và 568 lõi Tensor. Điều này có vẻ không phải là sự khác biệt lớn, nhưng nó có thể ảnh hưởng lớn đến hiệu suất của các GPU này.

Về hiệu suất lý thuyết, L40 có 90,52 TFlops của hiệu suất FP16 và FP32 cũng như 1.414 GFlops của hiệu suất FP64. Đây là một mức tăng hiệu suất lớn so với 82,58 TFlops của hiệu suất FP16 và FP32 của RTX 4090 và 1.290 GFlops của hiệu suất FP64.

GPU trong tay một người

Trừ khi bạn thông thạo các con số hiệu suất số của GPU, các con số hiệu suất dấu chấm động của GPU Nvidia ở trên có thể không có nhiều ý nghĩa đối với bạn. Tuy nhiên, tóm lại, họ cho thấy L40 nhanh hơn nhiều so với RTX 4090 khi tính toán số—những tính toán cần thiết cho khối lượng công việc dựa trên trí tuệ nhân tạo và máy học.

Việc cải thiện hiệu suất càng trở nên ấn tượng hơn khi bạn xem xét mức tiêu thụ điện năng của hai GPU. RTX 4090 có TGP được xếp hạng (đừng nhầm với TDP, có một sự khác biệt nhỏ) là 450W, trong khi L40 được xếp hạng chỉ 300W.

Cả hai GPU này sẽ chạy trò chơi và huấn luyện tốt mô hình máy học của bạn. Tuy nhiên, RTX 4090 sẽ chạy game tốt hơn và L40 sẽ tốt hơn trong việc đào tạo các mô hình máy học.

Lõi CUDA so với Lõi Tensor: Cái nào quan trọng hơn?

Cả hai lõi đều quan trọng như nhau, bất kể bạn mua GPU để chơi game hay đặt nó trong giá trung tâm dữ liệu. GPU chơi game dành cho người tiêu dùng của Nvidia sử dụng một loạt các tính năng AI (đáng chú ý nhất là DLSS) và việc có các lõi Tensor trên bo mạch có thể hữu ích.

Đối với GPU của trung tâm dữ liệu, các lõi CUDA và Tensor hầu như luôn hoạt động song song, vì vậy bạn sẽ nhận được cả hai bất kể GPU bạn chọn là gì. Thay vì tập trung vào một loại lõi cụ thể trong GPU của bạn, bạn nên tập trung nhiều hơn vào chức năng của cạc đồ họa nói chung và loại người dùng mà nó hướng đến.

hình ảnh của GPU RTX với lớp phủ lửa

Các lõi CUDA chuyên xử lý khối lượng công việc đồ họa, trong khi các lõi Tensor tốt hơn ở các khối lượng công việc số. Chúng hoạt động cùng nhau và có thể hoán đổi cho nhau ở một mức độ nào đó, nhưng chúng xử lý các chuyên môn của riêng mình, đó là lý do tại sao chúng tồn tại ngay từ đầu.

Các GPU khác nhau chuyên về các khía cạnh khác nhau. RTX 4090 sẽ dễ dàng nghiền nát bất kỳ trò chơi nào bạn ném vào nó, trong khi RTX 4060 chỉ có thể xử lý trò chơi 1080p. Nếu bạn không chơi trò chơi bằng GPU của mình và chỉ yêu cầu nó để xử lý số liệu hoặc đào tạo mạng thần kinh, thì GPU trung tâm dữ liệu A-Series như A100 hoặc thậm chí L40 là lựa chọn tốt nhất cho bạn.

Lõi GPU của bạn có vấn đề

Nhiều lõi GPU hơn sẽ mang lại cho bạn hiệu suất tổng thể tốt hơn vì GPU của bạn sẽ linh hoạt hơn và có các tài nguyên chuyên dụng để xử lý các tác vụ khác nhau. Tuy nhiên, mù quáng nhận GPU có số lượng lõi cao nhất không phải là quyết định tốt nhất. Hãy dành một chút thời gian để xem xét cẩn thận trường hợp sử dụng của bạn, xem xét toàn bộ khả năng của GPU và sau đó đưa ra lựa chọn của bạn.

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *