AI Bias là gì và làm thế nào các nhà phát triển có thể tránh nó?

Khả năng trí tuệ nhân tạo đang mở rộng theo cấp số nhân, với AI hiện được sử dụng trong các ngành từ quảng cáo đến nghiên cứu y học. Việc sử dụng AI trong các lĩnh vực nhạy cảm hơn, chẳng hạn như phần mềm nhận dạng khuôn mặt, thuật toán tuyển dụng và cung cấp dịch vụ chăm sóc sức khỏe, đã gây ra tranh luận về sự thiên vị và công bằng.

Xu hướng là một khía cạnh được nghiên cứu kỹ lưỡng về tâm lý con người. Bản thân trí tuệ nhân tạo không thể bị sai lệch, nhưng con người phát triển và đào tạo mô hình thì có thể. Nghiên cứu thường xuyên phơi bày những sở thích và định kiến vô thức của chúng ta, và các hệ thống AI hiện phản ánh một số những thành kiến này trong thuật toán của chúng.

Vì vậy, làm thế nào để trí tuệ nhân tạo trở nên thiên vị? Và tại sao điều này lại quan trọng?

Mục Lục

Làm thế nào để AI trở nên thiên vị?

Để đơn giản, trong bài viết này, chúng tôi sẽ đề cập đến các thuật toán học máy và học sâu dưới dạng các thuật toán hoặc hệ thống AI.

Các nhà nghiên cứu và nhà phát triển có thể đưa sự thiên vị vào hệ thống AI theo nhiều cách. Ở đây, chúng tôi đã làm sáng tỏ hai trong số họ.

Đầu tiên, những thành kiến về nhận thức của các nhà nghiên cứu có thể vô tình được nhúng vào các thuật toán học máy. Thành kiến nhận thức là nhận thức vô thức của con người có thể ảnh hưởng đến cách mọi người đưa ra quyết định. Điều này trở thành một vấn đề quan trọng khi các thành kiến chống lại một người hoặc một nhóm người.

Những thành kiến này có thể được đưa vào một cách trực tiếp nhưng vô tình, hoặc các nhà nghiên cứu có thể huấn luyện AI trên các bộ dữ liệu mà bản thân chúng bị ảnh hưởng bởi thành kiến. Chẳng hạn, AI nhận dạng khuôn mặt có thể được đào tạo bằng cách sử dụng bộ dữ liệu chỉ bao gồm những khuôn mặt có làn da sáng. Trong trường hợp này, AI sẽ hoạt động tốt hơn khi xử lý các khuôn mặt có nước da sáng hơn là tối. Hình thức thiên vị AI này được gọi là di sản tiêu cực.

Thứ hai, các thành kiến có thể phát sinh khi AI được đào tạo trên các bộ dữ liệu không đầy đủ. Chẳng hạn, nếu một AI được đào tạo trên tập dữ liệu chỉ bao gồm các nhà khoa học máy tính, thì nó sẽ không đại diện cho toàn bộ dân số. Điều này dẫn đến các thuật toán không cung cấp dự đoán chính xác.

Ví dụ về xu hướng AI trong thế giới thực

Nhiều ví dụ gần đây, được báo cáo rõ ràng về sự thiên vị của AI minh họa cho sự nguy hiểm của việc cho phép những thành kiến này len lỏi vào.

Google Photos Người da màu bị thiệt thòi

Vào năm 2015, BBC đã báo cáo một sai lầm lớn trong nhận dạng khuôn mặt của Google Photos, được phát hiện là thiên vị đối với người da màu. Phần mềm trí tuệ nhân tạo đã nhầm lẫn các bức ảnh của một cặp đôi da đen là “khỉ đột”.

Vài năm sau, AlgorithmWatch đã tiến hành một cuộc thử nghiệm và công bố những phát hiện của mình. Google Vision Cloud, một dịch vụ AI tự động gắn nhãn hình ảnh, đã gắn nhãn ảnh chụp một người đàn ông da ngăm đen cầm nhiệt kế là ảnh chụp một khẩu súng; một bức ảnh tương tự mô tả một bàn tay trắng cầm nhiệt kế được dán nhãn “nhiệt kế”.

Cả hai sự cố đều nhận được sự chú ý rộng rãi của giới truyền thông và làm dấy lên mối lo ngại về tác hại tiềm ẩn mà sự thiên vị của AI có thể gây ra cho một số cộng đồng. Mặc dù Google đã xin lỗi về cả hai sự cố và thực hiện các bước để giải quyết vấn đề, nhưng những sự kiện này nhấn mạnh tầm quan trọng của việc phát triển các hệ thống AI không thiên vị.

Bệnh nhân da trắng được ưu tiên theo thuật toán chăm sóc sức khỏe dựa trên Hoa Kỳ

Vào năm 2019, một thuật toán máy học đã được thiết kế để giúp các bệnh viện và công ty bảo hiểm xác định bệnh nhân nào sẽ được hưởng lợi nhiều nhất từ các chương trình chăm sóc sức khỏe nhất định. Khoa học Mỹ đã báo cáo rằng thuật toán, dựa trên cơ sở dữ liệu chứa khoảng 200 triệu người, ưu tiên bệnh nhân da trắng hơn bệnh nhân da đen.

Người ta xác định rằng điều này là do một giả định sai lầm trong thuật toán liên quan đến chi phí chăm sóc sức khỏe khác nhau giữa người da đen và người da trắng, và sai lệch cuối cùng đã giảm 80%.

Tội phạm da trắng được dán nhãn COMPAS ít rủi ro hơn tội phạm da đen

Hồ sơ Quản lý Người phạm tội Cải huấn cho các Hình phạt Thay thế, hay COMPAS, là một thuật toán AI được thiết kế để dự đoán liệu những người cụ thể có tái phạm hay không. Thuật toán tạo ra gấp đôi kết quả dương tính giả đối với những người phạm tội da đen so với những người phạm tội da trắng. Trong trường hợp này, bộ dữ liệu và mô hình có sai sót, dẫn đến sai lệch nặng nề.

Thuật toán tuyển dụng của Amazon tiết lộ xu hướng giới tính

Vào năm 2015, thuật toán tuyển dụng mà Amazon sử dụng để xác định mức độ phù hợp của ứng viên được phát hiện là ưu tiên nam giới hơn nữ giới. Điều này là do bộ dữ liệu hầu như chỉ chứa nam giới và sơ yếu lý lịch của họ vì hầu hết nhân viên của Amazon là nam giới.

Sau đó, Reuters báo cáo rằng hệ thống của Amazon về cơ bản đã học cách ưu tiên các ứng viên nam. Thuật toán đã đi xa đến mức nó phạt những ứng viên đưa từ “phụ nữ” vào nội dung sơ yếu lý lịch của họ. Không cần phải nói, nhóm xây dựng phần mềm này đã tan rã ngay sau vụ bê bối.

Cách ngăn chặn sự thiên vị của AI

AI đã và đang cách mạng hóa cách chúng ta làm việc trong mọi ngành, bao gồm cả những công việc mà bạn chưa từng biết là do AI điều khiển. Việc có các hệ thống thiên vị kiểm soát các quá trình ra quyết định nhạy cảm là điều không mong muốn. Tốt nhất, nó làm giảm chất lượng nghiên cứu dựa trên AI. Tồi tệ nhất, nó tích cực gây thiệt hại cho các nhóm thiểu số.

Có những ví dụ về thuật toán AI đã được sử dụng để hỗ trợ quá trình ra quyết định của con người bằng cách giảm tác động của những thành kiến nhận thức của con người. Do cách các thuật toán máy học được đào tạo, chúng có thể chính xác hơn và ít sai lệch hơn so với con người ở cùng một vị trí, dẫn đến việc ra quyết định công bằng hơn.

Nhưng, như chúng tôi đã chỉ ra, điều ngược lại cũng đúng. Những rủi ro của việc cho phép những thành kiến của con người được đưa vào và khuếch đại bởi AI có thể lớn hơn một số lợi ích có thể có.

Vào cuối ngày, AI chỉ tốt như dữ liệu mà nó được đào tạo. Việc phát triển các thuật toán không thiên vị đòi hỏi phải phân tích trước toàn diện và kỹ lưỡng các bộ dữ liệu, đảm bảo dữ liệu không có các thành kiến ngầm. Điều này nghe có vẻ khó hơn vì rất nhiều thành kiến của chúng ta là vô thức và thường khó xác định.

Những thách thức trong việc ngăn chặn xu hướng AI

Khi phát triển các hệ thống AI, mỗi bước phải được đánh giá về khả năng đưa sai lệch vào thuật toán. Một trong những yếu tố chính trong việc ngăn chặn sự thiên vị là đảm bảo rằng sự công bằng, chứ không phải sự thiên vị, được “nung nấu” trong thuật toán.

Định nghĩa sự công bằng

Công bằng là một khái niệm tương đối khó định nghĩa. Trên thực tế, đó là một cuộc tranh luận không bao giờ đạt được sự đồng thuận. Để làm cho mọi thứ trở nên khó khăn hơn, khi phát triển các hệ thống AI, khái niệm về sự công bằng phải được xác định bằng toán học.

Chẳng hạn, xét về thuật toán tuyển dụng của Amazon, liệu sự công bằng có giống như tỷ lệ phân chia hoàn hảo 50/50 giữa lao động nam và nữ không? Hay một tỷ lệ khác?

Xác định chức năng

Bước đầu tiên trong quá trình phát triển AI là xác định chính xác những gì nó sẽ đạt được. Nếu sử dụng ví dụ COMPAS, thuật toán sẽ dự đoán khả năng tội phạm tái phạm. Sau đó, dữ liệu đầu vào rõ ràng cần được xác định để cho phép thuật toán hoạt động.

Điều này có thể yêu cầu xác định các biến số quan trọng như số lần vi phạm trước đó hoặc loại vi phạm đã thực hiện. Xác định đúng các biến này là một bước khó khăn nhưng quan trọng để đảm bảo tính công bằng của thuật toán.

Lập bộ dữ liệu

Như chúng tôi đã đề cập, nguyên nhân chính của sự thiên vị AI là dữ liệu không đầy đủ, không mang tính đại diện hoặc sai lệch. Giống như trường hợp của AI nhận dạng khuôn mặt, dữ liệu đầu vào cần được kiểm tra kỹ lưỡng về độ sai lệch, tính phù hợp và tính đầy đủ trước quá trình học máy.

Chọn thuộc tính

Trong các thuật toán, một số thuộc tính có thể được xem xét hoặc không. Các thuộc tính có thể bao gồm giới tính, chủng tộc hoặc giáo dục—về cơ bản là bất kỳ thứ gì có thể quan trọng đối với nhiệm vụ của thuật toán. Tùy thuộc vào thuộc tính nào được chọn, độ chính xác dự đoán và độ lệch của thuật toán có thể bị ảnh hưởng nghiêm trọng. Vấn đề là rất khó đo lường mức độ sai lệch của một thuật toán.

AI Bias không ở đây để ở lại

Xu hướng AI xảy ra khi các thuật toán đưa ra dự đoán sai lệch hoặc không chính xác do đầu vào sai lệch. Nó xảy ra khi dữ liệu sai lệch hoặc không đầy đủ được phản ánh hoặc khuếch đại trong quá trình phát triển và đào tạo thuật toán.

Tin tốt là với việc tài trợ cho nghiên cứu AI đang tăng lên gấp bội, chúng ta có thể sẽ thấy các phương pháp mới để giảm thiểu và thậm chí loại bỏ sự thiên vị của AI.

AI Bias là gì và làm thế nào các nhà phát triển có thể tránh nó?

Làm thế nào để AI trở nên thiên vị?