/ / Các cuộc tấn công đối nghịch chống lại các mô hình AI là gì và làm thế nào bạn có thể ngăn chặn chúng?

Các cuộc tấn công đối nghịch chống lại các mô hình AI là gì và làm thế nào bạn có thể ngăn chặn chúng?

Những tiến bộ trong trí tuệ nhân tạo đã có ảnh hưởng đáng kể đến các lĩnh vực khác nhau. Điều này đã khiến khá nhiều người đam mê công nghệ lo ngại. Khi các công nghệ này mở rộng sang các ứng dụng khác nhau, chúng có thể dẫn đến sự gia tăng các cuộc tấn công đối nghịch.


Các cuộc tấn công đối thủ trong trí tuệ nhân tạo là gì?

Các cuộc tấn công đối thủ khai thác thông số kỹ thuật và lỗ hổng trong các mô hình AI. Chúng làm hỏng dữ liệu mà các mô hình AI đã học được và khiến các mô hình này tạo ra kết quả đầu ra không chính xác.

Hãy tưởng tượng rằng một người chơi khăm thay đổi các ô ghép hình được sắp xếp từ quả dứa thành “quả táo”. Điều này tương tự như những gì xảy ra trong các cuộc tấn công đối thủ.

Một vài năm trước, việc nhận được một vài phản hồi hoặc kết quả đầu ra không chính xác từ một mô hình AI là điều bình thường. Bây giờ thì ngược lại, vì sự không chính xác đã trở thành ngoại lệ, với người dùng AI mong đợi kết quả gần như hoàn hảo.

Khi các mô hình AI này được áp dụng cho các tình huống trong thế giới thực, sự thiếu chính xác có thể gây tử vong, khiến các cuộc tấn công đối nghịch trở nên rất nguy hiểm. Chẳng hạn, nhãn dán trên các biển báo giao thông có thể gây nhầm lẫn cho ô tô tự lái và khiến nó di chuyển vào dòng giao thông hoặc lao thẳng vào chướng ngại vật.

Các loại tấn công đối thủ

Có nhiều hình thức tấn công đối thủ khác nhau. Với việc tích hợp AI ngày càng nhiều vào các ứng dụng hàng ngày, các cuộc tấn công này có thể sẽ trở nên tồi tệ và phức tạp hơn.

Tuy nhiên, chúng ta có thể phân loại đại khái các cuộc tấn công đối nghịch thành hai loại dựa trên mức độ hiểu biết của kẻ đe dọa về mô hình AI.

1. Tấn công hộp trắng

Người phụ nữ viết mã trên máy tính

Trong các cuộc tấn công hộp trắng, các tác nhân đe dọa có kiến ​​thức đầy đủ về hoạt động bên trong của mô hình AI. Họ biết thông số kỹ thuật, dữ liệu đào tạo, kỹ thuật xử lý và tham số của nó. Kiến thức này cho phép họ xây dựng một cuộc tấn công đối thủ dành riêng cho mô hình.

Bước đầu tiên trong một cuộc tấn công hộp trắng là thay đổi dữ liệu huấn luyện ban đầu, làm hỏng nó theo cách nhỏ nhất có thể. Dữ liệu đã sửa đổi sẽ vẫn rất giống với dữ liệu ban đầu nhưng đủ quan trọng để khiến mô hình AI đưa ra kết quả không chính xác.

Đó không phải là tất cả. Sau cuộc tấn công, tác nhân đe dọa đánh giá hiệu quả của mô hình bằng cách cung cấp cho nó các ví dụ bất lợi—đầu vào bị bóp méo được thiết kế để khiến mô hình mắc lỗi—và phân tích đầu ra. Kết quả càng không chính xác, cuộc tấn công càng thành công.

2. Tấn công hộp đen

Không giống như trong các cuộc tấn công hộp trắng, trong đó tác nhân đe dọa biết về hoạt động bên trong của mô hình AI, thủ phạm của các cuộc tấn công hộp đen không biết mô hình hoạt động như thế nào. Họ chỉ quan sát mô hình từ một điểm mù, theo dõi các giá trị đầu vào và đầu ra của nó.

Bước đầu tiên trong cuộc tấn công hộp đen là chọn mục tiêu đầu vào mà mô hình AI muốn phân loại. Sau đó, tác nhân đe dọa tạo ra một phiên bản đầu vào độc hại bằng cách thêm nhiễu, nhiễu được chế tạo cẩn thận vào dữ liệu mà mắt người không thể nhìn thấy nhưng có khả năng khiến mô hình AI gặp trục trặc.

Phiên bản độc hại được đưa vào mô hình và đầu ra được quan sát. Các kết quả do mô hình đưa ra giúp kẻ đe dọa tiếp tục sửa đổi phiên bản cho đến khi chúng đủ tự tin rằng nó sẽ phân loại sai bất kỳ dữ liệu nào được đưa vào.

Các kỹ thuật được sử dụng trong các cuộc tấn công đối thủ

Một hacker giám sát các thiết bị botnet

Các thực thể độc hại có thể sử dụng các kỹ thuật khác nhau để thực hiện các cuộc tấn công đối nghịch. Dưới đây là một số kỹ thuật này.

1. Ngộ độc

Những kẻ tấn công có thể thao túng (đầu độc) một phần nhỏ dữ liệu đầu vào của mô hình AI để làm tổn hại đến độ chính xác và bộ dữ liệu đào tạo của nó.

Có một số hình thức ngộ độc. Một trong những lỗi phổ biến được gọi là ngộ độc cửa sau, trong đó rất ít dữ liệu đào tạo bị ảnh hưởng. Mô hình AI tiếp tục đưa ra kết quả có độ chính xác cao cho đến khi nó được “kích hoạt” để trục trặc khi tiếp xúc với các yếu tố kích hoạt cụ thể.

2. Né tránh

Kỹ thuật này khá nguy hiểm vì nó tránh bị phát hiện bằng cách theo dõi hệ thống bảo mật của AI.

Hầu hết các mô hình AI đều được trang bị hệ thống phát hiện bất thường. Các kỹ thuật trốn tránh sử dụng các ví dụ đối thủ trực tiếp theo đuổi các hệ thống này.

Kỹ thuật này có thể đặc biệt nguy hiểm đối với các hệ thống lâm sàng như ô tô tự hành hoặc mô hình chẩn đoán y tế. Đây là những lĩnh vực mà sự thiếu chính xác có thể gây ra hậu quả nghiêm trọng.

3. Khả năng chuyển nhượng

Những kẻ đe dọa sử dụng kỹ thuật này không cần biết trước về các thông số của mô hình AI. Họ sử dụng các cuộc tấn công đối nghịch đã thành công trong quá khứ để chống lại các phiên bản khác của mô hình.

Ví dụ: nếu một cuộc tấn công đối nghịch khiến mô hình phân loại hình ảnh nhầm một con rùa với một khẩu súng trường, thì cuộc tấn công chính xác có thể khiến các mô hình phân loại hình ảnh khác mắc lỗi tương tự. Các mô hình khác có thể đã được đào tạo trên một tập dữ liệu khác và thậm chí có kiến ​​trúc khác nhưng vẫn có thể trở thành nạn nhân của cuộc tấn công.

4. Mang thai hộ

Thay vì theo đuổi các hệ thống bảo mật của mô hình bằng cách sử dụng các kỹ thuật trốn tránh hoặc các cuộc tấn công thành công trước đó, tác nhân đe dọa có thể sử dụng một mô hình thay thế.

Với kỹ thuật này, tác nhân đe dọa tạo ra một phiên bản giống hệt của mô hình mục tiêu, một mô hình thay thế. Kết quả, tham số và hành vi của người thay thế phải giống với mô hình ban đầu đã được sao chép.

Người thay thế giờ đây sẽ phải chịu nhiều cuộc tấn công đối nghịch khác nhau cho đến khi một người khiến nó tạo ra kết quả không chính xác hoặc thực hiện phân loại sai. Sau đó, cuộc tấn công này sẽ được sử dụng trên AI mục tiêu ban đầu.

Làm thế nào để ngăn chặn các cuộc tấn công của đối thủ

Một dấu hiệu màu đỏ và trắng với một người giơ tay

Bảo vệ chống lại các cuộc tấn công đối nghịch có thể phức tạp và tốn thời gian vì các tác nhân đe dọa sử dụng nhiều hình thức và kỹ thuật khác nhau. Tuy nhiên, các bước sau đây có thể ngăn chặn và ngăn chặn các cuộc tấn công đối nghịch.

1. Huấn luyện đối thủ

Bước hiệu quả nhất có thể ngăn chặn các cuộc tấn công đối nghịch là đào tạo đối thủ, đào tạo các mô hình AI và máy móc sử dụng các ví dụ đối nghịch. Điều này cải thiện độ chắc chắn của mô hình và cho phép nó linh hoạt trước những nhiễu loạn đầu vào nhỏ nhất.

2. Kiểm toán định kỳ

Cần thường xuyên kiểm tra các điểm yếu trong hệ thống phát hiện bất thường của mô hình AI. Điều này liên quan đến việc cố tình cung cấp cho mô hình các ví dụ đối nghịch và theo dõi hành vi của mô hình đối với đầu vào độc hại.

3. Vệ sinh dữ liệu

Phương pháp này liên quan đến việc kiểm tra các đầu vào độc hại được đưa vào mô hình. Sau khi xác định chúng, chúng phải được loại bỏ ngay lập tức.

Những dữ liệu này có thể được xác định bằng cách sử dụng xác thực đầu vào, bao gồm việc kiểm tra dữ liệu để tìm các mẫu hoặc chữ ký của các ví dụ đối nghịch đã biết trước đó.

4. Cập nhật bảo mật

Sẽ rất khó để xảy ra lỗi với các bản cập nhật và bản vá bảo mật. Bảo mật nhiều lớp như tường lửa, chương trình chống phần mềm độc hại cũng như hệ thống phát hiện và ngăn chặn xâm nhập có thể giúp ngăn chặn sự can thiệp từ bên ngoài từ các tác nhân đe dọa muốn đầu độc mô hình AI.

Các cuộc tấn công của đối thủ có thể là một đối thủ xứng đáng

Khái niệm về các cuộc tấn công đối nghịch đưa ra một vấn đề đối với học nâng cao và học máy.

Do đó, các mô hình AI sẽ được trang bị các biện pháp phòng vệ như đào tạo đối thủ, kiểm tra thường xuyên, vệ sinh dữ liệu và cập nhật bảo mật liên quan.

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *