Trình tạo giọng nói AI có phải là mối đe dọa bảo mật lớn tiếp theo không?
Trí tuệ nhân tạo (AI) là một công nghệ mạnh hứa hẹn sẽ thay đổi cuộc sống của chúng ta. Chưa bao giờ điều đó rõ ràng như ngày nay, khi các công cụ mạnh mẽ luôn sẵn có cho bất kỳ ai có kết nối internet.
Điều này bao gồm bộ tạo giọng nói AI, phần mềm tiên tiến có khả năng bắt chước giọng nói của con người thành thạo đến mức không thể phân biệt được giữa hai người. Điều này có ý nghĩa gì đối với an ninh mạng?
Mục Lục
Trình tạo giọng nói AI hoạt động như thế nào?
Tổng hợp giọng nói, quá trình tạo ra giọng nói của con người một cách nhân tạo, đã tồn tại trong nhiều thập kỷ. Và giống như tất cả công nghệ, nó đã trải qua những thay đổi sâu sắc trong những năm qua.
Những người đã sử dụng Windows 2000 và XP có thể nhớ Microsoft Sam, giọng nam chuyển văn bản thành giọng nói mặc định của hệ điều hành. Microsoft Sam đã hoàn thành công việc, nhưng âm thanh mà nó tạo ra nghe như máy móc, cứng nhắc và không tự nhiên. Các công cụ chúng ta có ngày nay tiên tiến hơn đáng kể, phần lớn nhờ vào học sâu.
Học sâu là một phương pháp học máy dựa trên mạng thần kinh nhân tạo. Do các mạng thần kinh này, AI hiện đại có khả năng xử lý dữ liệu gần giống như các tế bào thần kinh trong não người diễn giải thông tin. Điều đó có nghĩa là, AI càng trở nên giống con người thì nó càng mô phỏng hành vi của con người tốt hơn.
Tóm lại, đó là cách thức hoạt động của các trình tạo giọng nói AI hiện đại. Càng tiếp xúc với nhiều dữ liệu lời nói, họ càng trở nên lão luyện hơn trong việc mô phỏng lời nói của con người. Do những tiến bộ tương đối gần đây trong công nghệ này, phần mềm chuyển văn bản thành giọng nói hiện đại về cơ bản có thể tái tạo âm thanh mà nó được cung cấp.
Cách các tác nhân đe dọa sử dụng trình tạo giọng nói AI
Không có gì ngạc nhiên khi công nghệ này đang bị lạm dụng bởi các tác nhân đe dọa. Và không chỉ tội phạm mạng theo nghĩa thông thường của từ này, mà còn bởi các đại lý cung cấp thông tin sai lệch, những kẻ lừa đảo, những kẻ tiếp thị mũ đen và những kẻ lừa đảo.
Thời điểm ElevenLabs phát hành phiên bản beta của phần mềm chuyển văn bản thành giọng nói vào tháng 1 năm 2023, những kẻ cực hữu trên bảng tin 4chan đã bắt đầu lạm dụng nó. Bằng cách sử dụng AI tiên tiến, họ đã tái tạo giọng nói của những cá nhân như David Attenborough và Emma Watson, khiến cho có vẻ như những người nổi tiếng đang có những lời lẽ hèn hạ, đáng ghét.
Như Vice đã báo cáo vào thời điểm đó, ElevenLabs thừa nhận rằng mọi người đang lạm dụng phần mềm của họ, đặc biệt là sao chép giọng nói. Tính năng này cho phép bất kỳ ai “nhân bản” giọng nói của người khác; tất cả những gì bạn cần làm là tải lên bản ghi dài một phút và để AI làm phần còn lại. Có lẽ, bản ghi càng dài thì đầu ra càng tốt.
Vào tháng 3 năm 2023, một video TikTok lan truyền đã thu hút sự chú ý của The New York Times. Trong video, podcaster nổi tiếng Joe Rogan và Tiến sĩ Andrew Huberman, khách mời thường xuyên của The Joe Rogan Experience, đã được nghe thảo luận về thức uống chứa caffein “tăng cường ham muốn tình dục”. Đoạn video cho thấy có vẻ như cả Rogan và Huberman đều ủng hộ sản phẩm một cách dứt khoát. Trên thực tế, giọng nói của họ đã được nhân bản bằng AI.
Cũng trong khoảng thời gian đó, Ngân hàng Thung lũng Silicon có trụ sở tại Santa Clara, California đã sụp đổ do những sai lầm trong quản lý rủi ro và các vấn đề khác, đồng thời được chính quyền bang tiếp quản. Đây là vụ phá sản ngân hàng lớn nhất ở Hoa Kỳ kể từ Cuộc khủng hoảng tài chính năm 2008, vì vậy nó đã gây ra làn sóng chấn động khắp thị trường toàn cầu.
Điều góp phần gây ra sự hoảng loạn là một bản ghi âm giả của Tổng thống Hoa Kỳ Joe Biden. Trong đoạn ghi âm, rõ ràng người ta đã nghe thấy Biden cảnh báo về một “sự sụp đổ” sắp xảy ra và chỉ đạo chính quyền của ông “sử dụng toàn bộ lực lượng truyền thông để trấn an công chúng.” Những người kiểm tra tính xác thực như PolitiFact đã nhanh chóng lật tẩy đoạn clip, nhưng có khả năng hàng triệu người đã nghe thấy nó vào thời điểm đó.
Nếu các trình tạo giọng nói AI có thể được sử dụng để đóng giả những người nổi tiếng, thì chúng cũng có thể được sử dụng để đóng giả những người bình thường và đó chính xác là những gì tội phạm mạng đã và đang làm. Theo ZDNet, hàng nghìn người Mỹ rơi vào bẫy lừa đảo được gọi là vishing hoặc lừa đảo bằng giọng nói mỗi năm. Một cặp vợ chồng già đã gây chú ý trên toàn quốc vào năm 2023 khi họ nhận được điện thoại từ “cháu trai” của mình, người này tuyên bố đang ở trong tù và đòi tiền.
Nếu bạn đã từng tải lên một video YouTube (hoặc xuất hiện trong một video), tham gia vào một cuộc gọi nhóm lớn với những người bạn không biết hoặc tải giọng nói của bạn lên internet ở một mức độ nào đó, thì về mặt lý thuyết, bạn hoặc những người thân yêu của bạn có thể tham gia. sự nguy hiểm. Điều gì sẽ ngăn kẻ lừa đảo tải giọng nói của bạn lên trình tạo AI, sao chép giọng nói đó và liên hệ với gia đình bạn?
Trình tạo giọng nói AI đang phá vỡ bối cảnh an ninh mạng
Không cần chuyên gia an ninh mạng cũng có thể nhận ra mức độ nguy hiểm của AI khi rơi vào tay kẻ xấu. Và mặc dù đúng là có thể nói điều tương tự đối với tất cả công nghệ, nhưng AI là mối đe dọa duy nhất vì nhiều lý do.
Thứ nhất, nó tương đối mới, có nghĩa là chúng tôi không thực sự biết những gì mong đợi từ nó. Các công cụ AI hiện đại cho phép tội phạm mạng mở rộng quy mô và tự động hóa hoạt động của chúng theo cách chưa từng có, đồng thời lợi dụng sự thiếu hiểu biết tương đối của công chúng về vấn đề này. Ngoài ra, AI tổng quát cho phép những kẻ đe dọa có ít kiến thức và kỹ năng tạo mã độc hại, xây dựng trang web lừa đảo, phát tán thư rác, viết email lừa đảo, tạo hình ảnh chân thực và tạo ra nội dung âm thanh và video giả mạo hàng giờ liền.
Điều quan trọng, điều này hoạt động theo cả hai cách: AI cũng được sử dụng để bảo vệ các hệ thống và có thể sẽ tồn tại trong nhiều thập kỷ tới. Sẽ không vô lý khi cho rằng những gì đang chờ đợi chúng ta là một cuộc chạy đua vũ trang AI giữa tội phạm mạng và ngành an ninh mạng, vì khả năng phòng thủ và tấn công của những công cụ này vốn đã ngang nhau.
Đối với người bình thường, sự ra đời của AI tổng quát rộng rãi đòi hỏi phải xem xét lại triệt để các hoạt động bảo mật. Dù thú vị và hữu ích như AI, ít nhất nó cũng có thể làm mờ ranh giới giữa cái thật và cái không, tệ nhất là làm trầm trọng thêm các vấn đề bảo mật hiện có và tạo không gian mới cho các tác nhân đe dọa xâm nhập.
Trình tạo giọng nói cho thấy tiềm năng hủy diệt của AI
Ngay sau khi ChatGPT được tung ra thị trường, các cuộc thảo luận về việc điều chỉnh AI đã tăng lên. Bất kỳ nỗ lực nào nhằm hạn chế công nghệ này có thể sẽ yêu cầu sự hợp tác quốc tế ở một mức độ mà chúng ta chưa từng thấy trong nhiều thập kỷ, điều này khiến điều đó khó xảy ra.
Thần đèn đã ra khỏi lọ, và điều tốt nhất chúng ta có thể làm là làm quen với nó. Điều đó, và hy vọng lĩnh vực an ninh mạng sẽ điều chỉnh cho phù hợp.