DarkBERT là gì? AI có thể giúp chống lại các mối đe dọa trên mạng không?
Mức độ phổ biến của các mô hình ngôn ngữ lớn (LLM) đang tăng vọt, với những mô hình mới liên tục xuất hiện. Những mô hình này, như ChatGPT, thường được đào tạo trên nhiều nguồn internet khác nhau, bao gồm các bài báo, trang web, sách và phương tiện truyền thông xã hội.
Trong một động thái chưa từng có, một nhóm các nhà nghiên cứu Hàn Quốc đã phát triển DarkBERT, một LLM được đào tạo dựa trên các bộ dữ liệu được lấy độc quyền từ dark web. Mục đích của họ là tạo ra một công cụ AI vượt trội so với các mô hình ngôn ngữ hiện có và hỗ trợ các nhà nghiên cứu về mối đe dọa, cơ quan thực thi pháp luật và các chuyên gia an ninh mạng trong việc chống lại các mối đe dọa trên mạng.
Mục Lục
DarkBERT là gì?
DarkBERT là mô hình bộ mã hóa dựa trên máy biến áp dựa trên kiến trúc RoBERTa. LLM đã được đào tạo trên hàng triệu trang web tối, bao gồm dữ liệu từ các diễn đàn hack, trang web lừa đảo và các nguồn trực tuyến khác có liên quan đến các hoạt động bất hợp pháp.
Thuật ngữ “web đen” dùng để chỉ một phần internet ẩn không thể truy cập được thông qua các trình duyệt web tiêu chuẩn. Tiểu mục này nổi tiếng vì chứa chấp các trang web ẩn danh và thị trường nổi tiếng với các hoạt động bất hợp pháp, chẳng hạn như buôn bán dữ liệu, ma túy và vũ khí bị đánh cắp.
Để đào tạo DarkBERT, các nhà nghiên cứu đã có quyền truy cập vào dark web thông qua mạng Tor và thu thập dữ liệu thô. Họ đã lọc cẩn thận dữ liệu này bằng các kỹ thuật như chống trùng lặp, cân bằng danh mục và tiền xử lý để tạo cơ sở dữ liệu web tối tinh chỉnh, sau đó được cung cấp cho RoBERTa trong khoảng 15 ngày để tạo DarkBERT.
Các ứng dụng có thể có của DarkBERT trong an ninh mạng
DarkBERT có hiểu biết vượt trội về ngôn ngữ của tội phạm mạng và xuất sắc trong việc phát hiện các mối đe dọa tiềm ẩn cụ thể. Nó có thể nghiên cứu web tối, đồng thời xác định và gắn cờ thành công các mối đe dọa an ninh mạng như rò rỉ dữ liệu và mã độc tống tiền, khiến nó trở thành một công cụ tiềm năng hữu ích để chống lại các mối đe dọa trên mạng.
Nghiên cứu được đăng trên arxiv.org chỉ ra rằng để đánh giá hiệu quả của DarkBERT, các nhà nghiên cứu đã so sánh nó với hai mô hình NLP nổi tiếng là BERT và RoBERTa, đánh giá hiệu suất của chúng qua ba trường hợp sử dụng quan trọng liên quan đến an ninh mạng.
1. Theo dõi các diễn đàn Dark Web để tìm các chủ đề có khả năng gây hại
Giám sát các diễn đàn dark web, thường được sử dụng để trao đổi thông tin bất hợp pháp, là rất quan trọng để xác định các chủ đề nguy hiểm tiềm ẩn. Tuy nhiên, việc xem xét thủ công những điều này có thể tốn thời gian, khiến việc tự động hóa quy trình có lợi cho các chuyên gia bảo mật.
Các nhà nghiên cứu tập trung vào các hoạt động có khả năng gây hại trong các diễn đàn hack, đưa ra các hướng dẫn chú thích cho các chủ đề đáng chú ý, bao gồm chia sẻ dữ liệu bí mật và phân phối phần mềm độc hại hoặc lỗ hổng nghiêm trọng.
DarkBERT vượt trội so với các mô hình ngôn ngữ khác về độ chính xác, khả năng thu hồi và điểm F1, nổi lên như một lựa chọn ưu việt để xác định các chủ đề đáng chú ý trên dark web.
2. Phát hiện các trang lưu trữ thông tin bí mật
Các nhóm tin tặc và mã độc tống tiền sử dụng web tối để tạo các trang web rò rỉ, nơi chúng công bố dữ liệu bí mật bị đánh cắp từ các tổ chức từ chối tuân thủ yêu cầu đòi tiền chuộc. Tội phạm mạng khác chỉ tải dữ liệu nhạy cảm bị rò rỉ, như mật khẩu và thông tin tài chính, lên dark web với ý định bán chúng.
Trong nghiên cứu của mình, các nhà nghiên cứu đã thu thập dữ liệu từ các nhóm ransomware khét tiếng và phân tích các trang web rò rỉ ransomware công bố dữ liệu riêng tư của các tổ chức. DarkBERT vượt trội so với các mô hình ngôn ngữ khác trong việc xác định và phân loại các trang web như vậy, thể hiện sự hiểu biết của nó về ngôn ngữ được sử dụng trong các diễn đàn hack ngầm trên dark web.
3. Xác định các từ khóa liên quan đến các mối đe dọa trên Dark Web
DarkBERT tận dụng chức năng lấp đầy mặt nạ, một tính năng vốn có của các mô hình ngôn ngữ họ BERT, để xác định chính xác các từ khóa liên quan đến các hoạt động bất hợp pháp, bao gồm cả việc bán ma túy trên web tối.
Khi từ “MDMA” bị ẩn trong trang bán thuốc, DarkBERT tạo ra các từ liên quan đến ma túy, trong khi các mô hình khác đề xuất các từ và thuật ngữ chung chung không liên quan đến ma túy, chẳng hạn như các ngành nghề khác nhau.
Khả năng xác định các từ khóa liên quan đến các hoạt động bất hợp pháp của DarkBERT có thể có giá trị trong việc theo dõi và giải quyết các mối đe dọa mạng mới nổi.
Công chúng có thể truy cập DarkBERT không?
DarkBERT hiện không có sẵn cho công chúng, nhưng các nhà nghiên cứu sẵn sàng yêu cầu sử dụng nó cho mục đích học thuật.
Khai thác sức mạnh của AI để phát hiện và ngăn chặn mối đe dọa
DarkBERT đã được đào tạo trước về dữ liệu web tối và hoạt động tốt hơn các mô hình ngôn ngữ hiện có trong nhiều trường hợp sử dụng an ninh mạng, định vị chính nó như một công cụ quan trọng để thúc đẩy nghiên cứu web tối.
Trí tuệ nhân tạo được đào tạo trên dark web có tiềm năng được sử dụng cho nhiều nhiệm vụ an ninh mạng khác nhau, bao gồm xác định các trang web bán dữ liệu bí mật bị rò rỉ, giám sát các diễn đàn dark web để phát hiện chia sẻ thông tin bất hợp pháp và xác định các từ khóa liên quan đến các mối đe dọa trên mạng.
Nhưng bạn phải luôn nhớ rằng, giống như các LLM khác, DarkBERT là một sản phẩm đang trong quá trình hoàn thiện và hiệu suất của nó có thể được cải thiện thông qua quá trình đào tạo và tinh chỉnh liên tục.