Cách chặn AI Chatbots thu thập nội dung trang web của bạn
Khi mọi thứ ổn định, các chatbot AI có giấy phép miễn phí để quét trang web của bạn và sử dụng nội dung của nó mà không cần sự cho phép của bạn. Lo lắng về việc nội dung của bạn bị loại bỏ bởi các công cụ như vậy?
Tin vui là bạn có thể ngăn các công cụ AI truy cập trang web của mình, nhưng có một số lưu ý. Ở đây, chúng tôi chỉ cho bạn cách chặn bot bằng tệp robots.txt cho trang web của bạn, cùng với những ưu và nhược điểm của việc này.
Mục Lục
AI Chatbots truy cập nội dung web của bạn như thế nào?
Các chatbot AI được đào tạo bằng cách sử dụng nhiều bộ dữ liệu, một số trong số đó là nguồn mở và có sẵn công khai. Ví dụ: GPT3 đã được đào tạo bằng cách sử dụng năm bộ dữ liệu, theo một bài báo nghiên cứu được xuất bản bởi OpenAI:
- Thu thập thông tin thông thường (60% trọng lượng trong đào tạo)
- WebText2 (22% trọng lượng trong đào tạo)
- Sách1 (8% trọng lượng trong đào tạo)
- Books2 (8% trọng lượng trong đào tạo)
- Wikipedia (3% trọng lượng trong đào tạo)
Thu thập thông tin chung bao gồm petabyte (hàng nghìn TB) dữ liệu từ các trang web được thu thập từ năm 2008, tương tự như cách thuật toán tìm kiếm của Google thu thập thông tin nội dung web. WebText2 là một bộ dữ liệu được tạo bởi OpenAI, chứa khoảng 45 triệu trang web được liên kết từ các bài đăng trên Reddit với ít nhất ba lượt ủng hộ.
Vì vậy, trong trường hợp của ChatGPT, bot AI không truy cập và thu thập dữ liệu trực tiếp các trang web của bạn – dù sao thì vẫn chưa. Mặc dù, thông báo của OpenAI về trình duyệt web được lưu trữ trên ChatGPT đã làm dấy lên lo ngại rằng điều này có thể sắp thay đổi.
Trong thời gian chờ đợi, chủ sở hữu trang web nên để mắt đến các chatbot AI khác, vì ngày càng nhiều trong số chúng được tung ra thị trường. Bard là một tên tuổi lớn khác trong lĩnh vực này và rất ít thông tin về bộ dữ liệu được sử dụng để đào tạo nó. Rõ ràng, chúng tôi biết các bot tìm kiếm của Google liên tục thu thập dữ liệu các trang web, nhưng điều này không nhất thiết có nghĩa là Bard có quyền truy cập vào cùng một dữ liệu.
Tại sao một số chủ sở hữu trang web quan tâm?
Mối quan tâm lớn nhất đối với chủ sở hữu trang web là các bot AI như ChatGPT, Bard và Bing Chat làm giảm giá trị nội dung của họ. Các bot AI sử dụng nội dung hiện có để tạo phản hồi của chúng, nhưng cũng giảm nhu cầu truy cập nguồn ban đầu của người dùng. Thay vì người dùng truy cập các trang web để truy cập thông tin, họ có thể chỉ cần yêu cầu Google hoặc Bing tạo bản tóm tắt thông tin họ cần.
Khi nói đến chatbot AI trong tìm kiếm, mối quan tâm lớn đối với chủ sở hữu trang web là mất lưu lượng truy cập. Trong trường hợp của Bard, bot AI hiếm khi bao gồm các trích dẫn trong các phản hồi tổng quát của nó, cho người dùng biết nó lấy thông tin từ trang nào.
Vì vậy, ngoài việc thay thế các lượt truy cập trang web bằng phản hồi AI, Bard loại bỏ hầu hết mọi khả năng trang web nguồn nhận được lưu lượng truy cập – ngay cả khi người dùng muốn biết thêm thông tin. Mặt khác, Bing Chat thường liên kết đến các nguồn thông tin hơn.
Nói cách khác, nhóm công cụ AI tổng hợp hiện tại đang sử dụng công việc của những người sáng tạo nội dung để thay thế một cách có hệ thống nhu cầu về những người sáng tạo nội dung. Cuối cùng, bạn phải hỏi động cơ nào khiến chủ sở hữu trang web tiếp tục xuất bản nội dung. Và nói rộng ra, điều gì sẽ xảy ra với các bot AI khi các trang web ngừng xuất bản nội dung mà chúng dựa vào để hoạt động?
Cách chặn AI Bots khỏi trang web của bạn
Nếu bạn không muốn bot AI sử dụng nội dung web của mình, bạn có thể chặn chúng truy cập trang web của mình bằng cách sử dụng robot.txt tài liệu. Thật không may, bạn phải chặn từng bot riêng lẻ và chỉ định chúng theo tên.
Ví dụ: bot của Common Crawl có tên là CCBot và bạn có thể chặn nó bằng cách thêm mã sau vào tệp robots.txt của mình:
User-agent: CCBot
Disallow: /
Thao tác này sẽ chặn Common Crawl thu thập dữ liệu trang web của bạn trong tương lai nhưng nó sẽ không xóa bất kỳ dữ liệu nào đã được thu thập từ các lần thu thập dữ liệu trước đó.
Nếu bạn lo lắng về việc các plugin mới của ChatGPT truy cập vào nội dung web của bạn, OpenAI đã xuất bản hướng dẫn chặn bot của nó. Trong trường hợp này, bot của ChatGPT được gọi là ChatGPT-User và bạn có thể chặn nó bằng cách thêm đoạn mã sau vào tệp robots.txt của mình:
User-agent: ChatGPT-User
Disallow: /
Tuy nhiên, việc chặn các bot AI của công cụ tìm kiếm thu thập dữ liệu nội dung của bạn là một vấn đề hoàn toàn khác. Vì Google rất giữ bí mật về dữ liệu đào tạo mà Google sử dụng nên không thể xác định được bot nào bạn sẽ cần chặn và liệu chúng có tôn trọng các lệnh trong chương trình của bạn hay không. robot.txt tệp (nhiều trình thu thập thông tin thì không).
Phương pháp này hiệu quả như thế nào?
Chặn bot AI trong của bạn robot.txt file là phương pháp hiệu quả nhất hiện có, nhưng nó không đặc biệt đáng tin cậy.
Vấn đề đầu tiên là bạn phải chỉ định từng bot mà bạn muốn chặn, nhưng ai có thể theo dõi mọi bot AI được tung ra thị trường? Vấn đề tiếp theo là các lệnh trong robot.txt file là hướng dẫn không bắt buộc. Mặc dù Common Crawl, ChatGPT và nhiều bot khác tôn trọng các lệnh này, nhưng nhiều bot thì không.
Một cảnh báo lớn khác là bạn chỉ có thể chặn các bot AI thực hiện các lần thu thập dữ liệu trong tương lai. Bạn không thể xóa dữ liệu khỏi các lần thu thập dữ liệu trước đó hoặc gửi yêu cầu tới các công ty như OpenAI để xóa tất cả dữ liệu của mình.
Thật không may, không có cách nào đơn giản để chặn tất cả các bot AI truy cập trang web của bạn và việc chặn từng bot riêng lẻ theo cách thủ công là gần như không thể. Ngay cả khi bạn theo kịp các bot AI mới nhất khi chuyển vùng trên web, không có gì đảm bảo rằng tất cả chúng sẽ tuân thủ các lệnh trong của bạn. robot.txt tài liệu.
Câu hỏi thực sự ở đây là liệu kết quả có xứng đáng với nỗ lực hay không và câu trả lời ngắn gọn là (gần như chắc chắn) là không.
Cũng có những nhược điểm tiềm ẩn khi chặn các bot AI khỏi trang web của bạn. Trên hết, bạn sẽ không thể thu thập dữ liệu có ý nghĩa để chứng minh liệu các công cụ như Bard đang mang lại lợi ích hay gây hại cho chiến lược tiếp thị tìm kiếm của bạn.
Có, bạn có thể cho rằng việc thiếu trích dẫn là có hại, nhưng bạn chỉ đang đoán nếu bạn thiếu dữ liệu vì bạn đã chặn các bot AI truy cập nội dung của mình. Đó là một câu chuyện tương tự khi Google lần đầu tiên giới thiệu đoạn trích nổi bật cho Tìm kiếm.
Đối với các truy vấn có liên quan, Google hiển thị một đoạn nội dung từ các trang web trên trang kết quả, trả lời câu hỏi của người dùng. Điều này có nghĩa là người dùng không cần nhấp qua một trang web để nhận được câu trả lời mà họ đang tìm kiếm. Điều này gây hoang mang cho các chủ sở hữu trang web và các chuyên gia SEO, những người dựa vào việc tạo lưu lượng truy cập từ các truy vấn tìm kiếm.
Tuy nhiên, loại truy vấn kích hoạt đoạn trích nổi bật thường là các tìm kiếm có giá trị thấp như “X là gì” hoặc “thời tiết ở New York như thế nào”. Bất kỳ ai muốn có thông tin chuyên sâu hoặc báo cáo thời tiết toàn diện vẫn sẽ nhấp qua và những người không muốn đã không bao giờ có giá trị như vậy ngay từ đầu.
Bạn có thể thấy đó là một câu chuyện tương tự với các công cụ AI tổng quát, nhưng bạn sẽ cần dữ liệu để chứng minh điều đó.
Đừng vội vàng vào bất cứ điều gì
Chủ sở hữu và nhà xuất bản trang web lo lắng về công nghệ AI và thất vọng với ý tưởng bot sử dụng nội dung của họ để tạo phản hồi tức thì là điều dễ hiểu. Tuy nhiên, đây không phải là lúc để lao vào các động thái phản công. Công nghệ AI là một lĩnh vực phát triển nhanh và mọi thứ sẽ tiếp tục phát triển với tốc độ chóng mặt. Hãy tận dụng cơ hội này để xem mọi thứ diễn ra như thế nào và phân tích các mối đe dọa cũng như cơ hội tiềm năng mà AI mang lại.
Hệ thống hiện tại dựa vào công việc của người sáng tạo nội dung để thay thế họ không bền vững. Cho dù các công ty như Google và OpenAI thay đổi cách tiếp cận của họ hay chính phủ đưa ra các quy định mới, điều gì đó phải đưa ra. Đồng thời, tác động tiêu cực của chatbot AI đối với việc tạo nội dung ngày càng trở nên rõ ràng, điều mà chủ sở hữu trang web và người tạo nội dung có thể tận dụng để tạo lợi thế cho họ.