Tại sao ChatGPT không thể phát hiện ra chữ viết của chính nó
Sau khi ra mắt ChatGPT vào tháng 11 năm 2022, chatbot AI phi thường đã nổi lên như một trong những công cụ viết đáng tin cậy nhất trên internet. Nó rất đơn giản để sử dụng; mô tả những gì bạn cần viết và ChatGPT sẽ in nó trên màn hình sau vài giây.
Tuy nhiên, trong thời đại mà văn bản do AI tạo ra được chuyển thành văn bản do con người viết và được sử dụng để đạt được lợi thế không công bằng, việc xác định nội dung AI là rất quan trọng. Nhưng ChatGPT không thể phát hiện chính xác nội dung AI, ngay cả tác phẩm của chính nó—nhưng tại sao?
Mục Lục
Có sự khác biệt giữa văn bản AI và chữ viết của con người không?
Điều kiện tiên quyết để ChatGPT phát hiện ra chữ viết của chính nó hoặc bất kỳ văn bản nào do AI tạo ra là phải có sự khác biệt giữa nó và văn bản do con người viết. Vì vậy, có sự khác biệt đáng kể nào giữa văn bản do con người viết và nội dung do AI tạo ra không? Nếu có, chắc chắn, một công cụ như ChatGPT sẽ có thể phân biệt được nó.
Chúng tôi đã viết một câu chuyện ngắn mà không có bất kỳ thông tin đầu vào nào từ bất kỳ công cụ AI nào và sau đó hỏi ChatGPT xem câu chuyện đó có phải là nội dung do AI viết hay không. ChatGPT tự tin gắn cờ nó là văn bản do AI tạo.
Sau đó, chúng tôi đã yêu cầu ChatGPT tạo một câu chuyện và trong cùng chuỗi trò chuyện đó, chúng tôi đã sao chép, dán văn bản đã tạo và hỏi ChatGPT xem văn bản đó có phải do AI tạo ra hay không. Phản hồi của ChatGPT? Một chữ “Không” đầy tự tin.
ChatGPT không xác định được văn bản do con người viết hoặc do AI tạo ra trong cả hai trường hợp. Vậy tại sao ChatGPT không thể phát hiện văn bản của chính nó? Điều này có nghĩa là không có sự khác biệt giữa AI và văn bản của con người?
Vâng, có. Chúng tôi có thể viết cả một cuốn sách về sự khác biệt giữa hai điều này, nhưng điều đó không quan trọng lắm. Vì vậy, nếu có sự khác biệt, tại sao ChatGPT hoặc bất kỳ công cụ AI nào khác không thể xác định những khác biệt này và chỉ ra chính xác văn bản do AI tạo ra từ văn bản do con người viết? Câu trả lời nằm ở cách ChatGPT hoạt động và cách nó tạo văn bản.
Cách ChatGPT tạo văn bản
Khi bạn yêu cầu ChatGPT tạo văn bản, ChatGPT sẽ cố bắt chước quy trình viết của con người. Thứ nhất, mô hình đằng sau ChatGPT—Generative Pre-training Transformer (GPT)—đã được đào tạo trên một kho văn bản lớn của con người. Mọi thứ từ email, bài báo về sức khỏe, bài viết về công nghệ, bài luận ở trường trung học và gần như bất kỳ văn bản nào bạn có thể tìm thấy trên mạng đều đã được cung cấp cho người mẫu trong quá trình đào tạo. Vì vậy, ChatGPT hiểu cách viết từng loại văn bản này.
Nếu bạn yêu cầu ChatGPT viết email cho sếp của bạn, ChatGPT sẽ biết một email có tính chất như vậy sẽ trông như thế nào vì nó đã được đào tạo về các email tương tự—có thể là hàng nghìn email trong số đó. Tương tự, nếu bạn yêu cầu nó viết một bài luận cấp ba, nó cũng biết bài luận cấp ba nên nghe như thế nào. ChatGPT sẽ cố gắng viết bất cứ thứ gì bạn muốn nó viết theo cách của con người.
Nhưng có một nhược điểm. Không giống như cách con người viết, ChatGPT không thực sự hiểu những gì nó đang viết theo cách mà con người hiểu. Thay vào đó, chatbot cố gắng dự đoán từ tiếp theo hợp lý nhất trong một câu cho đến khi nó hoàn thành bài viết.
Cách ChatGPT viết theo dự đoán
Giả sử bạn yêu cầu ChatGPT viết một câu chuyện về một thành phố hư cấu tên là Volkra. Có khả năng rất lớn là chatbot sẽ bắt đầu câu chuyện bằng từ “Ngày xửa ngày xưa”. Điều này là do chatbot không tự suy nghĩ mà cố gắng dự đoán những gì con người sẽ viết dựa trên những gì nó đã học được từ hàng nghìn câu chuyện mà nó đã được cung cấp trong quá trình đào tạo.
Vì vậy, tin rằng một người có thể sẽ bắt đầu câu chuyện bằng từ “Ngày xửa ngày xưa”, ChatGPT sau đó sẽ cố gắng dự đoán từ hợp lý tiếp theo, đó sẽ là “a” theo sau là “thời gian”. Vì vậy, sau đó bạn sẽ có “Ngày xửa ngày xưa…” theo sau là từ hợp lý tiếp theo và từ tiếp theo cho đến khi câu chuyện hoàn thành. ChatGPT về cơ bản viết bằng cách dự đoán từ nào sẽ xuất hiện một cách tự nhiên (hoặc ít nhất là có xác suất cao nhất) xuất hiện tiếp theo trong một câu và chèn từ đó vào.
Vì vậy, khi một công cụ AI cố gắng phát hiện xem một văn bản có phải do AI tạo ra hay không, một trong những tiêu chí mà nó cố gắng cân nhắc là khả năng dự đoán của văn bản do các công cụ AI viết theo dự đoán. Thước đo khả năng dự đoán này được gọi là sự phức tạp theo cách nói của AI. Giờ đây, khi được trình bày với một văn bản, trong số các tiêu chí khác, một công cụ AI như ChatGPT sẽ cố gắng phân tích văn bản để đo lường mức độ có thể dự đoán được trình tự các từ hoặc câu trong văn bản. Khả năng dự đoán cao hơn hoặc độ phức tạp thấp thường có nghĩa là văn bản có khả năng do AI tạo ra. Ít dự đoán hơn hoặc phức tạp hơn thường có nghĩa là văn bản có khả năng được viết bởi con người.
Các tiêu chí này, cùng với các yếu tố khác như mức độ sáng tạo của văn bản, rất tiếc là không đủ để xác định chắc chắn liệu văn bản có được viết bởi công cụ AI hay không. Điều này là do con người có thể viết với sự khác biệt lớn hơn, như trong văn bản mẫu mà chúng tôi đã sử dụng để minh họa ở đầu bài viết này.
Các chatbot AI như ChatGPT được thiết kế để bắt chước ngôn ngữ tự nhiên của con người nhiều nhất có thể. Vì vậy, mặc dù văn bản AI có thể có các mẫu rõ ràng, nhưng những mẫu đó không quá rõ ràng ngay cả đối với một công cụ mạnh mẽ như ChatGPT. Đây là lý do tại sao ChatGPT không thể phát hiện chữ viết của chính nó, cũng như lý do tại sao các công cụ phát hiện văn bản AI không hoạt động.
ChatGPT sẽ nhận ra chữ viết của chính nó trong tương lai chứ?
Hiện tại, các công cụ như ChatGPT không thể phát hiện liệu một văn bản được viết bởi chính nó hay bất kỳ công cụ AI nào khác vì không có mẫu rõ ràng, có thể phân biệt được trong nội dung do AI tạo. Tuy nhiên, rất có thể điều này sẽ sớm thay đổi. Với những nỗ lực của các công ty như ChatGPT để giới thiệu hình mờ kỹ thuật số vào nội dung do ChatGPT tạo ra, sẽ có một mẫu văn bản rõ ràng hơn đối với văn bản do chatbot tạo ra.