ChatGPT hoạt động như thế nào? ChatGPT có thể trả lời câu hỏi bằng cách nào?
ChatGPT là chatbot AI thay đổi cuộc chơi của OpenAI đang khiến internet phải kinh ngạc. Chống lại tất cả các xu hướng công nghệ đã được thiết lập, ChatGPT đã không mất nhiều thời gian để tìm đường vào hầu hết mọi lĩnh vực trong cuộc sống kỹ thuật số của chúng ta.
Rất ít cải tiến công nghệ thu hút được nhiều sự quan tâm như ChatGPT đã đạt được trong một thời gian ngắn như vậy. Nó dường như không bao giờ hết các thủ thuật hay—mỗi ngày, chúng tôi tìm hiểu về những điều mới thú vị mà chúng tôi không biết nó có thể làm được.
Nhưng làm thế nào ChatGPT có thể làm những việc mà nó có thể làm? ChatGPT hoạt động như thế nào?
Mục Lục
ChatGPT được xây dựng như thế nào?
Để hiểu cách ChatGPT hoạt động, bạn nên xem xét nguồn gốc của nó và bộ não đằng sau chatbot AI tiên tiến.
Thứ nhất, có vẻ kỳ diệu như ChatGPT, nó được xây dựng bởi thiên tài của con người, giống như mọi công nghệ phần mềm đáng giá hiện có. OpenAI đã tạo ra ChatGPT, công ty nghiên cứu và phát triển AI mang tính cách mạng đằng sau các công cụ AI mạnh mẽ khác như DALL-E, InstructGPT và Codex. Trước đây, chúng tôi đã trả lời một số câu hỏi mà bạn có thể có về ChatGPT, vì vậy hãy xem qua.
Mặc dù ChatGPT đã lan truyền mạnh mẽ vào cuối năm 2022, nhưng hầu hết công nghệ cơ bản hỗ trợ ChatGPT đã tồn tại lâu hơn nữa, mặc dù ít được công khai hơn nhiều. Mô hình ChatGPT được xây dựng dựa trên GPT-3 (hay cụ thể hơn là GPT-3.5). GPT là viết tắt của “Generative Pre-training Transformer 3.”
GPT-3 là phiên bản thứ ba của dòng mô hình AI GPT và trước GPT-2 và GPT. Các phiên bản trước đó của mô hình GPT đều hữu ích như nhau, nhưng GPT-3 và phiên bản GPT-3.5 được tinh chỉnh mạnh mẽ hơn nhiều. Hầu hết những gì ChatGPT có thể làm là nhờ vào công nghệ GPT-3 cơ bản.
GPT là gì?
Vì vậy, chúng tôi đã xác định rằng ChatGPT được xây dựng trên thế hệ thứ ba của mô hình GPT. Nhưng GPT là gì?
Hãy bắt đầu bằng cách giải nén các từ viết tắt theo cách dễ hiểu và phi kỹ thuật.
- “Tạo” trong GPT thể hiện khả năng tạo văn bản ngôn ngữ tự nhiên của con người.
- “Được đào tạo trước” thể hiện thực tế là mô hình đã được đào tạo trên một số tập dữ liệu hữu hạn. Giống như bạn đọc một cuốn sách hoặc có thể vài cuốn sách trước khi được yêu cầu trả lời các câu hỏi về nó.
- “Transformer” đại diện cho kiến trúc máy học cơ bản cung cấp năng lượng cho GPT.
Bây giờ, kết hợp tất cả lại với nhau, Generative Pre-training Transformer (GPT) là một mô hình ngôn ngữ đã được đào tạo bằng cách sử dụng dữ liệu từ internet với mục đích tạo văn bản ngôn ngữ của con người khi được đưa ra lời nhắc. Vì vậy, chúng tôi đã nhiều lần nói rằng GPT đã được đào tạo, nhưng nó được đào tạo như thế nào?
ChatGPT được đào tạo như thế nào?
Bản thân ChatGPT không được đào tạo từ đầu. Thay vào đó, nó là một phiên bản tinh chỉnh của GPT-3.5, bản thân nó là một phiên bản tinh chỉnh của GPT-3. Mô hình GPT-3 đã được đào tạo với một lượng lớn dữ liệu được thu thập từ internet. Hãy nghĩ về Wikipedia, Twitter và Reddit—nó được cung cấp dữ liệu và văn bản của con người được lấy từ mọi ngóc ngách của internet.
Nếu bạn đang thắc mắc về cách thức hoạt động của quá trình đào tạo GPT, thì GPT-3 đã được đào tạo bằng cách kết hợp học có giám sát và Học tăng cường thông qua phản hồi của con người (RLHF). Học có giám sát là giai đoạn mà mô hình được đào tạo trên một tập dữ liệu lớn gồm văn bản được lấy từ internet. Giai đoạn học tăng cường là nơi nó được đào tạo để tạo ra những phản ứng tốt hơn phù hợp với những gì con người sẽ chấp nhận là vừa giống con người vừa đúng.
Đào tạo với học tập có giám sát
Để hiểu rõ hơn về cách học tập có giám sát và tăng cường áp dụng cho ChatGPT, hãy tưởng tượng một tình huống trong đó một học sinh được giáo viên dạy viết bài luận. Học có giám sát sẽ tương đương với việc giáo viên cho học sinh đọc hàng trăm bài luận. Mục tiêu ở đây là để học sinh biết cách viết một bài luận bằng cách làm quen với giọng điệu, từ vựng và cấu trúc của hàng trăm bài luận.
Tuy nhiên, sẽ có cái hay và cái dở giữa hàng trăm bài luận đó. Vì học sinh được luyện cả bài hay và bài dở, nên đôi khi, học sinh có thể viết một bài văn dở vì một lúc nào đó học sinh cũng bị cho ăn những bài văn dở. Điều này có nghĩa là khi được yêu cầu viết một bài luận, học sinh có thể viết một bản sao không được giáo viên chấp nhận hoặc không đủ tốt. Đây là lúc học tăng cường phát huy tác dụng.
Đào tạo với học tăng cường
Sau khi giáo viên xác định rằng học sinh hiểu các quy tắc chung của viết luận bằng cách đọc hàng trăm bài luận, thì giáo viên sẽ thường xuyên cho học sinh viết bài tập về nhà. Sau đó, giáo viên sẽ cung cấp phản hồi về bài tập viết luận, cho học sinh biết những gì họ đã làm tốt và những gì họ có thể cải thiện. Học sinh sử dụng phản hồi để hướng dẫn bài tập về nhà viết luận tiếp theo, giúp học sinh tiến bộ theo thời gian.
Điều này tương tự với giai đoạn học tăng cường của mô hình đào tạo GPT. Sau khi được cung cấp một lượng lớn văn bản được lấy từ internet, mô hình có thể trả lời các câu hỏi. Tuy nhiên, độ chính xác của nó sẽ không đủ tốt. Người huấn luyện con người hỏi người mẫu một câu hỏi và cung cấp phản hồi về câu trả lời nào phù hợp hơn cho từng câu hỏi.
Mô hình sử dụng thông tin phản hồi để cải thiện khả năng trả lời câu hỏi chính xác hơn và giống với cách con người sẽ trả lời hơn. Đây là cách ChatGPT có thể tạo ra các phản hồi giống như con người, mạch lạc, hấp dẫn và nói chung là chính xác.
ChatGPT có thể trả lời câu hỏi như thế nào?
Vì vậy, bạn truy cập trang web ChatGPT và đăng nhập. Bạn nhắc ChatGPT: “hãy viết một bài hát rap theo phong cách của Snoop Dogg.” Nó phản hồi bằng lời bài hát rap trông rất giống với những gì Snoop Dogg sẽ viết. Sao có thể như thế được?
Chà, “phép thuật” đằng sau ChatGPT đều liên quan chặt chẽ đến quá trình đào tạo của nó.
Sau khi xem hết từng inch sách giáo khoa Vật lý 101 của bạn, rất có thể bạn sẽ có thể trả lời bất kỳ câu hỏi nào từ đó ném vào bạn. Tại sao? Bởi vì bạn đã đọc nó, và bạn đã học nó. Điều tương tự xảy ra với ChatGPT—nó học hỏi. Và như nền văn minh nhân loại đã chỉ ra, với sự đào tạo đầy đủ, hầu hết mọi vấn đề đều có thể giải quyết được.
Mặc dù bạn có thể quản lý hàng trăm cuốn sách trong đời, nhưng ChatGPT hoặc GPT đã tiêu tốn một lượng lớn internet. Đó là một kho thông tin khổng lồ. Trong đó, đâu đó, có lẽ là lời bài hát của rất nhiều bài hát của Snoop Dogg. Vì vậy, tất nhiên, ChatGPT hẳn đã sử dụng nó (hãy nhớ rằng nó đã được đào tạo trước) và nhận dạng các mẫu trong lời bài hát của Snoop Dogg. Sau đó, nó sẽ sử dụng “kiến thức” về mẫu này để “dự đoán” lời bài hát giống với những gì Snoop Dogg sẽ viết.
Trọng tâm ở đây là “dự đoán”. ChatGPT không trả lời các câu hỏi giống như cách chúng ta làm với con người. Ví dụ, khi đối mặt với một câu hỏi như “Thủ đô của Bồ Đào Nha là gì?” bạn có thể nói Lisbon và nói nó cho một “sự thật.” Tuy nhiên, ChatGPT không trả lời câu hỏi một cách chắc chắn 100%. Thay vào đó, nó cố gắng dự đoán câu trả lời đúng dựa trên dữ liệu mà nó đã sử dụng trong tập dữ liệu huấn luyện của mình.
Cách tiếp cận của ChatGPT để trả lời câu hỏi
Để hiểu rõ hơn về khái niệm dự đoán phản hồi, hãy tưởng tượng ChatGPT là một thám tử được giao nhiệm vụ giải quyết một vụ giết người. Thám tử được đưa ra bằng chứng, nhưng họ không biết ai đã thực hiện vụ giết người và nó xảy ra như thế nào. Tuy nhiên, với đủ bằng chứng, thám tử có thể “dự đoán” với độ chính xác cao ai là người chịu trách nhiệm cho vụ giết người và tội ác được thực hiện như thế nào.
Sau khi sử dụng dữ liệu từ internet, ChatGPT loại bỏ dữ liệu gốc và lưu trữ các kết nối thần kinh hoặc mẫu mà nó đã học được từ dữ liệu. Các kết nối hoặc mẫu này giống như các bằng chứng mà ChatGPT phân tích khi cố gắng phản hồi bất kỳ lời nhắc nào.
Vì vậy, về lý thuyết, ChatGPT giống như một thám tử rất giỏi. Nó không biết chắc chắn các dữ kiện của một câu trả lời là gì, nhưng nó cố gắng, với độ chính xác ấn tượng, để dự đoán một chuỗi logic của văn bản ngôn ngữ con người sẽ trả lời câu hỏi một cách thích hợp nhất. Đây là cách bạn nhận được câu trả lời cho câu hỏi của bạn.
Và đây cũng là lý do tại sao một số câu trả lời trông rất thuyết phục nhưng lại sai lầm khủng khiếp.
ChatGPT: Trả lời như con người, suy nghĩ như máy
Các chi tiết kỹ thuật cơ bản của ChatGPT rất phức tạp. Tuy nhiên, từ quan điểm cơ bản, nó hoạt động bằng cách học và tái tạo những gì nó đã học được khi được nhắc, giống như chúng ta làm với tư cách là con người.
Khi ChatGPT phát triển thông qua nghiên cứu, cách thức hoạt động của nó có thể thay đổi. Tuy nhiên, các nguyên tắc hoạt động cơ bản của nó sẽ vẫn giữ nguyên trong một thời gian, ít nhất là cho đến khi một công nghệ mới đột phá xuất hiện.