Cách xây dựng ChatGPT tùy chỉnh bằng dữ liệu của riêng bạn
Cung cấp công nghệ GPT trong một chatbot mạnh mẽ và dễ sử dụng, ChatGPT đã trở thành công cụ AI phổ biến nhất thế giới. Nhiều người sử dụng ChatGPT để cung cấp các cuộc trò chuyện hấp dẫn, trả lời các truy vấn, đưa ra các đề xuất sáng tạo cũng như hỗ trợ viết mã và viết. Tuy nhiên, ChatGPT bị hạn chế vì bạn không thể lưu trữ dữ liệu của mình để sử dụng lâu dài cho mục đích cá nhân và điểm giới hạn dữ liệu kiến thức vào tháng 9 năm 2021.
Như một giải pháp thay thế, chúng tôi có thể sử dụng API của OpenAI và LangChain để cung cấp cho ChatGPT dữ liệu tùy chỉnh và thông tin cập nhật trước năm 2021 nhằm tạo phiên bản ChatGPT tùy chỉnh.
Mục Lục
Tại sao lại cung cấp ChatGPT với Dữ liệu tùy chỉnh?
Cung cấp ChatGPT với dữ liệu tùy chỉnh và cung cấp thông tin cập nhật sau ngày giới hạn kiến thức mang lại một số lợi ích so với việc chỉ sử dụng ChatGPT như bình thường. Dưới đây là một vài trong số họ:
- Tương tác được cá nhân hóa: Bằng cách cung cấp cho ChatGPT dữ liệu tùy chỉnh, người dùng có thể tạo trải nghiệm tùy chỉnh hơn. Mô hình có thể được đào tạo trên các bộ dữ liệu cụ thể có liên quan đến từng người dùng hoặc tổ chức, dẫn đến phản hồi phù hợp với nhu cầu và sở thích riêng của họ.
- Chuyên môn dành riêng cho miền: Tích hợp dữ liệu tùy chỉnh cho phép ChatGPT chuyên về các lĩnh vực hoặc ngành cụ thể. Nó có thể được đào tạo về kiến thức, thuật ngữ và xu hướng dành riêng cho ngành, cho phép phản hồi chính xác và sâu sắc hơn trong các lĩnh vực cụ thể đó.
- Thông tin hiện tại và chính xác: Quyền truy cập vào thông tin cập nhật đảm bảo rằng ChatGPT luôn cập nhật những phát triển và kiến thức mới nhất. Nó có thể cung cấp phản hồi chính xác dựa trên các sự kiện, tin tức hoặc nghiên cứu gần đây, làm cho nó trở thành một nguồn thông tin đáng tin cậy hơn.
Bây giờ bạn đã hiểu tầm quan trọng của việc cung cấp dữ liệu tùy chỉnh cho ChatGPT, dưới đây là hướng dẫn từng bước về cách thực hiện điều đó trên máy tính cục bộ của bạn.
Bước 1: Cài đặt và tải xuống phần mềm và tập lệnh tạo sẵn
Xin lưu ý rằng các hướng dẫn sau đây dành cho máy Windows 10 hoặc Windows 11.
Để cung cấp dữ liệu tùy chỉnh cho ChatGPT, bạn cần cài đặt và tải xuống Python3, Git, Microsoft C++ mới nhất và tập lệnh truy xuất ChatGPT từ GitHub. Nếu bạn đã cài đặt một số phần mềm trên PC, hãy đảm bảo rằng chúng được cập nhật với phiên bản mới nhất để tránh bất kỳ trục trặc nào trong quá trình này.
Bắt đầu bằng cách cài đặt:
Ghi chú cài đặt Python3 và Microsoft C++
Khi cài đặt Python3, hãy đảm bảo rằng bạn đánh dấu vào Thêm python.exe vào ĐƯỜNG tùy chọn trước khi nhấp vào Cài đặt ngay. Điều này rất quan trọng vì nó cho phép bạn truy cập Python trong bất kỳ thư mục nào trên máy tính của bạn.
Khi cài đặt Microsoft C++, bạn sẽ muốn cài đặt Công cụ xây dựng Microsoft Visual Studio Đầu tiên. Sau khi cài đặt, bạn có thể đánh dấu vào Phát triển máy tính để bàn với C ++ tùy chọn và bấm vào Cài đặt với tất cả các công cụ tùy chọn được đánh dấu tự động trên thanh bên phải.
Bây giờ bạn đã cài đặt các phiên bản mới nhất của Python3, Git và Microsoft C++, bạn có thể tải xuống tập lệnh Python để dễ dàng truy vấn dữ liệu cục bộ tùy chỉnh.
Tải xuống: Tập lệnh truy xuất ChatGPT (Miễn phí)
Để tải xuống tập lệnh, hãy nhấp vào Mã số, sau đó chọn Tải xuống ZIP. Điều này sẽ tải xuống tập lệnh Python vào thư mục mặc định hoặc đã chọn của bạn.
Sau khi tải xuống, giờ đây chúng ta có thể thiết lập môi trường cục bộ.
Bước 2: Thiết lập môi trường cục bộ
Để thiết lập môi trường, bạn cần mở một thiết bị đầu cuối trong thư mục chatgpt-retrieval-main mà bạn đã tải xuống. Để làm điều đó, hãy mở chatgpt-thu hồi-chính thư mục, nhấp chuột phải và chọn Mở trong Terminal.
Khi thiết bị đầu cuối được mở, hãy sao chép và dán lệnh này:
pip install langchain openai chromadb tiktoken unstructured
Lệnh này sử dụng trình quản lý gói của Python để tạo và quản lý môi trường ảo Python cần thiết.
Sau khi tạo môi trường ảo, chúng tôi cần cung cấp khóa API OpenAI để truy cập các dịch vụ của họ. Trước tiên, chúng tôi cần tạo khóa API từ trang web khóa API OpenAI bằng cách nhấp vào Tạo khóa bí mật mớithêm tên cho khóa, sau đó nhấn phím Tạo nút khóa bí mật.
Bạn sẽ được cung cấp một chuỗi ký tự. Đây là khóa API OpenAI của bạn. Sao chép nó bằng cách nhấp vào biểu tượng sao chép ở bên cạnh khóa API. Hãy lưu ý rằng khóa API này phải được giữ bí mật. Không chia sẻ nó với người khác trừ khi bạn thực sự có ý định để họ sử dụng nó với bạn.
Sau khi sao chép, hãy quay lại thư mục chatgpt-retrieval-main và mở các hằng số với Sổ tay. Bây giờ hãy thay thế trình giữ chỗ bằng khóa API của bạn. Nhớ lưu file lại nhé!
Bây giờ, bạn đã thiết lập thành công môi trường ảo của mình và thêm khóa API OpenAI làm biến môi trường. Giờ đây, bạn có thể cung cấp dữ liệu tùy chỉnh của mình cho ChatGPT.
Bước 3: Thêm dữ liệu tùy chỉnh
Để thêm dữ liệu tùy chỉnh, hãy đặt tất cả dữ liệu văn bản tùy chỉnh của bạn vào dữ liệu thư mục trong chatgpt-retrieval-main. Định dạng của dữ liệu văn bản có thể ở dạng PDF, TXT hoặc DOC.
Như bạn có thể thấy từ ảnh chụp màn hình ở trên, tôi đã thêm một tệp văn bản chứa lịch trình cá nhân đã tạo sẵn, một bài báo tôi đã viết về Máy gia tốc Bản năng của AMD và một tài liệu PDF.
Bước 4: Truy vấn ChatGPT qua Terminal
Tập lệnh Python cho phép chúng tôi truy vấn dữ liệu từ dữ liệu tùy chỉnh mà chúng tôi đã thêm vào thư mục dữ liệu và internet. Nói cách khác, bạn sẽ có quyền truy cập vào chương trình phụ trợ ChatGPT thông thường và tất cả dữ liệu được lưu trữ cục bộ trong thư mục dữ liệu.
Để sử dụng tập lệnh, hãy chạy tập lệnh python chatgpt.py rồi thêm câu hỏi hoặc truy vấn của bạn làm đối số.
python chatgpt.py "YOUR QUESTION"
Đảm bảo đặt câu hỏi của bạn trong dấu ngoặc kép.
Để kiểm tra xem chúng tôi đã cung cấp thành công dữ liệu ChatGPT của mình chưa, tôi sẽ hỏi một câu hỏi cá nhân liên quan đến Cá nhân Sched.txt tài liệu.
Nó đã làm việc! Điều này có nghĩa là ChatGPT có thể đọc Personal Sched.txt được cung cấp trước đó. Bây giờ, hãy xem liệu chúng tôi đã cung cấp thành công ChatGPT với thông tin mà nó không biết do ngày giới hạn kiến thức của nó hay chưa.
Như bạn có thể thấy, nó mô tả chính xác AMD Instinct MI250x, được phát hành sau ngày giới hạn kiến thức của ChatGPT -3.
Hạn chế của Custom ChatGPT
Mặc dù cung cấp dữ liệu tùy chỉnh cho GPT-3.5 mở ra nhiều cách hơn để áp dụng và sử dụng LLM, nhưng vẫn có một vài nhược điểm và hạn chế.
Đầu tiên, bạn cần tự mình cung cấp tất cả dữ liệu. Bạn vẫn có thể truy cập tất cả kiến thức về GPT-3.5 cho đến ngày giới hạn kiến thức của nó; tuy nhiên, bạn phải cung cấp tất cả dữ liệu bổ sung. Điều này có nghĩa là nếu bạn muốn mô hình địa phương của mình hiểu biết về một chủ đề nhất định trên internet mà GPT-3.5 chưa biết, bạn sẽ phải truy cập internet và tự cạo dữ liệu và lưu dưới dạng văn bản trên thư mục dữ liệu của chatgpt-retrieval-main.
Một vấn đề khác là việc truy vấn ChatGPT như thế này sẽ mất nhiều thời gian hơn để tải so với việc hỏi trực tiếp ChatGPT.
Cuối cùng, mẫu duy nhất hiện có là GPT-3.5 Turbo. Vì vậy, ngay cả khi bạn có quyền truy cập vào GPT-4, bạn sẽ không thể sử dụng nó để cấp nguồn cho phiên bản ChatGPT tùy chỉnh của mình.
Trò chuyện tùy chỉnhGPT tuyệt vời nhưng có giới hạn
Cung cấp dữ liệu tùy chỉnh cho ChatGPT là một cách hiệu quả để tận dụng tối đa mô hình. Thông qua phương pháp này, bạn có thể cung cấp cho mô hình bất kỳ dữ liệu văn bản nào bạn muốn và nhắc nó giống như ChatGPT thông thường, mặc dù có một số hạn chế. Tuy nhiên, điều này sẽ thay đổi trong tương lai vì việc tích hợp dữ liệu của chúng tôi với LLM trở nên dễ dàng hơn, cùng với quyền truy cập vào mẫu GPT-4 mới nhất.