Hướng dẫn về API OpenAI và những gì bạn có thể làm với nó

Sức mạnh tổng hợp của ChatGPT đã gây ra một cơn sốt trong thế giới công nghệ kể từ khi nó ra mắt. Để chia sẻ trực giác của AI, OpenAI đã phát hành API ChatGPT và Whisper vào ngày 1 tháng 3 năm 2023 để các nhà phát triển khám phá và sử dụng trong ứng dụng.

Các API của OpenAI có nhiều điểm cuối có giá trị giúp việc tích hợp AI trở nên dễ dàng. Hãy cùng khám phá sức mạnh của API OpenAI để xem chúng có thể mang lại lợi ích gì cho bạn.

Mục Lục

API OpenAI có thể làm gì?

API OpenAI gói trong một loạt các tiện ích dành cho lập trình viên. Nếu bạn định cung cấp AI trong ứng dụng hàng ngày, OpenAI sẽ giúp cuộc sống của bạn dễ dàng hơn với các khả năng sau.

Trò chuyện

Điểm cuối hoàn thành trò chuyện API OpenAI giúp người dùng cuối tạo phiên tương tác tự nhiên, thân thiện với con người với trợ lý ảo sử dụng mô hình GPT-3.5-turbo.

Ở hậu trường, lệnh gọi API sử dụng một mảng thông báo về vai trò và nội dung. Về phía người dùng, nội dung là một tập hợp các hướng dẫn dành cho trợ lý ảo, thu hút người dùng, trong khi đối với mô hình, nội dung là phản hồi của trợ lý ảo.

Vai trò cấp cao nhất là hệ thống, nơi bạn xác định chức năng tổng thể của trợ lý ảo. Chẳng hạn, khi lập trình viên nói với hệ thống điều gì đó như “bạn là một trợ lý ảo hữu ích”, bạn mong đợi nó trả lời các câu hỏi khác nhau trong khả năng học tập của nó.

Sau khi nói nó là “một trợ lý ảo hữu ích”, đây là cách một trong những cuộc trò chuyện dòng lệnh của chúng tôi đã thực hiện với mô hình GPT-3.5-turbo:

Nhật ký CLI trò chuyện hoàn thành trò chuyện

Bạn thậm chí có thể cải thiện hiệu suất của mô hình bằng cách cung cấp các tham số như nhiệt độ, hình phạt hiện diện, hình phạt tần suất, v.v. Nếu bạn đã từng sử dụng ChatGPT, bạn đã biết mô hình hoàn thành trò chuyện của OpenAI hoạt động như thế nào.

Hoàn thành văn bản

API hoàn thành văn bản cung cấp các chức năng đàm thoại, chèn văn bản và hoàn thành văn bản dựa trên các mô hình GPT-3.5 nâng cao.

Mô hình quán quân trong điểm cuối hoàn thành văn bản là text-davinci-003, trực quan hơn đáng kể so với các mô hình ngôn ngữ tự nhiên GPT-3. Điểm cuối chấp nhận lời nhắc của người dùng, cho phép mô hình phản hồi một cách tự nhiên và hoàn thành các câu từ đơn giản đến phức tạp bằng cách sử dụng văn bản thân thiện với con người.

Mặc dù điểm cuối hoàn thành văn bản không trực quan như điểm cuối trò chuyện, nhưng nó sẽ tốt hơn—khi bạn tăng mã thông báo văn bản được cung cấp cho mô hình text-davinci-003.

Chẳng hạn, chúng tôi đã nhận được một số lần hoàn thành dở dang khi chúng tôi đặt mô hình trên max_tokens là bảy:

Kiểm tra mô hình hoàn thành văn bản qua CLI

Tuy nhiên, việc tăng max_tokens lên 70 đã tạo ra những suy nghĩ mạch lạc hơn:

Kiểm tra mô hình hoàn thành văn bản qua CLI hoàn thiện hơn

Chuyển giọng nói thành văn bản

Bạn có thể phiên âm và dịch lời nói bằng âm thanh bằng cách sử dụng các điểm cuối phiên âm và dịch của OpenAI. Điểm cuối chuyển giọng nói thành văn bản dựa trên mô hình Whisper v2-large, được phát triển thông qua giám sát yếu quy mô lớn.

Tuy nhiên, OpenAI cho biết không có sự khác biệt giữa mô hình Whisper của nó và mô hình trong mã nguồn mở. Vì vậy, nó mang đến cơ hội vô tận để tích hợp AI phiên âm và phiên dịch đa ngôn ngữ vào ứng dụng của bạn trên quy mô lớn.

Việc sử dụng điểm cuối rất đơn giản. Tất cả những gì bạn phải làm là cung cấp cho mô hình một tệp âm thanh và gọi openai.Audio.translate hoặc openai.Audio.transcribe điểm cuối để dịch hoặc phiên âm nó tương ứng. Các điểm cuối này chấp nhận kích thước tệp tối đa là 25 MB và hỗ trợ hầu hết các loại tệp âm thanh, bao gồm mp3, mp4, MPEG, MPGA, m4a, wav và webm.

So sánh văn bản

Điểm cuối so sánh văn bản API OpenAI đo lường mối quan hệ giữa các văn bản bằng cách sử dụng mô hình nhúng văn bản-ada-002, một mô hình nhúng thế hệ thứ hai. API nhúng sử dụng mô hình này để đánh giá mối quan hệ giữa các văn bản dựa trên khoảng cách giữa hai điểm vectơ. Sự khác biệt càng lớn, các văn bản được so sánh càng ít liên quan.

Điểm cuối nhúng có tính năng phân cụm văn bản, sự khác biệt, mức độ liên quan, đề xuất, cảm tính và phân loại. Ngoài ra, nó tính phí trên mỗi khối lượng mã thông báo.

Mặc dù tài liệu OpenAI cho biết bạn có thể sử dụng các mô hình nhúng thế hệ đầu tiên khác, nhưng mô hình trước đây tốt hơn với mức giá rẻ hơn. Tuy nhiên, OpenAI cảnh báo rằng mô hình nhúng có thể thể hiện sự thiên vị xã hội đối với một số người nhất định, như đã được chứng minh trong các thử nghiệm.

Hoàn thành mã

Điểm cuối hoàn thành mã được xây dựng trên OpenAI Codex, một tập hợp các mô hình được đào tạo bằng ngôn ngữ tự nhiên và hàng tỷ dòng mã từ các kho lưu trữ công khai.

Điểm cuối là phiên bản beta giới hạn và miễn phí khi viết, cung cấp hỗ trợ cho nhiều ngôn ngữ lập trình hiện đại, bao gồm JavaScript, Python, Go, PHP, Ruby, Shell, TypeScript, Swift, Perl và SQL.

Với mô hình code-davinci-002 hoặc code-cushman-001, điểm cuối hoàn thành mã có thể tự động chèn các dòng mã hoặc quay các khối mã từ lời nhắc của người dùng. Mặc dù mô hình thứ hai nhanh hơn, nhưng mô hình thứ nhất là sức mạnh của điểm cuối, vì nó có tính năng chèn mã để tự động hoàn thành mã.

Chẳng hạn, bạn có thể tạo một khối mã bằng cách gửi lời nhắc đến điểm cuối trong nhận xét ngôn ngữ đích.

Dưới đây là một số phản hồi chúng tôi nhận được khi thử tạo một số khối mã bằng Python và JavaScript thông qua thiết bị đầu cuối:

Tạo ảnh

Đây là một trong những tính năng trực quan nhất của OpenAI API. Dựa trên mô hình hình ảnh DALL.E, chức năng hình ảnh của API OpenAI có các điểm cuối để tạo, chỉnh sửa và tạo các biến thể hình ảnh từ lời nhắc ngôn ngữ tự nhiên.

Mặc dù nó chưa có các tính năng nâng cao như nâng cấp vì nó vẫn đang trong giai đoạn thử nghiệm, nhưng kết quả đầu ra chưa được định tỷ lệ của nó ấn tượng hơn so với kết quả của các mô hình nghệ thuật tổng quát như Midjourney và Khuếch tán ổn định.

Trong khi nhấn điểm cuối tạo hình ảnh, bạn chỉ cần cung cấp lời nhắc, kích thước hình ảnh và số lượng hình ảnh. Tuy nhiên, điểm cuối chỉnh sửa hình ảnh yêu cầu bạn bao gồm hình ảnh bạn muốn chỉnh sửa và mặt nạ RGBA đánh dấu điểm chỉnh sửa cùng với các tham số khác.

Mặt khác, điểm cuối biến thể chỉ yêu cầu hình ảnh đích, số lượng biến thể và kích thước đầu ra. Tại thời điểm viết bài, các điểm cuối hình ảnh beta của OpenAI chỉ có thể chấp nhận các khung hình vuông trong phạm vi 256×256, 512×512 và 1024×1024 pixel.

Chúng tôi đã tạo một ứng dụng tạo hình ảnh đơn giản bằng cách sử dụng điểm cuối này và mặc dù nó bỏ sót một số chi tiết, nhưng nó đã mang lại một kết quả đáng kinh ngạc:

Cách sử dụng API OpenAI

Việc sử dụng API OpenAI rất đơn giản và tuân theo mô hình tiêu thụ API thông thường.

cài đặt openai gói sử dụng pip: pip cài đặt openai. Nếu sử dụng Node thay vào đó, bạn có thể làm như vậy bằng cách sử dụng npm: npm cài đặt openai.
Lấy các khóa API của bạn: Đăng nhập vào bảng điều khiển OpenAI của bạn và nhấp vào biểu tượng hồ sơ của bạn ở trên cùng bên phải. Đi đến Xem khóa API và bấm vào Tạo khóa bí mật mới để tạo khóa bí mật API của bạn.
Thực hiện lệnh gọi API tới các điểm cuối mô hình đã chọn của bạn thông qua ngôn ngữ phía máy chủ như Python hoặc JavaScript (Node). Cung cấp những thứ này cho các API tùy chỉnh của bạn và kiểm tra các điểm cuối của bạn.
Sau đó tìm nạp các API tùy chỉnh thông qua các khung JavaScript như React, Vue hoặc Angular.
Trình bày dữ liệu (yêu cầu của người dùng và phản hồi của mô hình) trong giao diện người dùng hấp dẫn trực quan và ứng dụng của bạn đã sẵn sàng để sử dụng trong thế giới thực.

Bạn có thể tạo gì với API OpenAI?

Các API OpenAI tạo ra các điểm đầu vào để sử dụng máy học và học tăng cường trong thực tế. Mặc dù có rất nhiều cơ hội để sáng tạo, nhưng đây là một số thứ bạn có thể xây dựng với API OpenAI:

Tích hợp một chatbot trợ lý ảo trực quan vào trang web hoặc ứng dụng của bạn bằng cách sử dụng điểm cuối hoàn thành trò chuyện.
Tạo một ứng dụng thao tác và chỉnh sửa hình ảnh có thể chèn một đối tượng vào hình ảnh một cách tự nhiên tại bất kỳ điểm cụ thể nào bằng cách sử dụng các điểm cuối tạo hình ảnh.
Xây dựng mô hình học máy tùy chỉnh từ đầu bằng cách sử dụng điểm cuối tinh chỉnh mô hình của OpenAI.
Sửa phụ đề và bản dịch cho video, âm thanh và hội thoại trực tiếp bằng cách sử dụng điểm cuối mô hình chuyển lời nói thành văn bản.
Xác định cảm xúc tiêu cực trong ứng dụng của bạn bằng cách sử dụng điểm cuối mô hình nhúng OpenAI.
Tạo các plugin hoàn thành mã dành riêng cho ngôn ngữ lập trình cho trình chỉnh sửa mã và môi trường phát triển tích hợp (IDE).

Xây dựng không ngừng với API OpenAI

Giao tiếp hàng ngày của chúng tôi thường liên quan đến việc trao đổi nội dung bằng văn bản. API OpenAI chỉ mở rộng các xu hướng và tiềm năng sáng tạo của nó, với các trường hợp sử dụng ngôn ngữ tự nhiên dường như vô hạn.

Vẫn còn sớm cho API OpenAI. Nhưng hy vọng nó sẽ phát triển với nhiều tính năng hơn khi thời gian trôi qua.

Hướng dẫn về API OpenAI và những gì bạn có thể làm với nó