LLM nào là tốt nhất?
Các mô hình ngôn ngữ lớn (LLM) có đủ hình dạng và kích cỡ và sẽ hỗ trợ bạn theo bất kỳ cách nào bạn thấy phù hợp. Nhưng cái nào là tốt nhất? Chúng tôi đưa các AI thống trị từ Alphabet, OpenAI và Meta vào thử nghiệm.
Mục Lục
Những điều bạn cần biết về AI Chatbots
Trí thông minh nhân tạo nói chung đã là mục tiêu của các nhà khoa học máy tính trong nhiều thập kỷ và AI đã đóng vai trò trụ cột cho các nhà văn và nhà làm phim khoa học viễn tưởng trong thời gian dài hơn nữa.
AGI thể hiện trí thông minh tương tự như khả năng nhận thức của con người và Bài kiểm tra Turing—một bài kiểm tra khả năng của máy thể hiện hành vi thông minh không thể phân biệt được với hành vi của con người—hầu như không bị thách thức trong bảy thập kỷ kể từ lần đầu tiên nó được đưa ra.
Sự hội tụ gần đây của điện toán quy mô cực lớn, số lượng tiền khổng lồ và khối lượng thông tin đáng kinh ngạc có sẵn miễn phí trên internet mở đã cho phép những gã khổng lồ công nghệ đào tạo các mô hình có thể dự đoán phần từ tiếp theo—hoặc mã thông báo—trong một chuỗi mã thông báo.
Tại thời điểm viết bài, cả Bard của Google và ChatGPT của OpenAI đều có sẵn để bạn sử dụng và kiểm tra thông qua giao diện web của họ.
Mô hình ngôn ngữ của Meta, LLaMa, không có sẵn trên web, nhưng bạn có thể dễ dàng tải xuống và chạy LLaMa trên phần cứng của riêng mình và sử dụng nó thông qua dòng lệnh hoặc chạy Dalai trên máy của riêng bạn—một trong nhiều ứng dụng có giao diện thân thiện với người dùng .
Vì mục đích của thử nghiệm, chúng tôi sẽ chạy mô hình Alpaca 7B của Đại học Stanford—một phiên bản chuyển thể của LLaMa—và so sánh nó với Bard và ChatGPT.
Các so sánh và thử nghiệm sau đây không có nghĩa là toàn diện mà chỉ cung cấp cho bạn dấu hiệu về các điểm và khả năng chính.
Mô hình ngôn ngữ lớn nào dễ sử dụng nhất?
Cả Bard và ChatGPT đều yêu cầu tài khoản để sử dụng dịch vụ. Cả tài khoản Google và OpenAI đều dễ tạo và miễn phí, đồng thời bạn có thể bắt đầu đặt câu hỏi ngay lập tức.
Tuy nhiên, để chạy LLaMa cục bộ, bạn cần có một số kiến thức chuyên môn hoặc khả năng làm theo hướng dẫn. Bạn cũng sẽ cần một lượng không gian lưu trữ đáng kể.
Đó là mô hình ngôn ngữ lớn riêng tư nhất?
Cả Bard và ChatGPT đều có các chính sách bảo mật mở rộng và Google liên tục nhấn mạnh trong các tài liệu của mình rằng bạn “không nên đưa thông tin có thể được sử dụng để nhận dạng bạn hoặc những người khác vào các cuộc trò chuyện trên Bard của bạn.”
Theo mặc định, Google thu thập các cuộc hội thoại và vị trí chung của bạn dựa trên địa chỉ IP, phản hồi và thông tin sử dụng của bạn. Thông tin này được lưu trữ trong tài khoản Google của bạn trong tối đa 18 tháng. Mặc dù bạn có thể tạm dừng lưu hoạt động trên Bard của mình, nhưng bạn nên lưu ý rằng “để giúp nâng cao chất lượng và cải thiện sản phẩm của chúng tôi, những người đánh giá đã đọc, chú thích và xử lý các cuộc hội thoại trên Bard của bạn”.
Việc sử dụng Bard cũng tuân theo Chính sách bảo mật tiêu chuẩn của Google.
Chính sách về quyền riêng tư của OpenAI nhìn chung tương tự nhau và thu thập địa chỉ IP cũng như dữ liệu sử dụng. Ngược lại với việc lưu giữ có giới hạn thời gian của Google, OpenAI sẽ “chỉ lưu giữ Thông tin cá nhân của bạn trong khoảng thời gian chúng tôi cần để cung cấp Dịch vụ của chúng tôi cho bạn hoặc cho các mục đích kinh doanh hợp pháp khác như giải quyết tranh chấp, lý do an toàn và bảo mật hoặc tuân thủ với các nghĩa vụ pháp lý của chúng tôi.”
Ngược lại, một mô hình cục bộ trên máy của bạn không yêu cầu tài khoản hoặc chia sẻ dữ liệu người dùng với bất kỳ ai.
LLM nào có kiến thức chung tốt nhất?
Để kiểm tra LLM nào có kiến thức chung tốt nhất, chúng tôi đã hỏi ba câu hỏi.
Câu hỏi đầu tiên, “Quốc kỳ nào có năm cạnh?” chỉ được trả lời đúng bởi Bard, người xác định quốc kỳ của Nepal có năm cạnh.
ChatGPT tự tin tuyên bố rằng “Không có quốc kỳ nào có năm cạnh. Quốc kỳ thường có hình chữ nhật hoặc hình vuông, được đặc trưng bởi màu sắc, hoa văn và biểu tượng riêng biệt”.
Mô hình địa phương của chúng tôi đã đến gần, nói rằng “Quốc kỳ Ấn Độ có năm mặt và được thiết kế vào năm 1916 để đại diện cho phong trào độc lập của Ấn Độ.” Mặc dù lá cờ này đã tồn tại và có năm mặt, nhưng nó là lá cờ của Phong trào Tự trị Ấn Độ—không phải là lá cờ quốc gia.
Không mô hình nào của chúng tôi có thể trả lời rằng thuật ngữ chính xác cho một vật thể hình hạt đậu là “pisiform”, ChatGPT còn đi xa hơn khi đề xuất rằng hạt đậu có “hình dạng hình học ba chiều hoàn toàn tròn và đối xứng”.
Cả ba chatbot đều xác định chính xác Franco Malerba là một phi hành gia người Ý và là thành viên của Nghị viện Châu Âu, với việc Bard đưa ra câu trả lời được diễn đạt giống hệt với một phần trong mục nhập Wikipedia của Malerba.
LLM nào tốt cho hướng dẫn kỹ thuật?
Khi bạn gặp sự cố kỹ thuật, bạn có thể muốn chuyển sang chatbot để được trợ giúp. Trong khi công nghệ tiến lên, một số thứ vẫn giữ nguyên. Phích cắm điện BS 1363 đã được sử dụng ở Anh, Ireland và nhiều quốc gia khác kể từ năm 1947. Chúng tôi đã hỏi người mẫu ngôn ngữ cách đấu dây điện đúng cách.
Cáp gắn vào phích cắm có dây điện (màu nâu), dây nối đất (màu vàng/xanh lá cây) và dây trung tính (màu xanh lam). Chúng phải được gắn vào đúng đầu cuối trong vỏ phích cắm.
Quá trình triển khai Dalai của chúng tôi đã xác định chính xác phích cắm là “kiểu Anh”, sau đó thay đổi hướng đi và thay vào đó đưa ra hướng dẫn cho phích cắm BS 546 chân tròn cũ hơn cùng với màu dây cũ hơn.
ChatGPT hữu ích hơn một chút. Nó đã dán nhãn chính xác màu dây và đưa ra danh sách vật liệu và một bộ tám hướng dẫn. ChatGPT cũng đề xuất đặt dây màu nâu vào thiết bị đầu cuối có nhãn “L”, dây màu xanh vào thiết bị đầu cuối “N” và dây màu vàng vào “E”. Điều này sẽ đúng nếu các thiết bị đầu cuối BS1363 được dán nhãn, nhưng chúng thì không.
Bard đã xác định đúng màu của dây và hướng dẫn chúng tôi kết nối chúng với các thiết bị đầu cuối Trực tiếp, Trung tính và Trái đất. Nó không đưa ra hướng dẫn về cách xác định những điều này.
Theo quan điểm của chúng tôi. không có chatbot nào đưa ra hướng dẫn đầy đủ để giúp ai đó cắm đúng phích cắm điện BS 1363. Một câu trả lời ngắn gọn và chính xác sẽ là “Màu xanh bên trái, màu nâu bên phải.”
LLM nào tốt cho việc viết mã?
Python là một ngôn ngữ lập trình hữu ích chạy trên hầu hết các nền tảng hiện đại. Chúng tôi đã hướng dẫn các mô hình của mình sử dụng Python và “Xây dựng một chương trình máy tính cơ bản có thể thực hiện các phép toán số học như cộng, trừ, nhân và chia. Chương trình này sẽ nhận thông tin nhập của người dùng và hiển thị kết quả.” Đây là một trong những dự án lập trình tốt nhất cho người mới bắt đầu.
Mặc dù cả Bard và ChatGPT đều ngay lập tức trả về mã có thể sử dụng và được nhận xét kỹ lưỡng mà chúng tôi có thể kiểm tra và xác minh, nhưng không có mã nào từ mô hình cục bộ của chúng tôi sẽ chạy.
LLM nào kể chuyện cười hay nhất?
Hài hước là một trong những nguyên tắc cơ bản của con người và chắc chắn là một trong những cách tốt nhất để phân biệt con người và máy móc. Đối với mỗi người mẫu của chúng tôi, chúng tôi đưa ra lời nhắc đơn giản: “Tạo một trò đùa độc đáo và hài hước.”
May mắn thay cho các diễn viên hài ở khắp mọi nơi và nhân loại nói chung, không có mô hình nào có khả năng tạo ra một trò đùa độc đáo.
Bard tung ra câu nói kinh điển, “Tại sao con bù nhìn lại giành được giải thưởng? Anh ấy rất xuất sắc trong lĩnh vực của mình”.
Cả triển khai cục bộ của chúng tôi và ChatGPT đều đưa ra câu hỏi đáng phàn nàn, “Tại sao các nhà khoa học không tin tưởng vào các nguyên tử? Bởi vì chúng tạo nên mọi thứ!”
Một trò đùa phái sinh nhưng nguyên bản sẽ là, “Làm thế nào mà các Mô hình Ngôn ngữ Lớn giống như các nguyên tử? Cả hai đều tạo nên mọi thứ!”
Bạn đọc nó ở đây đầu tiên, folks.
Không có Chatbot nào là hoàn hảo
Chúng tôi nhận thấy rằng mặc dù cả ba mô hình ngôn ngữ lớn đều có ưu điểm và nhược điểm nhưng không mô hình nào có thể thay thế chuyên môn thực sự của một con người bằng kiến thức chuyên ngành.
Mặc dù cả Bard và ChatGPT đều đưa ra câu trả lời tốt hơn cho câu hỏi mã hóa của chúng tôi và rất dễ sử dụng, nhưng việc chạy một mô hình ngôn ngữ lớn cục bộ có nghĩa là bạn không cần phải lo lắng về quyền riêng tư hoặc kiểm duyệt.
Nếu bạn muốn tạo tác phẩm nghệ thuật AI tuyệt vời mà không phải lo lắng rằng ai đó đang theo dõi mình, bạn cũng có thể dễ dàng chạy một mô hình AI nghệ thuật trên máy cục bộ của mình.