Thư viện AI Python sáng tạo
Pandas là thư viện chiếm ưu thế nhất để thao tác với bộ dữ liệu và khung dữ liệu. Đây đã là tiêu chuẩn trong một thời gian dài. Nhưng với sự tiến bộ của trí tuệ nhân tạo, một thư viện nguồn mở mới có tên là PandasAI đã được phát triển để bổ sung các khả năng AI tổng quát cho Pandas.
PandasAI không thay thế Pandas. Thay vào đó, nó cung cấp khả năng AI tổng quát của nó. Bằng cách này, bạn có thể thực hiện phân tích dữ liệu bằng cách trò chuyện với PandasAI. Sau đó, nó tóm tắt những gì đang xảy ra trong nền và cung cấp cho bạn đầu ra của truy vấn.
Mục Lục
Cài đặt PandasAI
PandasAI có sẵn thông qua PyPI (Chỉ mục gói Python). Tạo một môi trường ảo mới nếu bạn đang sử dụng IDE cục bộ. Sau đó sử dụng trình quản lý gói pip để cài đặt nó.
pip install pandasai
Bạn có thể gặp lỗi xung đột phụ thuộc tương tự như lỗi hiển thị bên dưới nếu bạn đang sử dụng Google Colab.
Không hạ cấp phiên bản IPython. Chỉ cần khởi động lại thời gian chạy của bạn và chạy lại khối mã. Điều này sẽ giải quyết vấn đề.
Hiểu tập dữ liệu mẫu
Tập dữ liệu mẫu mà bạn sẽ thao tác với PandasAI là tập dữ liệu Giá nhà ở California từ Kaggle. Bộ dữ liệu này chứa thông tin về nhà ở từ cuộc điều tra dân số California năm 1990. Nó có mười cột cung cấp số liệu thống kê về những ngôi nhà này. Thẻ dữ liệu để giúp bạn tìm hiểu thêm về bộ dữ liệu này hiện có trên Kaggle. Dưới đây là năm hàng đầu tiên của tập dữ liệu.
Mỗi cột đại diện cho một thống kê duy nhất của một ngôi nhà.
Kết nối PandasAI với Mô hình ngôn ngữ lớn
Để kết nối PandasAI với một mô hình ngôn ngữ lớn (LLM) như của OpenAI, bạn cần truy cập vào khóa API của nó. Để có được một cái, hãy tiếp tục với nền tảng OpenAI. Sau đó đăng nhập vào tài khoản của bạn. Lựa chọn API dưới trang tùy chọn xuất hiện tiếp theo.
Sau đó, nhấp vào hồ sơ của bạn và chọn Xem khóa API lựa chọn. Trên trang xuất hiện nhấp chuột tiếp theo Tạo khóa bí mật mới cái nút. Cuối cùng, đặt tên cho khóa API của bạn.
OpenAI sẽ tạo khóa API của bạn. Sao chép nó khi bạn cần nó trong khi kết nối PandasAI với OpenAI. Đảm bảo rằng bạn giữ bí mật khóa vì bất kỳ ai có quyền truy cập vào khóa đều có thể thực hiện cuộc gọi tới OpenAI thay mặt bạn. OpenAI sau đó sẽ tính phí tài khoản của bạn cho các cuộc gọi.
Bây giờ bạn đã có khóa API, hãy tạo tập lệnh Python mới và dán mã bên dưới. Bạn sẽ không cần phải thay đổi mã này vì hầu hết thời gian bạn sẽ xây dựng dựa trên nó.
import pandas as pd
from pandasai import PandasAI
df = pd.read_csv("/content/housing.csv")
from pandasai.llm.openai import OpenAI
llm = OpenAI(api_token="your API token")
pandas_ai = PandasAI(llm)
Đoạn mã trên nhập cả PandasAI và Pandas. Sau đó nó đọc một tập dữ liệu. Cuối cùng, nó Khởi tạo OpenAI LLM.
Bây giờ bạn đã được thiết lập để trò chuyện với dữ liệu của mình.
Thực hiện các tác vụ đơn giản bằng PandasAI
Để truy vấn dữ liệu của bạn, hãy chuyển khung dữ liệu và lời nhắc của bạn tới phiên bản của lớp PandasAI. Bắt đầu bằng cách in năm hàng đầu tiên của tập dữ liệu của bạn.
pandas_ai(df, prompt='What are the first five rows of the dataset?')
Đầu ra của dấu nhắc trên như sau:
Đầu ra này giống hệt với đầu ra của tổng quan tập dữ liệu trước đó. Điều này cho thấy PandasAI tạo ra kết quả chính xác và đáng tin cậy.
Sau đó, kiểm tra số cột có trong tập dữ liệu của bạn.
pandas_ai(df, prompt='How many columns are in the dataset? ')
Nó trả về 10 là số cột chính xác trong tập dữ liệu Nhà ở California.
Kiểm tra xem có thiếu giá trị trong tập dữ liệu hay không.
pandas_ai(df, prompt='Are there any missing values in the dataset?')
PandasAI trả lại rằng tổng_phòng ngủ cột có 207 giá trị bị thiếu, điều này lại đúng.
Có rất nhiều nhiệm vụ đơn giản mà bạn có thể đạt được khi sử dụng PandasAI, bạn không bị giới hạn ở những nhiệm vụ trên.
Thực hiện các truy vấn phức tạp bằng PandasAI
PandasAI không chỉ hỗ trợ các tác vụ đơn giản. Bạn cũng có thể sử dụng nó để thực hiện các truy vấn phức tạp trên tập dữ liệu. Ví dụ: trong bộ dữ liệu nhà ở, nếu bạn muốn xác định số lượng nhà nằm trên một hòn đảo, có giá trị hơn 100.000 đô la và có hơn 10 phòng, bạn có thể sử dụng lời nhắc bên dưới.
pandas_ai(df,prompt= "How many houses have a value greater than 100000,"
" are in an island and total bedrooms is more than 10?")
Đầu ra chính xác là năm. Đây là kết quả tương tự mà PandasAI đưa ra.
Các truy vấn phức tạp có thể khiến nhà phân tích dữ liệu mất một thời gian để viết và gỡ lỗi. Lời nhắc trên chỉ mất hai dòng ngôn ngữ tự nhiên để hoàn thành cùng một tác vụ. Bạn chỉ cần ghi nhớ chính xác những gì bạn muốn đạt được, và PandasAI sẽ lo phần còn lại.
Vẽ biểu đồ bằng PandasAI
Biểu đồ là một phần quan trọng của bất kỳ quy trình phân tích dữ liệu nào. Nó giúp các nhà phân tích dữ liệu trực quan hóa dữ liệu theo cách thân thiện với con người. PandasAI cũng có tính năng vẽ biểu đồ. Bạn chỉ cần chuyển khung dữ liệu và hướng dẫn.
Bắt đầu bằng cách tạo biểu đồ cho từng cột trong tập dữ liệu. Điều này sẽ giúp bạn hình dung sự phân bố của các biến.
pandas_ai(df, prompt= "Plot a histogram for each column in the dataset")
Đầu ra như sau:
PandasAI đã có thể vẽ biểu đồ của tất cả các cột mà không cần phải chuyển tên của chúng trong lời nhắc.
PandasAI cũng có thể vẽ biểu đồ mà không cần bạn nói rõ biểu đồ nào sẽ sử dụng. Ví dụ: bạn có thể muốn tìm hiểu mối tương quan của dữ liệu trong bộ dữ liệu nhà ở. Để đạt được điều này, bạn có thể vượt qua lời nhắc như sau:
pandas_ai(df, prompt= "Plot the correlation in the dataset")
PandasAI vẽ một ma trận tương quan như hình dưới đây:
Thư viện chọn một bản đồ nhiệt và vẽ một ma trận tương quan.
Truyền nhiều khung dữ liệu vào Phiên bản PandasAI
Làm việc với nhiều khung dữ liệu có thể phức tạp. Đặc biệt là đối với một người mới bắt đầu phân tích dữ liệu. PandasAI thu hẹp khoảng cách này vì tất cả những gì bạn cần làm là chuyển cả hai khung dữ liệu và bắt đầu sử dụng lời nhắc để thao tác dữ liệu.
Tạo hai khung dữ liệu bằng Pandas.
employees_data = {
'EmployeeID': [1, 2, 3, 4, 5],
'Name': ['John', 'Emma', 'Liam', 'Olivia', 'William'],
'Department': ['HR', 'Sales', 'IT', 'Marketing', 'Finance']
}salaries_data = {
'EmployeeID': [1, 2, 3, 4, 5],
'Salary': [5000, 6000, 4500, 7000, 5500]
}
employees_df = pd.DataFrame(employees_data)
salaries_df = pd.DataFrame(salaries_data)
Bạn có thể hỏi PandasAI một câu hỏi liên quan đến cả hai khung dữ liệu. Bạn chỉ phải chuyển cả hai khung dữ liệu sang phiên bản PandasAI.
pandas_ai([employees_df, salaries_df], "Which employee has the largest salary?")
Nó trở lại Olivia đó lại là câu trả lời đúng.
Thực hiện phân tích dữ liệu chưa bao giờ dễ dàng hơn thế, PandasAI cho phép bạn trò chuyện với dữ liệu của mình và phân tích dữ liệu một cách dễ dàng.
Tìm hiểu công nghệ hỗ trợ PandasAI
PandasAI đơn giản hóa quá trình phân tích dữ liệu, do đó tiết kiệm rất nhiều thời gian cho các nhà phân tích dữ liệu. Nhưng nó tóm tắt những gì đang xảy ra trong nền. Bạn cần tự làm quen với AI tổng quát để có thể có cái nhìn tổng quan về cách PandasAI đang hoạt động ngầm. Điều này cũng sẽ giúp bạn theo kịp những cải tiến mới nhất trong lĩnh vực AI tổng quát.