/ / 30 lệnh gấu trúc để thao tác với DataFrames

30 lệnh gấu trúc để thao tác với DataFrames

Thư viện gấu trúc giúp khoa học dữ liệu dựa trên trăn trở nên dễ dàng. Đó là một thư viện Python phổ biến để đọc, hợp nhất, sắp xếp, làm sạch dữ liệu và hơn thế nữa. Mặc dù gấu trúc dễ sử dụng và áp dụng trên bộ dữ liệu, nó có nhiều chức năng thao tác dữ liệu để học.

Bạn có thể sử dụng gấu trúc, nhưng có nhiều khả năng là bạn đang sử dụng kém nó để giải quyết các vấn đề liên quan đến dữ liệu. Dưới đây là danh sách của chúng tôi về các chức năng thao tác dữ liệu có giá trị của gấu trúc mà mọi nhà khoa học dữ liệu nên biết.

Cài đặt gấu trúc vào môi trường ảo của bạn

Trước khi chúng tôi tiếp tục, hãy đảm bảo rằng bạn cài đặt gấu trúc vào môi trường ảo của mình bằng cách sử dụng pip:

pip install pandas

Sau khi cài đặt nó, hãy nhập gấu trúc ở đầu tập lệnh của bạn và hãy tiếp tục.

1. pandas.DataFrame

Bạn dùng pandas.DataFrame () để tạo DataFrame ở gấu trúc. Có hai cách để sử dụng chức năng này.

Bạn có thể tạo một cột DataFrame khôn ngoan bằng cách chuyển một từ điển vào pandas.DataFrame () chức năng. Ở đây, mỗi khóa là một cột, trong khi các giá trị là các hàng:

import pandas
DataFrame = pandas.DataFrame({"A" : [1, 3, 4], "B": [5, 9, 12]})
print(DataFrame)

Phương pháp khác là tạo DataFrame trên các hàng. Nhưng ở đây, bạn sẽ tách các giá trị (mục hàng) khỏi các cột. Số lượng dữ liệu trong mỗi danh sách (dữ liệu hàng) cũng phải kiểm đếm với số lượng cột.

import pandas
DataFrame = pandas.DataFrame([[1, 4, 5], [7, 19, 13]], columns= ["J", "K", "L"])
print(DataFrame)

2. Đọc từ và ghi vào Excel hoặc CSV bằng gấu trúc

Bạn có thể đọc hoặc ghi vào tệp Excel hoặc CSV với gấu trúc.

Đọc tệp Excel hoặc CSV

Để đọc tệp Excel:

#Replace example.xlsx with the your Excel file path 
DataFrame = DataFrame.read_excel("example.xlsx")

Đây là cách đọc tệp CSV:

#Replace example.csv with the your CSV file path 
DataFrame = DataFrame.read_csv("example.csv")

Ghi vào Excel hoặc CSV

Ghi vào Excel hoặc CSV là một hoạt động phổ biến của gấu trúc. Và nó rất tiện lợi để lưu các bảng mới được tính toán thành các bảng dữ liệu riêng biệt.

Để ghi vào một trang tính Excel:

DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")

Nếu bạn muốn viết thư cho CSV:

DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")

Bạn cũng có thể tính toán xu hướng trung tâm của mỗi cột trong DataFrame bằng cách sử dụng gấu trúc.

Đây là cách lấy giá trị trung bình của mỗi cột:

DataFrame.mean()

Đối với giá trị trung bình hoặc giá trị chế độ, hãy thay thế nghĩa là() với Trung bình() hoặc là chế độ().

4. DataFrame.transform

gấu trúc ‘ DataFrame.transform () sửa đổi các giá trị của DataFrame. Nó chấp nhận một hàm làm đối số.

Ví dụ: đoạn mã dưới đây nhân mỗi giá trị trong DataFrame với ba bằng cách sử dụng hàm lambda của Python:

DataFrame = DataFrame.transform(lambda y: y*3)
print(DataFrame)

5. DataFrame.isnull

Hàm này trả về giá trị Boolean và gắn cờ tất cả các hàng có chứa giá trị null là Đúng vậy:

DataFrame.isnull()

Kết quả của đoạn mã trên có thể khó đọc đối với các bộ dữ liệu lớn hơn. Vì vậy, bạn có thể sử dụng isnull (). sum () chức năng thay thế. Điều này trả về một bản tóm tắt của tất cả các giá trị bị thiếu cho mỗi cột:

DataFrame.isnull().sum()

6. Dataframe.info

Các thông tin() chức năng là một hoạt động cần thiết của gấu trúc. Thay vào đó, nó trả về bản tóm tắt các giá trị không bị thiếu cho mỗi cột:

DataFrame.info()

7. DataFrame.describe

Các diễn tả() hàm cung cấp cho bạn thống kê tóm tắt của DataFrame:

DataFrame.describe()

8. DataFrame.replace

Sử dụng DataFrame.replace () trong pandas, bạn có thể thay thế các hàng đã chọn bằng các giá trị khác.

Ví dụ: để hoán đổi các hàng không hợp lệ với Nan:

# Ensure that you pip install numpy for this to work 
import numpy
import pandas
# Adding an inplace keyword and setting it to True makes the changes permanent:
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
print(DataFrame)

9. DataFrame.fillna

Hàm này cho phép bạn điền vào các hàng trống bằng một giá trị cụ thể. Bạn có thể điền vào tất cả Nan các hàng trong tập dữ liệu có giá trị trung bình, ví dụ:

DataFrame.fillna(df.mean(), inplace = True)
print(DataFrame)

Bạn cũng có thể theo từng cột cụ thể:

DataFrame['column_name'].fillna(df[column_name].mean(), inplace = True)
print(DataFrame)

10. DataFrame.dropna

Các dropna () phương thức loại bỏ tất cả các hàng có chứa giá trị null:

DataFrame.dropna(inplace = True)
print(DataFrame)

11. DataFrame.insert

Bạn có thể sử dụng gấu trúc ‘ chèn() chức năng thêm một cột mới vào DataFrame. Nó chấp nhận ba từ khóa, tên cột dọc, danh sách dữ liệu của nó và địa điểm, là một chỉ mục cột.

Đây là cách hoạt động:

DataFrame.insert(column = 'C', value = [3, 4, 6, 7], loc=0)
print(DataFrame)

Đoạn mã trên sẽ chèn cột mới vào chỉ số cột 0 (nó trở thành cột đầu tiên).

12. DataFrame.loc

Bạn có thể dùng loc để tìm các phần tử trong một chỉ mục cụ thể. Để xem tất cả các mục trong hàng thứ ba, chẳng hạn:

DataFrame.loc[2]

13. DataFrame.pop

Chức năng này cho phép bạn xóa một cột được chỉ định khỏi DataFrame của gấu trúc.

Nó chấp nhận một mục từ khóa, trả về cột đã bật và tách nó khỏi phần còn lại của DataFrame:

DataFrame.pop(item= 'column_name')
print(DataFrame)

14. DataFrame.max, min

Dễ dàng nhận được các giá trị tối đa và tối thiểu bằng cách sử dụng gấu trúc:

DataFrame.min()

Đoạn mã trên trả về giá trị nhỏ nhất cho mỗi cột. Để đạt được mức tối đa, hãy thay thế min với tối đa.

15. DataFrame.join

Các tham gia() chức năng của gấu trúc cho phép bạn hợp nhất DataFrames với các tên cột khác nhau. Bạn có thể sử dụng phép nối trái, phải, trong hoặc ngoài. Để tham gia bên trái một DataFrame với hai người khác:

#Left-join longer columns with shorter ones
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
print(newDataFrame)

Để kết hợp DataFrames với các tên cột tương tự, bạn có thể phân biệt chúng bằng cách thêm hậu tố vào bên trái hoặc bên phải. Làm điều này bằng cách bao gồm lsuffix hoặc là rsuffix từ khóa:

newDataFrame = df1.join ([df2, rsuffix='_', how='outer') 
print(newDataFrame)

16. DataFrame.combine

The combine() function comes in handy for merging two DataFrames containing similar column names based on set criteria. It accepts a function keyword.

For instance, to merge two DataFrames with similar column names based on the maximum values only:

newDataFrame = df.combine(df2, numpy.minimum)
print(newDataFrame)

Note: You can also define a custom selection function and insert numpy.minimum.

17. DataFrame.astype

The astype() function changes the data type of a particular column or DataFrame.

To change all values in a DataFrame to string, for instance:

DataFrame.astype(str)

18. DataFrame.sum

The sum() function in pandas returns the sum of the values in each column:

DataFrame.sum()

You can also find the cumulative sum of all items using cumsum():

DataFrame.cumsum()

19. DataFrame.drop

pandas’ drop() function deletes specific rows or columns in a DataFrame. You have to supply the column names or row index and an axis to use it.

To remove specific columns, for example:

df.drop(columns=['colum1', 'column2'], trục = 0)

Ví dụ: để giảm các hàng trên chỉ mục 1, 3 và 4:

df.drop([1, 3, 4], axis=0)

20. DataFrame.corr

Bạn muốn tìm mối tương quan giữa cột số nguyên hoặc cột nổi? gấu trúc có thể giúp bạn đạt được điều đó bằng cách sử dụng corr () chức năng:

DataFrame.corr()

Đoạn mã trên trả về một DataFrame mới chứa chuỗi tương quan giữa tất cả các cột số nguyên hoặc số thực.

21. DataFrame.add

Các cộng() cho phép bạn thêm một số cụ thể vào từng giá trị trong DataFrame. Nó hoạt động bằng cách lặp lại qua DataFrame và hoạt động trên từng mục.

Liên quan: Cách sử dụng For Loops trong Python

Để thêm 20 vào mỗi giá trị trong một cột cụ thể có chứa số nguyên hoặc số thực, ví dụ:

DataFrame['interger_column'].add(20)

22. DataFrame.sub

Giống như hàm cộng, bạn cũng có thể trừ một số khỏi mỗi giá trị trong DataFrame hoặc cột cụ thể:

DataFrame['interger_column'].sub(10)

23. DataFrame.mul

Đây là một phiên bản nhân của hàm cộng của gấu trúc:

DataFrame['interger_column'].mul(20)

24. DataFrame.div

Tương tự, bạn có thể chia từng điểm dữ liệu trong một cột hoặc DataFrame cho một số cụ thể:

DataFrame['interger_column'].div(20)

25. DataFrame.std

Sử dụng std () , pandas cũng cho phép bạn tính độ lệch chuẩn cho mỗi cột trong DataFrame. Nó hoạt động bằng cách lặp lại qua từng cột trong tập dữ liệu và tính toán độ lệch chuẩn cho từng:

DataFrame.std()

26. DataFrame.sort_values

Bạn cũng có thể sắp xếp các giá trị tăng dần hoặc giảm dần dựa trên một cột cụ thể. Để sắp xếp một DataFrame theo thứ tự giảm dần, ví dụ:

newDataFrame = DataFrame.sort_values(by = "colmun_name", descending = True)

27. DataFrame.melt

Các tan chảy() hàm gấu trúc lật các cột trong DataFrame thành các hàng riêng lẻ. Nó giống như việc phơi bày cấu trúc giải phẫu của DataFrame. Vì vậy, nó cho phép bạn xem giá trị được gán cho từng cột một cách rõ ràng.

newDataFrame = DataFrame.melt()

28. DataFrame.count

Hàm này trả về tổng số mục trong mỗi cột:

DataFrame.count()

29. DataFrame.query

gấu trúc ‘ truy vấn() cho phép bạn gọi các mục bằng số chỉ mục của chúng. Để lấy các mục ở hàng thứ ba, ví dụ:

DataFrame.query('4') # Call the query on the fourth index 

30. DataFrame.where

Các ở đâu() hàm là một truy vấn gấu trúc chấp nhận một điều kiện để nhận các giá trị cụ thể trong một cột. Ví dụ: để nhận được tất cả các độ tuổi dưới 30 từ một Già đi cột:

DataFrame.where(DataFrame['Age'] < 30)

Đoạn mã trên xuất ra một DataFrame chứa tất cả các độ tuổi dưới 30 nhưng chỉ định Nan đến các hàng không đáp ứng điều kiện. Ở

Xử lý dữ liệu như một chuyên gia với gấu trúc

pandas là một kho tàng các hàm và phương pháp để xử lý các tập dữ liệu quy mô nhỏ đến lớn bằng Python. Thư viện cũng có ích cho việc dọn dẹp, xác thực và chuẩn bị dữ liệu để phân tích hoặc học máy.

Dành thời gian để làm chủ nó chắc chắn làm cho cuộc sống của bạn trở nên dễ dàng hơn với tư cách là một nhà khoa học dữ liệu và nó rất đáng để bạn nỗ lực. Vì vậy, hãy thoải mái chọn tất cả các chức năng mà bạn có thể xử lý.


Tay cầm một cuốn sách Python
20 chức năng Python bạn nên biết

Thư viện chuẩn Python chứa nhiều hàm để trợ giúp các tác vụ lập trình của bạn. Tìm hiểu về cách hữu ích nhất và tạo mã mạnh mẽ hơn.

Đọc tiếp


Giới thiệu về tác giả

Similar Posts

Leave a Reply

Your email address will not be published.