/ / Cách hợp nhất nhiều sổ làm việc Excel với Python

Cách hợp nhất nhiều sổ làm việc Excel với Python

Python, là một ngôn ngữ, có giá trị vượt trội, đặc biệt là khi bạn muốn làm việc với dữ liệu có cấu trúc. Vì mọi người lưu trữ nhiều dữ liệu trong tệp Excel, nên bắt buộc phải hợp nhất nhiều tệp để tiết kiệm thời gian và công sức.

Python cho phép bạn làm chính xác điều đó; bất kể bạn muốn kết hợp bao nhiêu tệp Excel, bạn đều có thể thực hiện một cách tương đối dễ dàng. Với nhiều thư viện và tài nguyên của bên thứ ba, bạn có thể nhập và sử dụng các công cụ nhiều mặt của Python để thực hiện việc đặt giá thầu của mình.

Trong hướng dẫn này, bạn sẽ cần cài đặt và sử dụng thư viện Pandas để nhập dữ liệu vào Python trước khi hợp nhất nó.


Cài đặt thư viện Pandas bằng Python

Pandas là một thư viện của bên thứ ba mà bạn có thể cài đặt bằng Python. Một số IDE đã được cài đặt Pandas trong đó.

Nếu bạn đang sử dụng phiên bản IDE không đi kèm với Pandas được cài đặt sẵn, hãy yên tâm, bạn có thể cài đặt trực tiếp bằng Python.

Đây là cách cài đặt Pandas:

pip install pandas

Nếu đang sử dụng Jupyter Notebook, bạn có thể cài đặt Pandas trực tiếp bằng lệnh PIP. Hầu hết, khi bạn đã cài đặt Jupyter với Anaconda, rất có thể bạn đã có sẵn Gấu trúc để sử dụng trực tiếp.

Nếu bạn không thể gọi Pandas, bạn có thể sử dụng lệnh trên để cài đặt chúng trực tiếp.

Kết hợp tệp Excel với Python

Trước tiên, bạn cần tạo một thư mục ở vị trí ưa thích của mình với tất cả các tệp Excel. Khi thư mục đã sẵn sàng, bạn có thể bắt đầu viết mã để nhập các thư viện.

LÀM VIDEO TRONG NGÀY

Bạn sẽ sử dụng hai biến trong mã này:

  1. Gấu trúc: Thư viện Pandas cung cấp các khung dữ liệu để lưu trữ các tệp Excel.
  2. Hệ điều hành: Thư viện có lợi cho việc đọc dữ liệu từ thư mục trên máy của bạn

Để nhập các thư viện này, hãy sử dụng các lệnh sau:

Import Pandas as pd
Import OS
  • Nhập khẩu: Cú pháp Python được sử dụng để nhập các thư viện trong Python
  • Gấu trúc: Tên của thư viện
  • pd: Bí danh được cấp cho thư viện
  • Hệ điều hành: Thư viện để truy cập thư mục hệ thống

Khi bạn đã nhập các thư viện, hãy tạo hai biến để lưu trữ đường dẫn tệp đầu vào và đầu ra. Đường dẫn tệp đầu vào là cần thiết để truy cập vào thư mục của tệp. Đường dẫn tệp đầu ra là cần thiết vì tệp kết hợp sẽ được xuất ở đó.


Nếu bạn đang sử dụng Python, hãy đảm bảo bạn thay đổi dấu gạch chéo ngược thành dấu gạch chéo ngược ( đến /)

input_file_path = "C:/Users/gaurav/OneDrive/Desktop/Excel files/"
output_file_path = "C:/Users/gaurav/OneDrive/Desktop/"

Nối / ở cuối cũng như để hoàn thành các đường dẫn.

Các tệp của thư mục có sẵn trong một danh sách. Tạo danh sách để lưu trữ tất cả các tham chiếu tệp của thư mục đầu vào bằng cách sử dụng listdir chức năng từ Hệ điều hành thư viện.

Nếu bạn không chắc chắn về các chức năng có sẵn trong thư viện, bạn có thể sử dụng dir chức năng với tên thư viện. Ví dụ: để kiểm tra phiên bản chính xác của hàm listdir, bạn có thể sử dụng lệnh như sau:

dir(OS)

Đầu ra sẽ bao gồm tất cả các chức năng liên quan có sẵn trong thư viện OS. Hàm listdir là một trong nhiều hàm có sẵn trong thư viện này.

Tạo một biến mới để lưu trữ các tệp đầu vào từ thư mục.

excel_file_list = os.listdir(input_file_path)

In biến này để xem tên của các tệp được lưu trữ trong thư mục. Tất cả các tệp được lưu trữ trong thư mục được hiển thị khi bạn sử dụng chức năng in.

print (excel_file_list)

Tiếp theo, bạn cần thêm một khung dữ liệu mới để lưu trữ từng tệp Excel. Hãy tưởng tượng một khung dữ liệu như một vùng chứa để lưu trữ dữ liệu. Đây là lệnh để tạo khung dữ liệu.

df = pd.DataFrame()

  • df: Biến để lưu trữ giá trị của DataFrame
  • pd: Bí danh cho thư viện Pandas
  • Khung dữ liệu: Cú pháp mặc định để thêm khung dữ liệu

Thư mục đầu vào có ba .xlsx trong ví dụ này. Tên tệp là:

File1_excel.xlsx
File2_excel.xlsx
File3_excel.xlsx

Thư mục tệp

Để mở từng tệp từ thư mục này, bạn cần chạy một vòng lặp. Vòng lặp sẽ chạy cho từng tệp trong danh sách đã tạo ở trên.

Đây là cách bạn có thể làm điều đó:

for excel_files in excel_file_list:

Tiếp theo, cần kiểm tra phần mở rộng của tệp vì mã sẽ chỉ mở tệp XLSX. Để kiểm tra các tệp này, bạn có thể sử dụng Nếu tuyên bố.

Sử dụng tận cùng cho mục đích này, như sau:

for excel_files in excel_file_list:

if excel_files.endswith(".xlsx"):

  • excel_files: Liệt kê với tất cả các giá trị tệp
  • kết thúc với: Chức năng kiểm tra phần mở rộng của các tệp
  • (“.xlsx”): Giá trị chuỗi này có thể thay đổi, tùy thuộc vào những gì bạn muốn tìm kiếm

Bây giờ bạn đã xác định được các tệp Excel, bạn có thể tạo một khung dữ liệu mới để đọc và lưu trữ các tệp riêng lẻ.

for excel_files in excel_file_list:

if excel_files.endswith(".xlsx"):

df1 = pd.read_excel(input_file_path+excel_files)

  • df1: Khung dữ liệu mới
  • pd: Thư viện gấu trúc
  • read_excel: Chức năng đọc tệp Excel trong thư viện Pandas
  • input_file_path: Đường dẫn của thư mục nơi các tệp được lưu trữ
  • excel_files: Bất kỳ biến nào được sử dụng trong vòng lặp for

Để bắt đầu nối các tệp, bạn cần sử dụng nối thêm chức năng.

for excel_files in excel_file_list:

if excel_files.endswith(".xlsx"):

df1 = pd.read_excel(input_file_path+excel_files)
df = df.append(df1)

Cuối cùng, bây giờ khung dữ liệu tổng hợp đã sẵn sàng, bạn có thể xuất nó sang vị trí đầu ra. Trong trường hợp này, bạn đang xuất khung dữ liệu sang tệp XLSX.

df.to_excel(output_file_path+"Consolidated_file.xlsx")
  • df: Khung dữ liệu để xuất
  • to_excel: Lệnh dùng để xuất dữ liệu
  • output_file_path: Đường dẫn được xác định để lưu trữ đầu ra
  • Merge_file.xlsx: Tên của tệp hợp nhất

Bây giờ, hãy xem mã cuối cùng:

#Pandas is used as a dataframe to handle Excel files
import pandas as pd
import os

# change the slash from “” to “/”, if you are using Windows devices

input_file_path = "C:/Users/gaurav/OneDrive/Desktop/Excel files/"
output_file_path = "C:/Users/gaurav/OneDrive/Desktop/"

#create a list to store all the file references of the input folder using the listdir function from the os library.
#To see the contents of a library (like the listdir function, you can use the dir function on the library name).
#Use dir(library_name) to list contents

excel_file_list = os.listdir(input_file_path)

#print all the files stored in the folder, after defining the list
excel_file_list

#Once each file opens, use the append function to start consolidating the data stored in multiple files

#create a new, blank dataframe, to handle the excel file imports
df = pd.DataFrame()

#Run a for loop to loop through each file in the list
for excel_files in excel_file_list:
#check for .xlsx suffix files only
if excel_files.endswith(".xlsx"):
#create a new dataframe to read/open each Excel file from the list of files created above
df1 = pd.read_excel(input_file_path+excel_files)
#append each file into the original empty dataframe
df = df.append(df1)

#transfer final output to an Excel (xlsx) file on the output path
df.to_excel(output_file_path+"Consolidated_file.xlsx")



Đoạn mã Jupyter Notebook

Sử dụng Python để kết hợp nhiều sổ làm việc Excel

Python’s Pandas là một công cụ tuyệt vời cho người mới bắt đầu cũng như người dùng nâng cao. Thư viện được sử dụng rộng rãi bởi các nhà phát triển muốn thành thạo Python.

Ngay cả khi bạn là người mới bắt đầu, bạn có thể được hưởng lợi vô cùng bằng cách tìm hiểu các sắc thái của Gấu trúc và cách thư viện được sử dụng trong Python.


Gấu trúc bằng Python
6 thao tác với gấu trúc cho người mới bắt đầu

Hãy nắm bắt những chú gấu trúc bằng những thao tác dành cho người mới bắt đầu này.

Đọc tiếp


Thông tin về các Tác giả

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *