/ / Cách chuyển đổi tệp PDF thành sách nói bằng Python

Cách chuyển đổi tệp PDF thành sách nói bằng Python

PDF to audiobook using Python

Sách nói ngày càng trở nên phổ biến hơn sách điện tử truyền thống. Chúng thuận tiện hơn vì bạn có thể nghe chúng bất cứ lúc nào và bất cứ nơi đâu.

Bạn có thể chuyển đổi sách điện tử PDF sang sách nói bằng một tập lệnh Python đơn giản. Sử dụng một số thư viện đơn giản, bạn có thể phát triển một dự án sẽ đọc ra một tệp PDF và lưu trữ sách nói dưới dạng tệp mới.

Cài đặt các gói bắt buộc

Bạn cần cài đặt PyPDF3, pyttsx3pdfplumber các gói để bắt đầu. Bạn có thể cài đặt các gói này bằng trình quản lý gói pip. Đảm bảo rằng bạn đã cài đặt pip trên hệ thống của mình. Chạy lệnh sau trong dấu nhắc lệnh để cài đặt các gói:

pip install PyPDF3 pyttsx3 pdfplumber
  • Bạn có thể dùng PyPDF3 thư viện để đọc và chỉnh sửa tệp PDF bằng Python.
  • Các pyttsx3 thư viện cung cấp chuyển đổi văn bản thành giọng nói.
  • pdfplumber là một thư viện cho phép bạn trích xuất văn bản và bảng từ các tệp PDF.

Mã được sử dụng trong dự án này có sẵn trong kho lưu trữ GitHub và miễn phí cho bạn sử dụng theo giấy phép MIT.

Chuyển đổi PDF thành Sách nói bằng Python

Khi bạn đã cài đặt các gói trên, bạn đã sẵn sàng nhập chúng vào tệp python của mình:

import PyPDF3
import pyttsx3
import pdfplumber

Bạn cần cung cấp tên và vị trí của tệp PDF bạn muốn chuyển đổi. Để đơn giản, bạn có thể sử dụng bất kỳ tệp PDF mẫu nào. Sao chép nó vào cùng một thư mục với tập lệnh của bạn và lưu trữ tên của nó trong một biến; nếu nó được gọi là Lorem.pdfVí dụ:

file = 'Lorem.pdf'

Tiếp theo, tạo một đối tượng tệp cho tệp PDF và một đối tượng đọc PDF:

book = open(file, 'rb')
pdfReader = PyPDF3.PdfFileReader(book)

Sau đó, bạn sẽ lặp lại tất cả các trang của tệp PDF. Để tìm tổng số trang, hãy sử dụng numPages tài sản:

pages = pdfReader.numPages

Bây giờ, bạn đã sẵn sàng trích xuất văn bản từ tệp PDF:

finalText = ""

with pdfplumber.open(file) as pdf:
for i in range(0, pages):
page = pdf.pages[i]
text = page.extract_text()
finalText += text

Sử dụng vòng lặp for để lặp lại tất cả các trang và trích xuất văn bản từ PDF. Bạn có thể sử dụng gói pdfplumber để mở tệp pdf và extract_text phương pháp để tìm nạp văn bản từ một trang.

Với toàn bộ văn bản được lưu trữ trong một biến, bạn có thể xử lý thêm, tùy thuộc vào yêu cầu của bạn. Nếu bạn muốn chuyển đổi văn bản thành âm thanh và lưu thành tệp mới, hãy sử dụng mã sau:

engine = pyttsx3.init()
engine.save_to_file(finalText, 'lorem.mp3')
engine.runAndWait()

Khi bạn chạy mã Python này, nó sẽ tạo một tệp sách nói trong thư mục của nó.

Nếu bạn không muốn lưu sách nói và chẳng hạn như muốn đọc lại tệp PDF, bạn có thể sử dụng mã sau để thay thế:

engine = pyttsx3.init()
engine.say(finalText)
engine.runAndWait()

Khi bạn chạy tập lệnh này, nó sẽ đọc lại tệp PDF.

Phát triển dự án bằng Python

Python được biết đến với tính linh hoạt của nó. Bạn có thể dễ dàng tạo các dự án với các ứng dụng thực tế bằng Python.

Nếu bạn đang muốn nhúng tay vào mã Python, bạn có thể bắt đầu bằng cách phát triển các dự án nhỏ. Một số ý tưởng khởi đầu tốt là ứng dụng đố vui, chatbot, trò chơi rắn, trình rút gọn URL, trình duyệt web hoặc trình chuyển đổi đơn vị.

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *