/ / Cách trích xuất văn bản từ PDF và hình ảnh trên Linux bằng gImageReader

Cách trích xuất văn bản từ PDF và hình ảnh trên Linux bằng gImageReader

Nếu bạn là sinh viên hoặc công việc của bạn liên quan đến việc làm việc với nhiều hình ảnh và PDF, tại một số điểm, bạn sẽ thấy cần phải trích xuất văn bản từ hình ảnh hoặc tài liệu.

May mắn thay, trích xuất văn bản làm cho điều này có thể. Và có một số công cụ mà bạn có thể sử dụng để làm điều này. gImageReader là một trong nhiều công cụ. Nó miễn phí để sử dụng và hoạt động với cả tệp hình ảnh và tài liệu PDF.

LÀM VIDEO TRONG NGÀY

Hãy cùng tìm hiểu chi tiết về gImageReader và xem cách bạn có thể sử dụng nó để trích xuất văn bản từ hình ảnh và PDF.

GImageReader là gì?

gImageReader là một ứng dụng cho phép bạn trích xuất văn bản từ hình ảnh và PDF trên Linux. Về cơ bản, nó là GUI hoặc giao diện người dùng của công cụ Tesseract OCR, một công cụ mã nguồn mở được phát triển bởi Hewlett-Packard được coi là một trong những công cụ OCR tốt nhất hiện có.

Với gImageReader, bạn có thể trích xuất văn bản từ hình ảnh hoặc tài liệu PDF một cách dễ dàng và khá chính xác với một vài cú nhấp chuột đơn giản. Sau đó, bạn có thể xuất văn bản đã trích xuất sang tệp văn bản hoặc PDF để sử dụng thêm.


Các tính năng của gImageReader

gImageReader gói các tính năng sau:

  • Nhập tài liệu PDF và hình ảnh từ các nguồn khác nhau (đĩa, thiết bị quét, khay nhớ tạm và ảnh chụp màn hình)
  • Xử lý hàng loạt hình ảnh hoặc tài liệu, tức là trích xuất văn bản từ nhiều hình ảnh hoặc tài liệu cùng một lúc
  • Nhận dạng các đoạn văn bản dưới dạng văn bản thuần túy hoặc tài liệu hOCR
  • Trình kiểm tra chính tả tích hợp
  • Tự động phát hiện vùng văn bản
  • Chỉnh sửa hình ảnh / tài liệu cơ bản
  • Lưu đầu ra dưới dạng tệp văn bản

Cách cài đặt gImageReader trên Linux

gImageReader có sẵn trên hầu hết các bản phân phối Linux chính. Nhưng trước khi tiến hành cài đặt, bạn cần cài đặt công cụ Tesseract OCR trên hệ thống của mình.

Để làm điều này, hãy mở Quản trị viên phần mềm trên hệ thống của bạn và tìm kiếm tinh hoàn. Khi nó trả về một danh sách kết quả, hãy cài đặt tesseract-ocrtesseract-ocr-eng các gói. Bạn cũng có thể sử dụng trình quản lý gói dòng lệnh để cài đặt gói nếu bạn cảm thấy thoải mái hơn với thiết bị đầu cuối.

Sau đó, hãy xem hướng dẫn cài đặt trong các phần sau để cài đặt gImageReader trên máy tính của bạn.

Nếu bạn đang sử dụng Debian hoặc Ubuntu, hãy mở terminal và chạy các lệnh dưới đây để cài đặt gImageReader:

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt-get update
sudo apt install gimagereader

Trên Fedora, CentOS hoặc Red Hat Enterprise Linux (RHEL):

sudo dnf install gimagereader-qt 

Trên Arch Linux hoặc Manjaro:

sudo pacman -S gimagereader

Người dùng openSUSE có thể cài đặt gImageReader bằng cách sử dụng:

sudo zypper install gimagereader

Trong trường hợp bạn đang sử dụng bất kỳ bản phân phối Linux nào khác, bạn có thể tạo gImageReader từ nguồn bằng cách làm theo các hướng dẫn tại GitHub của gImageReader.

Cách sử dụng gImageReader trên Linux

gImageReader khá dễ sử dụng và hoạt động với tất cả các loại tệp hình ảnh cũng như tài liệu PDF. Làm theo hướng dẫn bên dưới để trích xuất văn bản từ hình ảnh hoặc PDF trên Linux.


Mở menu ứng dụng, tìm kiếm gImageReadervà khởi chạy ứng dụng. Đánh vào Tối đa hóa trong cửa sổ gImageReader để mở nó ở chế độ xem toàn màn hình.

Bây giờ, hãy nhấp vào Thêm hình ảnh trên ngăn bên trái dưới thanh công cụ và sử dụng trình duyệt tệp để chọn (các) hình ảnh hoặc (các) PDF mà bạn muốn trích xuất văn bản.

Nhấp chuột Được để nhập (các) hình ảnh hoặc (các) PDF vào gImageReader. Hoặc, nếu bạn muốn trích xuất văn bản từ những gì hiển thị trên màn hình, hãy nhấp vào menu thả xuống bên cạnh Thêm hình ảnh nút và chọn Chụp màn hình. gImageReader sẽ chụp ảnh màn hình nội dung của màn hình.

Khi bạn đã thêm hình ảnh vào gImageReader, hãy nhấp vào Chuyển đổi ngăn đầu ra (một nút có biểu tượng notepad) để hiển thị ngăn đầu ra. Đây là nơi xuất hiện văn bản bạn trích xuất từ ​​hình ảnh hoặc PDF.

Tùy thuộc vào cách bạn muốn tiếp tục, bây giờ bạn có tùy chọn nhận dạng văn bản trong hình ảnh hoặc PDF tự động hoặc thủ công. Để thực hiện việc này tự động, hãy nhấp vào Bố cục tự động phát hiện và nó sẽ đánh dấu tất cả các khối văn bản trong hình ảnh hoặc tài liệu PDF đã chọn.


Sau đó, hãy nhấn vào Nhận biết lựa chọn> Trang hiện tại để bắt đầu quá trình trích xuất văn bản.

Ngoài ra, để chọn văn bản theo cách thủ công, hãy di chuột qua văn bản bạn muốn trích xuất và sử dụng dấu chéo vẽ một hộp xung quanh khu vực mà bạn muốn trích xuất văn bản. Sau đó, nhấn vào Nhận biết lựa chọn để tiếp tục.

Nếu đó là tài liệu PDF và bạn muốn trích xuất văn bản từ các trang khác nhau, hãy nhấn vào Thêm (+) để lật trang.

Để quay lại, hãy nhấn vào Dấu trừ () cái nút. Và sau đó, chọn văn bản bạn muốn trích xuất và nhấn Nhận biết lựa chọn để giải nén nó.

Mặc dù hiếm gặp, nhưng có thể đôi khi gImageReader sẽ trả lại văn bản được trích xuất bằng một ngôn ngữ không phải là tiếng Anh. Khi điều này xảy ra, chỉ cần nhấn vào nút thả xuống bên cạnh Nhận biết lựa chọn và chọn một trong các tùy chọn tiếng Anh.

Cuối cùng, để lưu văn bản đã trích xuất, hãy nhấp vào Lưu đầu ra cái nút. Thao tác này sẽ hiển thị cửa sổ Lưu. Tại đây, đặt tên cho tệp và nhấn Được.

Bạn có thể làm gì khác với gImageReader?

Như đã đề cập trước đó, gImageReader cũng cung cấp cho bạn tùy chọn sửa đổi các khía cạnh nhất định của hình ảnh hoặc tài liệu đã nhập, như độ sáng, độ tương phản và độ phân giải của chúng. Ngoài ra, bạn cũng có thể đảo ngược màu sắc hoặc xoay hình ảnh hoặc tài liệu, nếu cần.

Hầu hết các tùy chọn này có thể tỏ ra hữu ích khi văn bản trong hình ảnh hoặc tài liệu không dễ đọc đối với gImageReader và do đó, ngăn công cụ nhận dạng văn bản.

Để truy cập bất kỳ tùy chọn chỉnh sửa nào trong số này, hãy nhấp vào Kiểm soát hình ảnh và nó sẽ hiển thị một thanh công cụ nhỏ bên dưới thanh công cụ chính. Từ đây, hãy chọn các nút thích hợp để thực hiện thao tác chỉnh sửa mong muốn của bạn trên hình ảnh hoặc tài liệu.

Trích xuất văn bản thường yêu cầu công cụ phù hợp: một công cụ sử dụng công cụ OCR đáng tin cậy và chính xác cho phép nó xác định văn bản trong hình ảnh hoặc tài liệu một cách hiệu quả, vì vậy bạn có thể trích xuất nó một cách hiệu quả mà không gặp bất kỳ rắc rối nào.

gImageReader hoàn thành điều này một cách độc đáo, nhờ vào công cụ Tesseract OCR mà nó sử dụng ở chế độ nền. Xét về tính dễ sử dụng, gImageReader chắc chắn là một trong những công cụ trích xuất văn bản tốt nhất hiện có cho Linux.

Ngoài ra, nếu bạn đang tìm kiếm một giải pháp đơn giản hơn, bạn có thể xem TextSnatcher, nhanh và khá dễ sử dụng.

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *