/ / Cách chuyển giọng nói của bạn thành văn bản trong thời gian thực với Whisper Desktop

Cách chuyển giọng nói của bạn thành văn bản trong thời gian thực với Whisper Desktop

Chính những người đứng sau ChatGPT đã tạo ra một công cụ dựa trên AI khác mà bạn có thể sử dụng ngay hôm nay để tăng năng suất của mình. Chúng tôi đang đề cập đến Whisper, một giải pháp chuyển giọng nói thành văn bản đã làm lu mờ tất cả các giải pháp tương tự trước đó.


Bạn có thể sử dụng Whisper trong chương trình của mình hoặc dòng lệnh. Chưa hết, điều đó đánh bại mục đích chính của nó: gõ mà không cần bàn phím. Nếu bạn cần gõ để sử dụng nó, tại sao lại sử dụng nó để tránh gõ? Rất may, giờ đây bạn có thể sử dụng Whisper thông qua GUI trên máy tính để bàn. Thậm chí tốt hơn, nó còn có thể phiên âm giọng nói của bạn gần như trong thời gian thực. Hãy xem cách bạn có thể nhập bằng giọng nói của mình bằng Whisper Desktop.


Lời thì thầm của OpenAI là gì?

OpenAI’s Whisper là một hệ thống Nhận dạng giọng nói tự động (viết tắt là ASR) hay nói một cách đơn giản là một giải pháp để chuyển đổi ngôn ngữ nói thành văn bản.

Tuy nhiên, không giống như các hệ thống phiên âm và đọc chính tả cũ hơn, Whisper là một giải pháp AI được đào tạo trên hơn 680.000 giờ nói bằng nhiều ngôn ngữ khác nhau. Whisper cung cấp độ chính xác vô song và khá ấn tượng, nó không chỉ đa ngôn ngữ mà còn có thể dịch giữa các ngôn ngữ.

Quan trọng hơn, nó miễn phí và có sẵn dưới dạng mã nguồn mở. Nhờ đó, nhiều nhà phát triển đã đưa mã của nó vào các dự án của riêng họ hoặc tạo các ứng dụng dựa trên nó, như Whisper Desktop.

Nếu bạn thích phiên bản “vanilla” của Whisper và tính linh hoạt của thiết bị đầu cuối thay vì GUI cồng kềnh, hãy xem bài viết của chúng tôi về cách chuyển giọng nói của bạn thành văn bản với OpenAI’s Whisper cho Windows.

Whisper và Whisper Desktop có giống nhau không?

Mặc dù có tên chính thức, Whisper Desktop là GUI của bên thứ ba dành cho Whisper, được tạo cho tất cả những ai muốn nhấp vào nút thay vì nhập lệnh.

Whisper Desktop là một giải pháp độc lập không phụ thuộc vào cài đặt Whisper hiện có. Như một phần thưởng, nó sử dụng một phiên bản Whisper thay thế, được tối ưu hóa, vì vậy nó sẽ hoạt động tốt hơn phiên bản độc lập.

Bạn đang ở đầu bên kia của quang phổ và thay vì tìm cách sử dụng Whisper dễ dàng hơn thiết bị đầu cuối, bạn đang tìm cách triển khai nó trong các giải pháp của riêng mình? Hãy vui mừng, vì OpenAI đã mở quyền truy cập vào API ChatGPT và Whisper.

Tải xuống và cài đặt Whisper Desktop

Mặc dù Whisper Desktop dễ sử dụng hơn Whisper độc lập, nhưng việc cài đặt nó phức tạp hơn so với việc nhấp liên tục vào Tiếp theo trong trình hướng dẫn.

  1. Truy cập trang Github chính thức của Whisper Desktop. Nhìn bên phải và nhấp vào phiên bản mới nhất bên dưới phát hành.
    Whisper Desktop Github phát hành liên kết

  2. Dưới Tài sảnnhấp chuột WhisperDesktop.zip và tải về máy tính của bạn.
    Whisper Desktop Liên kết tải xuống Github

  3. Giải nén tệp lưu trữ đã tải xuống vào một thư mục và sử dụng trình quản lý tệp của bạn để truy cập tệp đó. Bên trong, bạn sẽ tìm thấy ứng dụng Whisper Desktop. Nhấp đúp vào nó để chạy nó.
    Ứng dụng Whisper Desktop trong File Explorer

  4. Bạn cũng cần một mô hình ngôn ngữ Whisper trong GCML định dạng nhị phân. Whisper Desktop sẽ cung cấp cho bạn hai liên kết để lấy một liên kết. Bỏ qua liên kết thứ hai để tạo mô hình của riêng bạn vì đây là một quy trình phức tạp hơn. Bấm vào ôm mặt để mở trang đó trong trình duyệt mặc định của bạn, từ đó bạn có thể tải xuống tệp sẵn sàng sử dụng.
    Liên kết mô hình ngôn ngữ máy tính để bàn thì thầm

  5. Phiên bản Whisper Desktop mà chúng tôi sử dụng khi viết bài này đã cung cấp một liên kết đến một kho lưu trữ lỗi thời tại Hugging Face. Nếu bạn gặp vấn đề tương tự, hãy để ý một liên kết đến một vị trí mới. Nhấp vào nó để truy cập kho lưu trữ mới.
    Mô Hình Ôm Mặt Thì Thầm Vị Trí Mới

  6. Nhấp vào liên kết sẽ đưa bạn đến có sẵn người mẫu.
    Ôm Mặt Các Mẫu Có Sẵn Link

  7. Từ danh sách đó, nhấp vào một trong hai ggml-medium.bin hoặc ggml-medium.en.bintùy thuộc vào việc bạn muốn hỗ trợ đa ngôn ngữ hay chỉ bằng tiếng Anh trong Whisper.
    Ôm Mặt Thì Thầm Vừa Mẫu Link

  8. Cuối cùng, bạn nên đã đến đích của bạn. Lưu ý dòng cho biết tệp này được lưu trữ bằng Git LFS và quá lớn để hiển thị, nhưng bạn vẫn có thể tải xuống. Bấm vào Tải xuống để làm chính xác điều đó.
    Liên kết tải xuống mô hình ôm mặt thì thầm trung bình

  9. Khi tệp hoàn tất tải xuống, hãy sử dụng trình quản lý tệp yêu thích của bạn (File Explorer sẽ làm) để di chuyển tệp mô hình ngôn ngữ đã tải xuống vào cùng thư mục với Whisper Desktop.
    Whisper Medium Model được đặt trong thư mục Whisper Desktop trong File Explorer

Phiên âm với Whisper Desktop

Phiên âm bằng Whisper Desktop thật dễ dàng, nhưng bạn vẫn có thể cần một hoặc hai lần nhấp để sử dụng ứng dụng.

Chạy lại Whisper Desktop. Nó (vẫn) bỏ lỡ đường dẫn chính xác đến mô hình ngôn ngữ đã tải xuống của bạn? bấm vào nút có ba dấu chấm ở bên phải của trường và chọn thủ công tệp bạn đã tải xuống từ Hugging Face.

Từ vị trí này, bạn cũng có thể sử dụng trình đơn thả xuống bên cạnh Thực hiện mô hình để chọn xem bạn có muốn chạy Whisper trên GPU của mình không (GPU), trên cả CPU và GPU (Hỗn hợp), hoặc chỉ trên CPU (Thẩm quyền giải quyết).

Whisper Desktop Lựa chọn mô hình thực hiện

Các Trình độ cao nút dẫn đến nhiều tùy chọn hơn ảnh hưởng đến cách Whisper sẽ chạy trên phần cứng của bạn. Tuy nhiên, vì nút nêu rõ rằng chúng là nâng cao, chúng tôi khuyên bạn chỉ nên chỉnh sửa chúng nếu bạn đang khắc phục sự cố hoặc biết mình đang làm gì. Đặt sai giá trị tùy chọn ở đây có thể áp dụng hình phạt về hiệu suất hoặc khiến ứng dụng không sử dụng được.

Bấm vào OK để chuyển sang giao diện chính của ứng dụng.

Whisper Desktop Tùy chọn nâng cao Thay đổi bộ điều hợp đồ họa

Nếu bạn đã có bản ghi âm giọng nói của mình và muốn chuyển thành văn bản viết, hãy nhấp vào Phiên âm tập tin và chọn nó. Tuy nhiên, chúng tôi sẽ sử dụng Whisper Desktop để phiên âm trực tiếp cho bài viết này.

Các tùy chọn được cung cấp là đơn giản. Bạn có thể chọn ngôn ngữ Whisper sẽ sử dụng, chọn nếu bạn muốn dịch giữa các ngôn ngữ và kích hoạt ứng dụng Bảng điều khiển gỡ lỗi.

Hầu hết người dùng nói tiếng Anh có thể bỏ qua các tùy chọn đó một cách an toàn và chỉ đảm bảo rằng đầu vào âm thanh chính xác được chọn từ menu kéo xuống bên cạnh Thiết bị chụp.

Bảo đảm Lưu vào tập tin văn bảnNối vào tập tin đó được kích hoạt để Whisper Desktop lưu đầu ra của nó vào một tệp mà không ghi đè lên nội dung của nó. Sử dụng nút có ba dấu chấm ở bên phải trường đường dẫn của tệp để xác định tệp văn bản đã nói.

Whisper Desktop Lưu và nối vào tệp văn bản

Bấm vào Chiếm lấy để bắt đầu chuyển lời nói của bạn thành văn bản.

Whisper Desktop sẽ hiển thị cho bạn ba chỉ báo khi phát hiện hoạt động giọng nói, khi nó đang tích cực phiên âm và khi quá trình bị đình trệ.

Bạn có thể tiếp tục nói bao lâu tùy thích và thỉnh thoảng bạn sẽ thấy hai đèn báo đầu tiên nhấp nháy trong khi ứng dụng chuyển giọng nói của bạn thành văn bản. Nhấp chuột Dừng lại khi hoàn thành.

Ghi âm giọng nói chủ động trên máy tính để bàn thì thầm

Tệp văn bản bạn đã chọn sẽ mở trong trình soạn thảo văn bản mặc định của bạn, chứa ở dạng văn bản mọi thứ bạn đã nói cho đến khi bạn nhấp vào Dừng lại.

Văn bản được sao chép bằng Whisper Desktop trong Typora

Chúng ta nên lưu ý rằng bạn cũng có thể làm ngược lại với những gì chúng ta đã thấy ở đây: chuyển đổi bất kỳ văn bản nào thành giọng nói. Bằng cách này, bạn có thể nghe bất cứ thứ gì như thể đó là một podcast thay vì phải nheo mắt nhìn vào màn hình. Để biết thêm thông tin về điều đó, hãy xem bài viết của chúng tôi về một số công cụ trực tuyến miễn phí tốt nhất để tải xuống tính năng chuyển văn bản thành giọng nói dưới dạng âm thanh MP3.

Mẹo nhập liệu bằng giọng nói trên máy tính để bàn thì thầm

Mặc dù Whisper Desktop có thể là cứu cánh, cho phép bạn viết bằng giọng nói nhanh hơn nhiều so với khi bạn gõ, nhưng nó vẫn chưa hoàn hảo.

Trong quá trình thử nghiệm, chúng tôi nhận thấy rằng đôi khi nó có thể nói lắp, bỏ qua một số từ, không phiên âm được cho đến khi bạn dừng và khởi động lại quy trình theo cách thủ công hoặc bị kẹt trong một vòng lặp và liên tục phiên âm lại cùng một cụm từ.

Chúng tôi tin rằng đó là những trục trặc tạm thời sẽ được khắc phục vì Whisper độc lập không gặp vấn đề tương tự.

Ngoài những va chạm nhỏ đó, việc chuyển giọng nói của bạn thành văn bản sẽ trở nên dễ dàng với Whisper Desktop. Tuy nhiên, trong quá trình thử nghiệm, chúng tôi nhận thấy rằng nó có thể hoạt động tốt hơn nữa nếu…

  1. Thay vì chỉ thốt ra hai hoặc ba từ rồi dừng lại, Whisper có thể hiểu bạn hơn nếu bạn tiếp tục lâu hơn. Cố gắng ít nhất đưa ra toàn bộ câu tại một thời điểm.
  2. Vì lý do tương tự, tránh bắt đầu và dừng quá trình sao chép liên tục.
  3. Bất cứ khi nào bạn nhận ra mình đã phạm sai lầm, hãy bỏ qua nó và tiếp tục. Tải và dỡ mô hình ngôn ngữ dường như là phần tốn nhiều thời gian nhất của quy trình với trạng thái hiện tại của Whisper và phần cứng sẵn có của chúng tôi. Vì vậy, sẽ nhanh hơn nếu bạn tiếp tục nói và sau đó chỉnh sửa lỗi của mình.
  4. Đối với phiên bản độc lập của Whisper, tốt nhất bạn nên sử dụng mô hình ngôn ngữ tối ưu cho phần cứng sẵn có của mình. Bạn có thể sử dụng đến trung bình mô hình nếu GPU của bạn có 8GB VRAM. Để có ít VRAM hơn, hãy chọn các kiểu máy nhỏ hơn. Chỉ chọn cái chính xác hơn một chút nhưng cũng đòi hỏi khắt khe hơn nhiều lớn mô hình nếu bạn sử dụng GPU có 16GB VRAM trở lên.
  5. Hãy nhớ rằng mô hình ngôn ngữ càng lớn thì quá trình phiên mã càng chậm. Đừng chọn một mô hình lớn hơn mức cần thiết. Có thể bạn sẽ thấy Whisper Desktop đã có thể “hiểu bạn” hầu hết thời gian với các kiểu máy trung bình hoặc nhỏ hơn, chỉ với một hoặc hai lỗi trên mỗi đoạn văn.

Bạn vẫn đang gõ? Sử dụng giọng nói của bạn với Whisper

Mặc dù cần một chút thời gian để thiết lập, nhưng bạn sẽ thấy khi dùng thử, Whisper Desktop hoạt động tốt hơn nhiều so với hầu hết các lựa chọn thay thế, với độ chính xác cao hơn và tốc độ tốt hơn.

Sau khi bạn bắt đầu sử dụng nó để nhập bằng giọng nói của mình, bàn phím của bạn có thể trông giống như một di vật từ thời xa xưa đã qua lâu rồi.

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *