Cách tạo giọng nói AI giống bạn với ElevenLabs
AI sáng tạo và deepfakes đã va chạm với sự phát triển của các công cụ giọng nói AI. Ý tưởng rất đơn giản: bạn nhận một giọng nói và điều khiển nó để nói những từ bạn đưa ra.
Dẫn đầu trong lĩnh vực này là ElevenLabs, cung cấp công cụ giọng nói AI miễn phí.
Mục Lục
ElevenLabs là gì?
Được thành lập bởi một cựu kỹ sư máy học của Google và một cựu chiến lược gia triển khai của Palintir, ElevenLabs là một công ty nghiên cứu công nghệ giọng nói. Phần mềm giọng nói AI là một yếu tố chính trong chiến lược của nó, nhưng mục đích cuối cùng là tạo ra một công cụ “chuyển đổi ngay lập tức[s] âm thanh nói giữa các ngôn ngữ.”
ElevenLabs đã phát triển các mô hình chuyển văn bản thành giọng nói mới có thể tạo ra giọng nói giống như thật của con người. Trang web của nó tuyên bố: “Sứ mệnh của chúng tôi là biến hỗ trợ âm thanh đa ngôn ngữ theo yêu cầu thành hiện thực trong giáo dục, phát trực tuyến, sách nói, trò chơi, phim ảnh và thậm chí cả hội thoại trong thời gian thực”.
Google Dịch và các giải pháp thay thế của nó là một chuyện, nhưng bạn có thể tưởng tượng ra một công cụ dịch ngay những gì bạn đang nghe không? Nhân bản giọng nói của người nói để bạn nghe thấy bài phát biểu như họ nói, đó là một bước đệm quan trọng để đạt được điều đó.
Thế hệ giọng nói AI là gì?
Được mô tả một cách đơn giản, việc tạo giọng nói bằng AI cho phép bạn lấy giọng nói và khiến giọng nói đó nói bất cứ điều gì bạn muốn nghe. Chỉ cần chọn một giọng nói, cung cấp đoạn hội thoại và công cụ sẽ thực hiện phần còn lại.
Bạn có thể nghĩ “Ồ, Microsoft Sam đã làm điều đó từ những năm 1990” và bạn hoàn toàn đúng. Nhưng Microsoft Sam và các công cụ tương tự nghe giống như rô-bốt. Trong khi đó, công cụ của ElevenLabs nghe có vẻ gần gũi hơn với con người.
ElevenLabs cung cấp ba tùy chọn AI về giọng nói: giọng nói “làm sẵn” hoàn toàn miễn phí, trình tạo giọng nói (cho phép bạn chọn giới tính, độ tuổi và giọng nói) và giọng nói “nhân bản” chỉ đăng ký mà bạn có thể tải lên.
Đây là một ví dụ:
Việc sử dụng AI cho các mục đích sáng tạo đi kèm với một số trách nhiệm đạo đức và đạo đức, đồng thời tạo ra tiếng nói bằng công cụ AI lời nói của ElevenLabs cũng không khác.
Nói tóm lại, đừng sử dụng giọng nói của ai đó mà không có sự cho phép của họ. Trong khi nó không phải là bất hợp pháp, họ có thể khó chịu về nó.
Trước khi bạn tiếp tục, hãy nhớ rằng tại thời điểm viết bài này, công cụ AI giọng nói của ElevenLabs đang ở giai đoạn thử nghiệm. Điều này có nghĩa là nó không phải là thành phẩm.
Tạo đối thoại AI cơ bản
Cách đơn giản nhất để sử dụng ElevenLabs là sử dụng công cụ AI miễn phí.
Để sử dụng tính năng này, hãy truy cập beta.elevenlabs.io và tạo một tài khoản (bạn có thể sử dụng email, tài khoản Google hoặc Facebook của riêng mình).
Kế tiếp:
- Nhấp chuột Tổng hợp giọng nói
- Chọn một trong những giọng nói tạo sẵn trong Cài đặt (có giọng nam và giọng nữ)
- Mở rộng Cài đặt giọng nói để thiết lập Sự ổn định Và Tăng cường sự rõ ràng + tương đồng (độ ổn định cao là đơn điệu, độ rõ cao gần với giọng nói mong muốn hơn) thanh trượt
- Lựa chọn Mười một đơn ngữ (tiếng Anh chuẩn)
- Nhập văn bản bạn muốn chuyển thành giọng nói
- Nhấp chuột Phát ra
- Sau khi quá trình hoàn tất, nó sẽ tự động phát; nếu không, bấm vào Chơi
Bạn cũng có thể Tải xuống mẫu đã tạo.
Tạo giọng nói với ElevenLabs
Nếu bạn muốn tạo một giọng nói mới, bạn có thể sử dụng Thêm giọng nói nút để truy cập VoiceLab màn hình. Để tạo giọng nói mới dựa trên cài đặt trước của ElevenLabs:
- Nhấp chuột Thêm giọng nói > Thiết kế giọng nói
- Đặt Giới tính, TuổiVà Giọng lĩnh vực
- Điều chỉnh Điểm nhấn thanh trượt theo yêu cầu
- Nhập văn bản bạn muốn chuyển đổi
- Nhấp chuột Phát ra
- Khi nó được thực hiện, có một lắng nghe
Khi thử nghiệm, tôi thấy rằng cả giọng Nữ/Trẻ/Úc và Nam/Già/Úc đều rõ ràng là “Mỹ”. Đây là một vấn đề có thể sẽ được giải quyết khi công nghệ phát triển.
Tạo giọng nói của riêng bạn trong AI
Mặc dù các tùy chọn có sẵn và có thể định cấu hình rất thú vị, nhưng yếu tố thực sự thú vị trong công nghệ của ElevenLabs là công cụ Nhân bản giọng nói tức thì.
Không giống như các tùy chọn khác, Nhân bản giọng nói tức thì yêu cầu đăng ký. Một số tùy chọn có sẵn, rẻ nhất là 5 đô la một tháng. Tại thời điểm viết bài này, điều này đi kèm với giảm giá 80% cho tháng đầu tiên, khiến nó chỉ còn 1 đô la.
Các tùy chọn khác có giá 22 đô la, 99 đô la và 330 đô la một tháng, với khả năng tạo ra tới 40 giờ âm thanh mỗi tháng.
Để sử dụng Sao chép giọng nói tức thì, bạn không chỉ cần một số đoạn hội thoại mà còn cần một mẫu giọng nói của mình. Bất cứ điều gì cũng được, miễn là rõ ràng và ở định dạng MP3. Mẫu càng dài càng tốt, tối đa 5 phút.
Từ màn hình VoiceLab:
- Nhấp chuột Thêm giọng nói > Nhân bản giọng nói tức thì
- Trong cửa sổ kết quả, đặt tên
- Nhấp hoặc kéo tệp phù hợp để tải lên mẫu (có thể thêm tối đa 25 mẫu để cải thiện độ chính xác)
- Nhấp chuột nhãn và chỉ định khóa + giá trị (ví dụ: Accent/British)–làm điều này tối đa 5 lần
- Nhập mô tả ngắn gọn về giọng nói
- Chọn hộp kiểm xác nhận đồng ý sau đó Thêm giọng nói
Với giọng nói đã thêm, bạn có thể điều chỉnh nó trong màn hình Tổng hợp giọng nói như trên.
Bạn có thể làm gì với giọng nói AI?
Bài phát biểu AI với giọng nói được tạo sẵn và nhân bản có nhiều khả năng. Như đã lưu ý, mục đích cuối cùng của ElevenLabs là để dịch trực tiếp, nhưng họ đã ghi nhận nhiều mục đích sử dụng khác.
Sách nói được đề cập (có lẽ được đọc bởi một ngôi sao điện ảnh đã chết từ lâu) cùng với các trò chơi điện tử (sử dụng giọng nói AI sẽ tiết kiệm cho các diễn viên lồng tiếng). Nhưng nó còn có những công dụng vượt ra ngoài điều này, từ âm nhạc đến châm biếm đến tự giúp đỡ bản thân và có lẽ còn hơn thế nữa.
Bạn thậm chí có thể tạo một podcast bằng giọng nói AI, mặc dù kết quả nghe có vẻ tẻ nhạt và nhàm chán.
Phần giới thiệu một tập của Podcast Thực sự Hữu ích của chúng tôi được sản xuất bằng ElevenLabs:
Mặc dù kết quả không hoàn toàn như chúng tôi mong đợi, nhưng nó đủ tốt để sử dụng và công nghệ chỉ có thể trở nên tốt hơn.
Trong khi đó, ElevenLabs đang lên kế hoạch cho tính năng “hội thoại bằng giọng nói” được tạo ra sẽ được giới thiệu sau này.
Sử dụng giọng nói của bạn theo một cách mới với Speech AI của ElevenLabs
Trí tuệ nhân tạo đã mang đến cho chúng ta một số công cụ mới tuyệt vời trong vài năm qua. Chat-GPT có thể được sử dụng để tạo văn bản, trả lời câu hỏi, báo cáo phác thảo, v.v. Midjourney là một công cụ đáng kinh ngạc tạo ra tác phẩm nghệ thuật dựa trên lời nhắc.
Giờ đây, công cụ AI giọng nói từ ElevenLabs giúp bạn dễ dàng điều khiển giọng nói. Nó giống như một sự mạo danh, nhưng với một bản sao của giọng nói gốc.
Mặc dù có những lập luận đạo đức chống lại việc sử dụng giọng nói mà không có sự đồng ý, nhưng đây là một công cụ mạnh mẽ với một số khả năng thú vị. Trên hết, nó rất dễ sử dụng và mang lại kết quả ấn tượng.