/ / 5 mẹo để tối ưu hóa kích thước tệp âm thanh

5 mẹo để tối ưu hóa kích thước tệp âm thanh

Tại một thời điểm nào đó, mọi người nên tìm hiểu cách thức hoạt động của các tệp âm thanh. Kiến thức này có vẻ tầm thường hoặc không quan trọng, nhưng nó có thể hữu ích khi ghi nhạc, tạo podcast hoặc tối ưu hóa thư viện nhạc của bạn.

Bài đăng này sẽ khám phá các yếu tố khác nhau ảnh hưởng đến chất lượng âm thanh và kích thước tệp âm thanh. Để đạt được sự cân bằng hoàn hảo giữa cả hai không phải là điều dễ dàng, nhưng bạn nên biết đủ để cảm thấy thoải mái và tự mình thử nghiệm cuối cùng.

Lưu ý: Để áp dụng kiến ​​thức này vào thực tế, bạn sẽ muốn tải xuống một trình chỉnh sửa âm thanh miễn phí như Audacity hoặc bất kỳ lựa chọn thay thế nào. Học những công cụ đó nằm ngoài phạm vi của phần này.

1. Tỷ lệ mẫu

Trong cuộc sống thực, âm thanh là sóng. Khi ai đó nói hoặc vỗ tay, những gì bạn thực sự nghe thấy là sự thay đổi áp suất truyền trong không khí và cuối cùng chạm vào màng nhĩ của bạn.

Nhưng làm thế nào để chúng ta thu được âm thanh đó và chuyển nó thành dữ liệu kỹ thuật số? Chúng ta không thể chỉ ghi lại toàn bộ sóng âm thanh như nó vốn có; thay vào đó, chúng ta phải chụp “ảnh nhanh” âm thanh định kỳ theo thời gian. Khi bạn phát lại tất cả theo trình tự, bạn sẽ có được bản tái tạo gần đúng của âm thanh gốc.


tỷ lệ mẫu kích thước tệp âm thanh
Tín dụng hình ảnh: Pluke / Wikimedia

Mỗi ảnh chụp nhanh được gọi là vật mẫu, và khoảng thời gian được sử dụng giữa mỗi ảnh chụp nhanh được gọi là tỷ lệ mẫu. Để định nghĩa chúng, đó là số lượng ảnh chụp nhanh kỹ thuật số được chụp mỗi giây trong tệp âm thanh bằng bộ chuyển đổi tương tự sang kỹ thuật số. Tốc độ lấy mẫu được đo bằng Hertz, vì vậy nó có thể được biểu thị dưới dạng tần số.

Khoảng thời gian càng ngắn, tần số càng nhanh. Tần số nhanh hơn tạo ra bản ghi chính xác hơn nhưng cũng yêu cầu nhiều dữ liệu hơn để lưu trữ mỗi giây âm thanh được ghi.

Ví dụ: âm thanh chất lượng CD sử dụng tần số mẫu là 44,1 kHz (hoặc 44.100 mẫu mỗi giây), trong khi âm thanh chất lượng của TV và DVD sử dụng tần số mẫu là 48 kHz. Với bản ghi âm thanh đơn sắc không nén kéo dài 10 phút, bản ghi âm trước đó có thể là 51,7 MB trong khi bản ghi âm sau đó sẽ là 56,3 MB.

Bạn có thể giảm xuống 32 kHz đối với các bản ghi âm chỉ có giọng nói và không bị giảm chất lượng nhiều, nhưng hãy giữ ở mức 44,1 kHz nếu có liên quan đến âm nhạc hoặc nếu bạn cần chất lượng cao nhất. Giảm xuống 22,05 kHz sẽ cho âm thanh gần hơn với đài AM.

2. Tốc độ bit

Tốc độ bit không giống như tốc độ mẫu. Rất nhiều người có xu hướng kết hợp cả hai, nhưng điều quan trọng là bạn không nên làm như vậy. Trước hết, nếu tốc độ lấy mẫu là tần suất các ảnh chụp nhanh âm thanh được chụp, thì độ sâu bit là lượng dữ liệu được ghi lại trong mỗi ảnh chụp nhanh.

Để minh họa, hãy tưởng tượng một làn sóng âm thanh như một dòng nước và bạn đang cố gắng chụp (tức là ghi lại) làn nước đó bằng một cái xô. Tốc độ lấy mẫu sẽ là tần suất bạn nhúng thùng của mình vào luồng, trong khi độ sâu bit sẽ là kích thước của thùng của bạn. Phép đo độ sâu bit là bit. Đối với mỗi lần tăng một bit, độ chính xác của bản ghi tăng gấp đôi.


độ sâu bit kích thước tệp âm thanh
Tín dụng hình ảnh: Aquegg / Wikimedia

Độ sâu bit càng cao, càng nhiều dữ liệu được thu thập trên mỗi mẫu. Điều này dẫn đến việc ghi lại chính xác hơn với chi phí cần thêm dung lượng để lưu trữ dữ liệu đó.

Nhưng nếu bạn giảm độ sâu bit quá nhiều, dữ liệu âm thanh sẽ bị mất. Đĩa CD âm thanh sử dụng 16 bit cho mỗi mẫu, trong khi đĩa DVD và Blu-ray sử dụng 24 bit cho mỗi mẫu.

Tốc độ bit là lượng dữ liệu âm thanh thực tế được xử lý (tính bằng kilobit trên giây). Để có được tốc độ bit, bạn nhân tốc độ mẫu với độ sâu bit. Tệp âm thanh CD có tốc độ lấy mẫu 44,1 kHz và độ sâu 16 bit sẽ có tốc độ bit không nén là 44100 * 16, tức là 705,6 kbps.

Để cung cấp cho bạn ý tưởng về sự khác biệt trong kích thước tệp, hãy xem xét một bài hát không nén dài năm phút được ghi lại bằng âm thanh nổi hai kênh

  1. 44,1kHz / 16-bit: 44100 * 16 * 2 = 1411200 bit mỗi giây (1,4 Mb / giây)

  2. 192kHz / 24-bit: 192000 * 24 * 2 = 9216000 bit mỗi giây (9.2Mbps)

Sử dụng tốc độ bit được tính toán, nhân nó với độ dài của bản ghi

  1. 1,4 * 300 = 420Mb hoặc 52,5 MB

  2. 9.2 * 300 = 2760Mb hoặc 345 MB

Vì vậy, âm thanh được ghi ở 192kHz / 24-bit sẽ chiếm nhiều không gian hơn sáu lần, nhưng tất cả đều tóm gọn những gì bạn muốn làm với bản ghi âm. Đôi khi tốc độ bit đầy đủ không cần thiết trong một ảnh chụp nhanh nhất định, chẳng hạn như khi có khoảng lặng.

Trong trường hợp đó, bạn có thể sử dụng tốc độ bit thay đổi (VBR) được hỗ trợ bởi MP3, OGG, AAC và WMA. Trước đây, VBR không được hỗ trợ rộng rãi, nhưng ngày nay không còn là vấn đề nữa.

3. Âm thanh nổi so với Mono

Điểm này khá đơn giản, vì vậy tôi sẽ nói ngắn gọn. Bệnh tăng bạch cầu đơn nhân nghĩa là một kênh, trong khi Âm thanh nổi có nghĩa là hai kênh. Hai kênh trong tệp âm thanh nổi có thể được gọi là kênh “trái” và “phải”.

Với một cặp tai nghe, bạn sẽ có thể nghe một trong các kênh âm thanh nổi ở một bên tai và kênh âm thanh nổi khác ở tai bên kia. Khi nghe tệp âm thanh đơn âm, bạn sẽ nghe thấy cùng một kênh chính xác ở cả hai tai.


âm thanh tách kênh âm thanh nổi

Theo một nghĩa nào đó, tệp âm thanh nổi về cơ bản là hai tệp âm thanh đơn âm trong một, có nghĩa là tệp âm thanh nổi luôn lớn gấp đôi tệp âm thanh đơn âm, giả sử tốc độ mẫu, độ sâu bit, âm thanh nguồn, v.v. là như nhau giữa hai. Vì vậy, cách dễ nhất để giảm một nửa kích thước tệp âm thanh ngay lập tức là chuyển đổi nó từ âm thanh nổi thành đơn âm.

Đối với các bản ghi âm chỉ có giọng nói, mono hầu như luôn được ưu tiên vì nó tạo ra âm thanh mạnh mẽ, rõ ràng và rõ ràng. Nhưng nếu bạn muốn thu âm từ hai ca sĩ trở lên trong một căn phòng có âm thanh độc đáo, giọng hát phải là âm thanh nổi.

Tương tự, ghi podcast cũng có thể là mono. Tuy nhiên, trong các bản ghi âm nhạc, âm thanh nổi là thứ làm cho nhiều bản nhạc có âm thanh ba chiều hơn, như thể âm nhạc đang phát xung quanh bạn chứ không phải ở bạn (tức là âm thanh đơn âm sẽ dễ nghe hơn).

4. Nén

Nếu bạn đang làm việc với các tệp WAV, cách duy nhất để giảm kích thước tệp là tìm kiếm một trong các cài đặt trên (tốc độ lấy mẫu, độ sâu bit hoặc số kênh). Đối với mọi thứ khác, nén là yếu tố lớn nhất trong kích thước tệp âm thanh. Có hai loại nén:

  • Nén mất dữ liệu xóa dữ liệu “không cần thiết” khỏi âm thanh, chẳng hạn như âm thanh nằm ngoài phạm vi nghe của hầu hết mọi người. Sau khi nén, dữ liệu bị loại bỏ này không thể được khôi phục.
  • Nén không mất dữ liệu lấy một tệp âm thanh và đóng gói nó càng nhiều càng tốt bằng cách sử dụng các thuật toán toán học. Tuy nhiên, nó phải được giải nén tại thời điểm phát lại, điều này đòi hỏi nhiều sức mạnh xử lý hơn. Không có dữ liệu thực tế nào bị mất.

Chế độ nén bạn muốn sử dụng phụ thuộc vào mục đích sử dụng của tệp âm thanh. Nói chung, bạn nên sử dụng tính năng nén không mất dữ liệu khi muốn lưu trữ một bản sao gần như hoàn hảo của tài liệu nguồn và nén mất dữ liệu khi bản sao không hoàn hảo đủ tốt để sử dụng hàng ngày.

Ví dụ: bạn có thể muốn bảo quản bộ sưu tập CD đã trích xuất của mình trong FLAC (nếu dung lượng lưu trữ không phải là vấn đề) và sử dụng MP3 để lưu trữ chúng trên điện thoại. Nếu bạn không biết nhiều về nén, đây là hướng dẫn đầy đủ của chúng tôi về cách nén tệp hoạt động và danh sách các công cụ để nén các tệp âm thanh lớn một cách hiệu quả.

5. Định dạng tệp

Khi bạn đã quyết định sử dụng tính năng nén mất dữ liệu, bạn phải quyết định định dạng tệp nào phù hợp nhất với mình. Khi viết bài này, ba tùy chọn phổ biến nhất là MP3, OGG, và AAC. Để biết thêm, hãy đọc hướng dẫn của chúng tôi về việc so sánh các định dạng tệp âm thanh khác nhau.

MP3 là phổ biến nhất cho đến nay, chủ yếu là vì nó là bản đầu tiên trong số ba bản nhạc xuất hiện trên thị trường. AAC tốt hơn về mặt kỹ thuật so với MP3 nhưng không có cùng tốc độ sử dụng. OGG cũng tốt, nhưng không có nhiều thiết bị hỗ trợ nó, vì vậy hãy gắn bó với MP3 hoặc AAC.

Bất kể bạn sử dụng cái nào, cuối cùng bạn sẽ nén đến một tốc độ bit mục tiêu. Nếu chúng tôi giả định rằng bạn sẽ sử dụng định dạng MP3, thì đây là năm tốc độ bit phổ biến nhất được sử dụng hiện nay:

  • 64 kb / giây là chất lượng đài AM. Hoàn hảo cho podcast chỉ nói chuyện vì giọng nói không phức tạp như âm nhạc.
  • 96 kb / giây là chất lượng đài FM. Âm nhạc sẽ nghe ổn, nhưng bạn có thể biết rằng nó không hoàn chỉnh, chủ yếu là do một số tần số có thể nghe được đã bị loại bỏ.
  • 128 kb / giây là chất lượng âm thanh CD. Đây là tiêu chuẩn như nó được. Âm nhạc có vẻ “đủ tốt” đối với hầu hết mọi người ở tốc độ bit này.
  • 256 kb / giây là chất lượng âm thanh cao. Bạn có thể nhận thấy một số âm thanh và nhạc cụ không thể phát hiện được ở tốc độ bit thấp hơn.
  • 320 kb / giây là chất lượng âm thanh tốt nhất. Bạn có thể lên cao hơn, nhưng có lẽ bạn sẽ không thể phân biệt được sự khác biệt, ngay cả khi bạn tự cho mình là một người đam mê âm thanh.

Về việc giảm kích thước tệp, MP3 được nén xuống 128 kbps làm mất khoảng 90% dữ liệu âm thanh gốc, trong khi MP3 nén xuống 320 kbps chỉ mất khoảng 60%.

Ngoài ra, nếu bạn có cả MP3 và AAC đều được nén ở cùng một tốc độ bit, AAC thường sẽ cho âm thanh tốt hơn vì nó sử dụng thuật toán nén nâng cao hơn. Điều này có nghĩa là bạn có thể nhận được nhiều “chất lượng trên mỗi megabyte” với AAC hơn là MP3.

Tối ưu hóa kích thước tệp âm thanh của bạn

Hiểu được năm yếu tố này sẽ giúp bạn quyết định cách tốt nhất để ghi và nén nhạc và / hoặc podcast mà bạn đã tạo, đồng thời giúp bạn quyết định loại định dạng nhạc cần mua hoặc dịch vụ phát trực tuyến nào sẽ sử dụng.


tính năng máy tính để bàn windows 11 trên máy tính xách tay
Windows 11 chỉ là Windows 10 ngụy trang: Đây là lý do tại sao đó là một điều tốt

Windows 11 có thể không phải là bản cải tiến hoàn toàn mà một số người hy vọng, nhưng liệu Microsoft có nên phát minh lại bánh xe?

Đọc tiếp


Giới thiệu về tác giả

Similar Posts

Leave a Reply

Your email address will not be published. Required fields are marked *