Hướng dẫn tạo phụ đề, thuyết minh tự động cho Video bằng DHB Render

Trong bài viết này mình sẽ hướng dẫn bạn từng bước để thiết lập các tính năng, cài đặt API hoặc model AI, và sử dụng các bộ lọc có sẵn trong DHB Render để tạo, chỉnh sửa và tùy chỉnh phụ đề, dịch phụ đề qua ngôn ngữ khác cũng như thuyết minh cho video một cách nhanh chóng và hiệu quả.

Tạo phụ đề tự động: Phần mềm có khả năng tự động nhận diện và chuyển đổi âm thanh trong video thành phụ đề một cách chính xác và nhanh chóng.
Dịch phụ đề: Hỗ trợ dịch phụ đề sang nhiều ngôn ngữ khác nhau, giúp nội dung video tiếp cận được nhiều đối tượng khán giả quốc tế hơn.
Thuyết minh tự động: Chuyển đổi phụ đề thành giọng nói với các tùy chọn giọng đọc từ nhiều dịch vụ khác nhau như OpenAI, FPT.AI, Viettel.AI, TTSFree và Zalo.
Loại bỏ giọng hát (Vocal Remover): Tính năng này cho phép bạn tách giọng hát ra khỏi nền nhạc, tạo điều kiện cho việc chèn thuyết minh hoặc thay đổi giọng hát dễ dàng.

1. Cài đặt API hoặc tải Model AI

Trước tiên để sử dụng được các bộ lọc Auto Subtitle, Translate, Speech và VocalRemover các bạn cần cài đặt API để kết nối với bên thứ 3 ví dụ OpenAI để xử lý trên Cloud (mất phí) hoặc tải model AI để chạy cục bộ ở máy (miễn phí nhưng cần CPU và GPU mạnh để xử lý).

Các bạn chọn vào Plugin Setting ở tab Template để vào cài đặt API hoặc Model AI

Các bạn cần cài đặt đầy đủ API hoặc Model AI cho từng chức năng. Các tính năng có Model AI thì các bạn cần bật lên sau đó nhấn vào Install để phần mềm bắt đầu cài đặt.Sau khi cài thành công thì phần mềm sẽ hiển thị Ready và cho phép chọn Model cũng như tùy chọn có sử dụng GPU hay không. (Chỉ hỗ trợ GPU của Nvidia không hỗ trợ AMD).

Khi sử dụng bất kì tùy chọn Local Model AI nên chọn Auto với tùy chọn CUDA Acceleration để tăng tốc độ xử lý. Tốc độ nhanh hơn rất rất nhiều lần so với CPU. Nếu không có GPU thì không nên sử dụng tùy chọn Local Model AI vì xử lý bằng CPU sẽ cực kì lâu

Auto Subtitle: Nếu máy có GPU của Nvidia thì nên sử dụng tùy chọn Local AI Model. Nếu không thì chỉ nên sử dụng qua OpenAI Cloud nhưng độ chính xác sẽ không bằng tùy chọn Model là Medium và Large của Local AI Model. Model càng cao nhận diện càng chính xác nhưng càng nặng
- Tiny: Kích thước 40MB. Yêu cầu GPU có VRAM trên 1GB. Tốc độ nhận diện x10
- Base: Kích thước 74MB. Yêu cầu GPU có VRAM trên 1GB. Tốc độ nhận diện x7
- Small: Kích thước 244MB. Yêu cầu GPU có VRAM trên 2GB. Tốc độ nhận diện x4
- Medium: Kích thước 769MB. Yêu cầu GPU có VRAM trên 5GB. Tốc độ nhận diện x2
- Large: Kích thước 1,5GB. Yêu cầu GPU có VRAM trên 10GB. Tốc độ nhận diện x1
Translate: Nên sử dụng tùy chọn OpenAI Cloud vì với Model AI của ChatGPT có khả năng chỉnh sửa và hiểu về ngữ cảnh để dịch phụ đề chính xác gần như tuyệt đối tuy nhiên sẽ mất phí hoặc sử dụng tùy chọn Local Model AI sẽ miễn phí nhưng tốn tài nguyên máy có 2 tùy chọn Fast (nhanh) và Accurate (chính xác) hiệu quả tương đối tốt
Speech: Có tùy chọn Thread là số luồng tạo âm thanh cùng lúc. Áp dụng cho tất cả các dịch vụ tạo giọng nói của OpenAI, FPT, Zalo, Viettel …
VocalRemover: Nếu bạn muốn loại bỏ giọng hát hoặc âm thanh cụ thể khỏi video, hãy sử dụng bộ lọc này.

2. Kéo các bộ lọc vào video và sử dụng

Auto Subtitle: Đây là bộ lọc giúp bạn tạo phụ đề tự động từ âm thanh của video.

Bạn chỉ cần kéo bộ lọc Auto Subtitle vào video. Các tùy chỉnh gồm:

Engine: Chọn giữa Local AI hoặc OpenAI.
- AI Model: Điều chỉnh mức độ chi tiết của mô hình AI (ví dụ: Medium).
- Language: Tự động nhận diện ngôn ngữ hoặc chọn ngôn ngữ cụ thể.
- Max Width: Xác định độ dài tối đa của phụ đề tính theo số ký tự trên mỗi dòng. Giúp bạn kiểm soát chiều rộng phụ đề để phù hợp với khung hình.
- Max Line: Số dòng tối đa hiển thị cho mỗi phụ đề. Tùy chọn này giúp bạn tránh việc phụ đề quá dài và khó theo dõi.
Display: Cho phép bật/tắt việc hiển thị phụ đề. Khi tắt, phụ đề sẽ không xuất hiện trên video.
Timing Offset: Điều chỉnh thời gian hiển thị phụ đề để đồng bộ hoặc làm trễ phụ đề theo ý muốn (đơn vị tính bằng mili giây).
Alignment: Tùy chọn căn chỉnh vị trí phụ đề trên màn hình, bao gồm căn giữa, trái, phải, hoặc các vị trí khác.
Text Font: Phông Chữ Phụ Đề
- Font: Chọn phông chữ cho phụ đề (ví dụ: Arial).
- Style: Chọn kiểu chữ (Regular, Bold, Italic) để tạo điểm nhấn cho phụ đề.
- Size: Kích thước của phụ đề, giúp bạn điều chỉnh để phù hợp với khung hình và dễ nhìn nhất.
- Color: Tùy chọn màu sắc cho phụ đề, cho phép bạn tạo sự tương phản và nổi bật trên video.
- Opacity: Điều chỉnh độ mờ của phụ đề (0% đến 100%), giúp phụ đề hòa hợp với video hoặc nổi bật hơn.
Outline: Thêm viền cho phụ đề để làm rõ chữ, đặc biệt hữu ích khi nền video có màu tương tự với phụ đề.
Background: Thêm nền phía sau phụ đề để tăng độ tương phản và giúp dễ đọc hơn trong các cảnh phức tạp.
Spacing: Tùy chỉnh khoảng cách giữa các chữ cái trong phụ đề, giúp tăng tính thẩm mỹ và dễ đọc.

Translate: Tính năng này giúp bạn dịch phụ đề sang ngôn ngữ khác.

Engine: Chọn mô hình dịch phù hợp.
- OpenAI: Dịch phụ đề thông qua máy chủ OpenAI. Cần API Key để sử dụng. Với khả năng hiểu về ngữ cảnh nên dịch sẽ chính xác gần như tuyệt đối
- Google Translate: Dịch tự động miễn phí từ Google
- Local Model AI: Dịch thuật AI mạnh mẽ và được cài đặt cục bộ trên máy tính của bạn và miễn phí nhưng tốn tài nguyên máy

Speech: Tạo giọng đọc thuyết minh tự động cho video của bạn.

Tính năng Speech trong DHB Render cho phép bạn chuyển đổi phụ đề hoặc văn bản thành giọng nói tự động, mang đến cho video của bạn những thuyết minh chuyên nghiệp và tự nhiên. Các tùy chọn trong Speech bao gồm:

Provider: Chọn nhà cung cấp dịch vụ Text-to-Speech (TTS). Các nhà cung cấp phổ biến như:
- TTSFree.com: Cung cấp dịch vụ TTS giá rẻ với nhiều giọng đọc khác nhau.
- Ngoài ra, bạn có thể lựa chọn các dịch vụ khác (nếu được cài đặt) như OpenAI Cloud, FPT.AI, Viettel.AI, hay Zalo.
Language: Chọn ngôn ngữ cho giọng đọc. Ví dụ: Tiếng Việt, Tiếng Anh, hoặc bất kỳ ngôn ngữ nào khác mà nhà cung cấp hỗ trợ.
Voice: Lựa chọn giọng đọc cụ thể từ danh sách có sẵn. Ví dụ: giọng HoaiMyNeural mang đến âm thanh tự nhiên và dễ nghe, phù hợp cho các video tiếng Việt.
Voice Speed: Điều chỉnh tốc độ giọng đọc từ 0% đến 200%, với 100% là tốc độ mặc định. Bạn có thể tăng tốc độ để tiết kiệm thời gian hoặc giảm tốc độ để rõ ràng hơn.
Duration Mode: Chọn cách điều chỉnh độ dài giọng đọc sao cho khớp với video:
- Auto Fit: Tự động điều chỉnh giọng đọc để khớp với thời gian của video, đảm bảo thuyết minh luôn đúng nhịp và chính xác.
- Auto Trim: Tự động cắt bỏ phần thừa giọng đọc nếu thời lượng câu nói dài hơn đoạn phụ đề
Volume: Điều chỉnh âm lượng của giọng đọc từ 0% đến 300%. Tùy chỉnh này giúp bạn dễ dàng cân bằng âm lượng giọng đọc so với các yếu tố âm thanh khác trong video.

Vocal Remover – Loại Bỏ Giọng Hát Chuyên Nghiệp

Bộ lọc Vocal Remover trong DHB Render cho phép bạn tách giọng hát ra khỏi nền nhạc trong video, tạo điều kiện cho việc chèn thuyết minh mới, tạo karaoke, hoặc tạo ra các bản nhạc không lời chuyên nghiệp. Dưới đây là các tùy chọn mà bạn có thể cấu hình trong Vocal Remover:

Vocal Volume: Điều chỉnh âm lượng của giọng hát sau khi được tách ra. Bạn có thể:
- Giảm về 0% để hoàn toàn loại bỏ giọng hát khỏi bản nhạc, phù hợp khi cần tạo các bản nhạc không lời.
- Tăng hoặc giảm âm lượng theo ý muốn để kiểm soát mức độ hiện diện của giọng hát trong video.
Music Volume: Điều chỉnh âm lượng của phần nhạc nền (âm thanh còn lại sau khi tách giọng hát). Tùy chỉnh này cho phép bạn:
- Giữ nguyên âm lượng nhạc nền ở 100% hoặc giảm xuống thấp hơn nếu muốn giọng hát trở nên nổi bật hơn.
- Tăng âm lượng nhạc nền để che đi các tiếng thừa hoặc tạo hiệu ứng âm thanh mạnh mẽ hơn.

3. Tùy chỉnh và xem trước các bộ lọc Auto Subtitle, Translate, Speech

Sau khi cài đặt các bộ lọc Auto Subtitle, Translate, Speech. Các bạn có thể tùy chỉnh sâu hơn bằng các bước sau

Chọn vào bất kì bộ lọc Auto Subtitle, Translate, Speech và sau đó chọn vào nút sát mục Properties như trong ảnh để hiệu chỉnh

Chọn vào nút bắt đầu nằm giữa màn hình như trong ảnh để bắt đầu chạy xử lý.

Kết quả sau khi chạy xong. Các bạn bấm nút Save để lưu lại.

4. Xem thử và lưu lại Template để sử dụng kết xuất cho hàng loạt video

Sau đây là kết quả. Các bạn lưu lại Template sau đó có thể chạy Template này với hàng hoạt video. Phần mềm sẽ tự động tạo phụ đề, dịch, và đọc theo giọng nói mà trong Template bạn cài đặt áp dụng cho tất cả video. Các bạn có thể xem lại bài hướng dẫn trước để thực hiện kết xuất hàng loạt video

Mọi thắc mắc xin vui lòng liên hệ với chúng tôi qua Website & Fanpage:

https://dhbtools.com/

https://facebook.com/dhbtools

https://m.me/dhbtools