ỨNG DỤNG MÔ HÌNH FASTPITCH TRONG BÀI TOÁN CHUYỂN ĐỔI VĂN BẢN TIẾNG VIỆT THÀNH GIỌNG NÓI

Tóm tắt

Bài báo này giới thiệu một ứng dụng thực nghiệm của mô hình FastPitch, một mô hình học sâu mạnh mẽ cho bài toán chuyển đổi văn bản thành giọng nói (TTS). FastPitch được xây dựng trên kiến trúc Trans-former và mạng đồng tham chiếu, cho phép tạo ra giọng nói tổng hợp tự nhiên, mượt mà và chính xác. Trong bài báo này, các tác giả đã sử dụng mô hình FastPitch để tạo ra giọng nói tổng hợp cho các đoạn văn bản tiếng Việt mô tả các nội dung thông báo. Các tác giả đã đánh giá chất lượng của giọng nói tổng hợp bằng cách thu thập phản hồi từ người dùng. Kết quả cho thấy giọng nói tổng hợp do FastPitch tạo ra được người dùng đánh giá cao về độ tự nhiên, trôi chảy và khả năng truyền tải thông tin tốt. Bài báo này đóng góp cho lĩnh vực nghiên cứu TTS bằng cách cung cấp một ví dụ về cách sử dụng mô hình FastPitch cho các ứng dụng thực tế. Kết quả trong bài báo cho thấy FastPitch có tiềm năng được sử dụng trong nhiều ứng dụng khác nhau.