VibeVoice — Open-source frontier voice AI cho ASR và TTS dài hội thoại - Open Source

Điểm nổi bật

Stars: khoảng 33.786 sao GitHub, thêm 3.863 sao trong ngày theo trang trending.
Ngôn ngữ: Python.
Tính năng chính: ASR một lượt tới 60 phút với diarization, timestamp và hotword tùy biến.
Tính năng chính: TTS dài tới 90 phút, nhiều người nói, cùng biến thể realtime 0.5B cho latency thấp.

Biểu đồ

flowchart LR A[Audio dài] --> B[VibeVoice ASR] B --> C[Who When What] D[Text streaming] --> E[VibeVoice Realtime] E --> F[Âm thanh đầu ra] G[Kịch bản dài nhiều người] --> H[VibeVoice TTS] H --> F

Tóm tắt

VibeVoice là một trong những repo open source đáng chú ý nhất trong ngày vì nó không chỉ tung một model đơn lẻ, mà trình bày cả một họ mô hình voice AI bao phủ ba nhu cầu rất thực tế: nhận dạng giọng nói dài, tổng hợp tiếng nói dài nhiều người nói và TTS realtime. Điểm mạnh không nằm ở việc “thêm một model nữa”, mà ở việc mô tả rõ những giới hạn mà doanh nghiệp thường gặp khi đưa speech AI vào sản xuất: audio dài, nhiều speaker, cần timestamp, cần hotword và cần latency thấp.

Trang repo nhấn mạnh rằng VibeVoice-ASR có thể xử lý tới 60 phút audio trong một pass, trong khi nhánh TTS trước đó hướng tới hội thoại nhiều người nói kéo dài tới 90 phút. Điều này khiến dự án nổi bật hơn các demo voice ngắn vốn chỉ đẹp ở benchmark nhưng khó dùng trong workflow thực.

Chi tiết

Theo README được fetch trực tiếp từ GitHub, VibeVoice là một họ mô hình frontier voice AI gồm cả ASR và TTS. Điểm cốt lõi của họ mô hình này là dùng continuous speech tokenizers ở tốc độ khung rất thấp 7,5 Hz để giữ chất lượng âm thanh nhưng vẫn cải thiện đáng kể hiệu quả tính toán cho chuỗi dài. Về mặt kỹ thuật, đây là hướng đi đáng chú ý vì speech AI lâu nay thường bị kẹt giữa hai lựa chọn: hoặc chất lượng đủ tốt nhưng chi phí cao, hoặc đủ nhanh nhưng mất nhiều ngữ cảnh dài.

Nhánh đáng chú ý nhất hiện tại là VibeVoice-ASR. Repo mô tả model này có thể nhận tối đa 60 phút audio liên tục trong một lần xử lý và xuất ra transcript có cấu trúc “Who, When, What” — tức ai nói, khi nào và nói gì. Với các đội xây công cụ họp, podcast, call-center analytics hay knowledge management, đây là thứ hữu dụng hơn hẳn transcript phẳng. Việc hỗ trợ hotword tùy biến cũng cho thấy dự án đã nghĩ tới nhu cầu domain-specific như tên người, tên thuốc, thuật ngữ chuyên ngành.

Ở chiều ngược lại, nhánh TTS của VibeVoice giải bài toán tạo âm thanh dài và đa người nói. Repo nhắc tới khả năng tổng hợp hội thoại tới 90 phút với tối đa 4 speaker và giữ được độ nhất quán giọng nói. Ngoài ra còn có bản VibeVoice-Realtime-0.5B tập trung vào streaming text input và first audible latency quanh vài trăm mili-giây, phù hợp hơn cho voice assistant hoặc ứng dụng phản hồi tức thời.

Điểm cần lưu ý là Microsoft cũng ghi rất rõ phần cảnh báo trách nhiệm: nguy cơ deepfake, thiên lệch, nội dung sai và việc không khuyến nghị dùng trực tiếp cho ứng dụng thương mại mà chưa qua thử nghiệm thêm. Đây là thái độ đáng ghi nhận vì giúp repo giữ được tính mở nhưng không biến phần README thành tài liệu marketing thuần túy. So với nhiều repo voice AI chỉ có demo ngắn, VibeVoice có lợi thế ở chỗ mô tả rõ bài toán triển khai dài hơi và đưa ra nhiều đường dẫn thử nghiệm như Hugging Face, playground, paper và finetuning. Với nhóm sản phẩm cần xử lý audio dài nhiều speaker, đây là repo nên theo dõi sát.

Điểm nổi bật

Biểu đồ

Tóm tắt

Chi tiết

Nguồn