ERAI News

VoxCPM2 đẩy TTS mã nguồn mở lên mức 30 ngôn ngữ và 48kHz

Python 9.9k stars 6 giờ trước
VoxCPM2 đẩy TTS mã nguồn mở lên mức 30 ngôn ngữ và 48kHz

Điểm nổi bật

  • Stars: khoảng 9.9k stars, thêm hơn 1k sao trong ngày trên GitHub Trending.
  • Ngôn ngữ: Python.
  • Tính năng chính 1: TTS tokenizer-free 2B tham số, hỗ trợ 30 ngôn ngữ và đầu ra 48kHz.
  • Tính năng chính 2: có Voice Design từ mô tả tự nhiên và controllable voice cloning từ clip tham chiếu ngắn.
  • Tính năng chính 3: mã nguồn mở Apache-2.0, có Python API, CLI, demo web và hướng dẫn deploy hiệu năng cao.

Biểu đồ

flowchart LR A[Van ban hoac mo ta giong noi] --> B[VoxCPM2] B --> C[Tao giong moi] B --> D[Clone giong co san] B --> E[Stream audio 48kHz]

Tóm tắt

VoxCPM2 là một phát hành đáng chú ý trong mảng speech AI vì nó gom được nhiều thứ mà cộng đồng open source đang chờ ở cùng một gói: đa ngôn ngữ thật sự, chất lượng âm thanh cao, cloning có kiểm soát và giấy phép thương mại rõ ràng. Repo mô tả đây là hệ TTS tokenizer-free dùng kiến trúc diffusion autoregressive, tránh đi qua lớp token rời rạc để tạo biểu diễn tiếng nói liên tục tự nhiên hơn.

Điểm mạnh của dự án không chỉ là số lượng tính năng. OpenBMB còn đưa ra bộ hướng dẫn khá đầy đủ, từ pip package, Python API, CLI đến hướng dẫn streaming và triển khai Nano-vLLM để tăng throughput. Với thị trường đang cần vừa mô hình tốt vừa đường ra sản phẩm ngắn, đây là kiểu repo dễ hút sao và dễ được thử nghiệm ngay.

Chi tiết

Từ README, VoxCPM2 được định vị là bản nâng cấp lớn của dòng VoxCPM, với backbone 2B tham số, dữ liệu huấn luyện hơn 2 triệu giờ tiếng nói và khả năng hỗ trợ 30 ngôn ngữ. Đây đã là một bước tiến đáng kể so với nhiều dự án open-source TTS còn tập trung vài ngôn ngữ chính. Repo nhấn mạnh bốn năng lực cốt lõi. Một là multilingual TTS không cần gắn language tag phức tạp. Hai là Voice Design, nơi người dùng mô tả đặc tính giọng bằng ngôn ngữ tự nhiên để sinh giọng mới. Ba là controllable cloning, sao chép timbre từ audio mẫu nhưng vẫn điều khiển được tốc độ, cảm xúc hay phong cách. Bốn là đầu ra 48kHz studio-quality và streaming thời gian thực.

Về mặt sản phẩm, sự kết hợp này rất mạnh. Thị trường voice AI hiện có nhiều dịch vụ đóng làm tốt phần trải nghiệm, nhưng cộng đồng open source thường phải chọn giữa chất lượng, độ mở và khả năng triển khai riêng. VoxCPM2 cố gắng kéo cả ba về một chỗ. README cung cấp ví dụ code cho generate, voice design, cloning, ultimate cloning, streaming và cả CLI batch processing. Điều đó khiến repo không còn là một paper implementation khó dùng, mà tiến gần một SDK sẵn sàng thử nghiệm trong ứng dụng thật.

Repo cũng khá thực dụng ở phần deployment. Ngoài package chuẩn, nhóm phát triển chỉ luôn con đường tăng tốc bằng Nano-vLLM-VoxCPM với RTF khoảng 0.13 trên RTX 4090, hỗ trợ concurrent request và FastAPI server. Với doanh nghiệp hoặc team sản phẩm, đây là lớp thông tin quan trọng hơn hẳn benchmark thuần thuật toán, vì nó nói dự án có đường chạy production tương đối rõ ràng. Thêm vào đó, giấy phép Apache-2.0 làm giảm rủi ro pháp lý cho nhóm muốn thương mại hóa.

Dĩ nhiên, VoxCPM2 chưa phải lời giải cho mọi use case. Mô hình 2B vẫn đòi hỏi GPU tử tế, và chất lượng đa ngôn ngữ có thể không đồng đều giữa từng ngôn ngữ hay từng accent. Nhưng so với mặt bằng open-source TTS, repo này đang đưa chuẩn kỳ vọng lên cao hơn. Nó cho thấy cuộc chơi speech AI mã nguồn mở đã đi từ “có thể đọc văn bản” sang “có thể thiết kế giọng, clone giọng và stream với chất lượng đủ gần sản phẩm thương mại”. Nếu đà phát triển tiếp tục, VoxCPM2 có thể trở thành một nền tảng đáng kể cho lớp sản phẩm voice-first xây trên hạ tầng tự chủ.

Nguồn

© 2024 AI News. All rights reserved.