Microsoft open-source VibeVoice — 'Stable Diffusion của voice AI'

Microsoft vừa tung VibeVoice — bộ speech AI hoàn chỉnh open-source với MIT license. Community đang gọi nó là “Stable Diffusion của voice AI”, và có lý do chính đáng.

Ba model trong một family: ASR-7B nhận diện giọng nói 50+ ngôn ngữ trong một lần chạy cho audio dài 60 phút. TTS-1.5B tạo giọng nói dài 90 phút với 4 speaker. Realtime-0.5B đạt latency 300ms cho ứng dụng real-time. Tất cả chạy local, không cần cloud.

Đổi mới cốt lõi nằm ở tokenizer: 7.5Hz ultra-low framerate, tạo ra 3.200 lần nén. Nghĩa là xử lý âm thanh cực kỳ hiệu quả — ít compute hơn, chạy nhanh hơn, nhưng vẫn giữ chất lượng frontier.

GitHub đã đạt 44.896 stars với tốc độ 1.483 stars mỗi ngày. MIT license nghĩa là bạn dùng thoải mái — thương mại luôn được.

Dùng để làm gì? Build chatbot có giọng nói, tạo podcast tự động, subtitle video đa ngôn ngữ, accessibility tool cho người khiếm thị, voice interface cho app. Yêu cầu kỹ thuật: GPU với VRAM vừa phải, model 0.5B đến 7B parameters.

Nếu bạn đang build product có voice component, VibeVoice đáng cân nhắc thay vì dùng paid API như ElevenLabs hay OpenAI TTS. Open-source + MIT license + frontier performance là combo hiếm có.

📎 Nguồn: GitHub | https://github.com/microsoft/VibeVoice