Microsoft open-source VibeVoice — 'Stable Diffusion của voice AI'

Microsoft vừa tung VibeVoice — bộ speech AI hoàn chỉnh open-source với MIT license. Community đang gọi nó là “Stable Diffusion của voice AI”, và có lý do chính đáng. Ba model trong một family: ASR-7B nhận diện giọng nói 50+ ngôn ngữ trong một lần chạy cho audio dài 60 phút. TTS-1.5B tạo giọng nói dài 90 phút với 4 speaker. Realtime-0.5B đạt latency 300ms cho ứng dụng real-time. Tất cả chạy local, không cần cloud. ...

15 tháng 5, 2026 · 2 min · Loc Dang