Microsoft wypuszcza darmową AI do generowania rozmów. To koniec tradycyjnych audiobooków

Microsoft właśnie zaprezentował VibeVoice-1.5B – otwarty model AI, który potrafi wygenerować aż 90 minut realistycznej rozmowy z udziałem czterech różnych głosów.
To technologiczny przełom, który może odmienić podcasty, audiobooki i treści audio.




VibeVoice-1.5B bazuje na innowacyjnej architekturze łączącej duży model językowy Qwen2.5-1.5B ze specjalistycznymi tokenizatorami akustycznymi i semantycznymi. Dzięki temu system nie tylko zachowuje wysoką jakość dźwięku, ale też płynnie przełącza się między rozmówcami, dbając o naturalne brzmienie.
Model wyróżnia się zdolnością do generowania długich, wielogłosowych konwersacji – do czterech osób naraz, z zachowaniem ich indywidualnych cech głosu i naturalnego przebiegu rozmowy. VibeVoice potrafi także syntezować mowę w języku angielskim i chińskim oraz generować śpiew, co jest rzadkością w otwartych TTS.
VibeVoice-1.5B jest dostępny za darmo na licencji MIT, a do uruchomienia wystarczy karta graficzna klasy RTX 3060. Microsoft zapowiada już większy model 7B, dedykowany do streamingu, kontynuując rozwój otwartych rozwiązań audio w AI.
Model ma jednak ograniczenia – nie obsługuje wszystkich języków, nie generuje efektów dźwiękowych ani muzyki, a Microsoft wdrożył mechanizmy bezpieczeństwa, aby zapobiec nadużyciom, takim jak podszywanie się pod znane osoby.