Microsoft wypuszcza darmową AI do generowania rozmów. To koniec tradycyjnych audiobooków

Technologie

3245V

Łukasz Musialik | 27.08.2025, 16:45

Microsoft właśnie zaprezentował VibeVoice-1.5B – otwarty model AI, który potrafi wygenerować aż 90 minut realistycznej rozmowy z udziałem czterech różnych głosów.

To technologiczny przełom, który może odmienić podcasty, audiobooki i treści audio.

Dalsza część tekstu pod wideo

Wybrane okazje dla Ciebie

Reklama

0 zł

~~179.99 zł~~ - najniższa cena

Kup teraz 179.99 zł

Smartring MAXCOM mRing MR100 57.8mm Srebrny

0 zł

~~179 zł~~ - najniższa cena

Kup teraz 179 zł

Etui LACOSTE Iconic Petit Pique MagSafe do Apple iPhone 16 Plus Granatowy

-10.99 zł

~~179.99 zł~~ - najniższa cena

Kup teraz 169 zł

0 zł

~~7.99 zł~~ - najniższa cena

Kup teraz 7.99 zł

VibeVoice-1.5B bazuje na innowacyjnej architekturze łączącej duży model językowy Qwen2.5-1.5B ze specjalistycznymi tokenizatorami akustycznymi i semantycznymi. Dzięki temu system nie tylko zachowuje wysoką jakość dźwięku, ale też płynnie przełącza się między rozmówcami, dbając o naturalne brzmienie.

Model wyróżnia się zdolnością do generowania długich, wielogłosowych konwersacji – do czterech osób naraz, z zachowaniem ich indywidualnych cech głosu i naturalnego przebiegu rozmowy. VibeVoice potrafi także syntezować mowę w języku angielskim i chińskim oraz generować śpiew, co jest rzadkością w otwartych TTS.

VibeVoice-1.5B jest dostępny za darmo na licencji MIT, a do uruchomienia wystarczy karta graficzna klasy RTX 3060. Microsoft zapowiada już większy model 7B, dedykowany do streamingu, kontynuując rozwój otwartych rozwiązań audio w AI.

Model ma jednak ograniczenia – nie obsługuje wszystkich języków, nie generuje efektów dźwiękowych ani muzyki, a Microsoft wdrożył mechanizmy bezpieczeństwa, aby zapobiec nadużyciom, takim jak podszywanie się pod znane osoby.

Źródło: deccanfounders.com