Microsoft wypuszcza darmową AI do generowania rozmów. To koniec tradycyjnych audiobooków

Technologie
394V
Microsoft
Łukasz Musialik | Dzisiaj, 16:45

Microsoft właśnie zaprezentował VibeVoice-1.5B – otwarty model AI, który potrafi wygenerować aż 90 minut realistycznej rozmowy z udziałem czterech różnych głosów. 

To technologiczny przełom, który może odmienić podcasty, audiobooki i treści audio.

Dalsza część tekstu pod wideo


VibeVoice-1.5B bazuje na innowacyjnej architekturze łączącej duży model językowy Qwen2.5-1.5B ze specjalistycznymi tokenizatorami akustycznymi i semantycznymi. Dzięki temu system nie tylko zachowuje wysoką jakość dźwięku, ale też płynnie przełącza się między rozmówcami, dbając o naturalne brzmienie.

Model wyróżnia się zdolnością do generowania długich, wielogłosowych konwersacji – do czterech osób naraz, z zachowaniem ich indywidualnych cech głosu i naturalnego przebiegu rozmowy. VibeVoice potrafi także syntezować mowę w języku angielskim i chińskim oraz generować śpiew, co jest rzadkością w otwartych TTS.

VibeVoice-1.5B jest dostępny za darmo na licencji MIT, a do uruchomienia wystarczy karta graficzna klasy RTX 3060. Microsoft zapowiada już większy model 7B, dedykowany do streamingu, kontynuując rozwój otwartych rozwiązań audio w AI.

Model ma jednak ograniczenia – nie obsługuje wszystkich języków, nie generuje efektów dźwiękowych ani muzyki, a Microsoft wdrożył mechanizmy bezpieczeństwa, aby zapobiec nadużyciom, takim jak podszywanie się pod znane osoby.

Źródło: deccanfounders.com

Komentarze (5)

SORTUJ OD: Najnowszych / Najstarszych / Popularnych

cropper