Amazon představil Sonic – nový AI model pro realistické generování hlasu
Amazon představil nový základní model Sonic Voice, který umí generovat přirozenou řeč ve vysoké kvalitě. Cílí na vývojáře i tvůrce obsahu, kterým umožní rychle a realisticky převádět text na řeč.
Amazon oznámil spuštění nového základního hlasového modelu Sonic Voice, který posouvá hranice generování přirozené řeči. Tento model zvládá převádět psaný text do mluvené podoby s důrazem na plynulost, intonaci i přirozené pauzy – tak, že je téměř k nerozeznání od lidského projevu. Model byl navržen s cílem být lehký, rychlý a nasaditelný v reálném čase, což z něj dělá vhodný nástroj například pro zákaznické služby, čtečky nebo multimediální aplikace.
Technologie Sonic je navíc součástí širší nadstavby Speech Foundation Model, což je nová iniciativa Amazonu v oblasti hlasových modelů. Tato platforma cílí na vývoj univerzálních hlasových systémů budoucnosti, včetně překladů, klonování hlasu nebo personalizace. Sonic je první vlaštovkou, která má vývojářům umožnit integrovat výkonnou TTS (text-to-speech) technologii s nízkou latencí do svých aplikací.
Sonic zatím není přímo veřejně dostupný jako samostatná služba, ale Amazon avizuje jeho integraci do svých produktů, jako jsou Alexa, AWS a další nástroje pro vývojáře. Konkurenčně se Sonic staví například vůči modelům ElevenLabs nebo Microsoft Azure Neural TTS, které dominují trhu s pokročilým převodem textu na řeč.