ACE-Step

Krátké shrnutí

ACE-Step je otevřený základní model pro generování hudby a zpěvu z textu, který zvládne vytvořit až čtyřminutovou skladbu za zhruba 20 sekund a nabízí detailní ovládání stylu, textu i vokálů.

Podrobný popis

ACE-Step navazuje na boom generativní AI tím, že kombinuje difuzní generování s kompresním autoenkodérem DCAE a odlehčeným lineárním transformerem. Díky tomu odbourává klasický kompromis mezi rychlostí, hudební koherencí a kontrolou: model podporuje 19 jazyků, zvládá vícežánrovou instrumentální i vokální produkci a umožňuje funkce jako „repainting“, variace či lokální editaci textu písně, aniž by poškodil melodii či aranž.

Pod kapotou jde o projekt vedený čínskou společností StepFun ve spolupráci s ACE Studio, šířený pod licencí Apache-2.0. Na serveru s GPU A100 vygeneruje čtyřminutovou skladbu do 20 s, na desktopových kartách RTX 4090 se pohybuje stále v řádu vteřin. Rychlost je však vyvážena dvěma omezeními: model je citlivý na počáteční šum (může občas ztrácet delší hudební strukturu) a pro plný výkon vyžaduje výkonnou grafiku; autoři navíc sami upozorňují na riziko nechtěné podobnosti s copyrightově chráněnou hudbou.

Krátké shrnutí

Podrobný popis

Varianta zdarma

Open-source

Podobné AI nástroje

ElevenLabs

Descript

Dia