Dia

Krátké shrnutí

Dia je open-source model o 1,6 mld. parametrech, který převádí text přímo na vysoce realistický, emocionálně bohatý dialog v jediném průchodu

Podrobný popis

Dia je nový open-source model typu TTS (text-to-speech), který se zaměřuje výhradně na tvorbu realistického dialogu. Oproti klasickým řešením negeneruje izolované věty, ale celé konverzační pasáže včetně neverbálních zvuků jako je smích, zakašlání nebo odmlky. Díky tomu působí výstup mnohem přirozeněji a lépe simuluje skutečnou řeč. Model navíc dokáže přizpůsobit tón a tempo výslovnosti podle krátké zvukové ukázky hlasu, což z něj dělá ideální nástroj pro dabing, podcasty nebo herní postavy.

Model je dostupný zdarma pod licencí Apache 2.0 na GitHubu i Hugging Face. Běží na architektuře PyTorch 2+ a ke spuštění vyžaduje zhruba 10 GB VRAM. Na běžné grafické kartě jako NVIDIA A4000 zvládá generovat zhruba 40 tokenů za sekundu, což umožňuje rychlé a plynulé generování dialogu téměř v reálném čase. Autoři z Nari Labs poskytli nejen modelové váhy, ale také jednoduchý inference skript a ukázkový demo server.

Aktuálně je model optimalizován pouze pro GPU, ale vývojový tým plánuje i verzi pro běh na CPU a kvantizované varianty, které by snížily hardwarové nároky. Cílem je zpřístupnit Dia širší komunitě vývojářů, výzkumníků i kreativních tvůrců, kteří chtějí generovat autentické dialogy bez potřeby nákladné postprodukce. Díky svému otevřenému přístupu se Dia rychle stává jedním z nejzajímavějších nástrojů v oblasti syntézy řeči.

Co od výkonu čekat

Na A4000 (10 GB VRAM) uvádí Nari Labs ≈ 40 tokenů/s ⇒ 86 tokenů ≈ 1 s audia.

M4 GPU (citelně menší propustnost 120 GB/s) běží pří testech Stable Diffusion ~¼ rychlosti RTX 3070; pro Dia je reálné 1–4 tokeny/s. Tj. 10s dialogu se bude syntetizovat ~2–4 minuty.

Vyšší konfigurace M4 Pro 24 GB (273 GB/s) či Mac Studio M4 Ultra zkrátí čas zhruba na ½-⅓.

Varianta zdarma

Ano

Open-source

Ano

Nari Labs

Společnost Nari Labs vznikla koncem roku 2024 až začátkem 2025 a působí převážně na dálku se základnou v Jižní Koreji.…

Podobné AI nástroje