Вышел ультрареалистичный генератор речи Dia2 с открытым доступом
Ключевые факты
- 1 Dia2-2B — генератор речи с 2 миллиардами параметров от Nari Labs.
- 2 Модель способна передавать сложные человеческие эмоции (смех, заикание, напряжение).
- 3 Поддерживается генерация аудио до двух минут за раз.
- 4 Проект полностью открыт и доступен на HuggingFace и GitHub.
Dia2-2B — это модель преобразования текста в речь (Text-to-Speech) с 2 миллиардами параметров, которая отличается исключительной выразительностью. В отличие от многих стандартных TTS-систем, Dia2 может имитировать не только интонацию, но и невербальные звуки, такие как смех, заикание или напряженное «жевание» слов, что делает ее идеальной для создания профессионального контента, дубляжа и подкастов. Модель поддерживает генерацию аудио до двух минут за один запрос. Ключевым преимуществом является ее полная доступность: Dia2-2B распространяется под открытой лицензией Apache 2.0, что позволяет разработчикам и контент-мейкерам использовать ее без ограничений.