ニュースボイス

Llasaは、LLaMAベースの音声合成モデルで、トレーニングと推論の計算リソースを拡張することで、自然な音声生成と感情表現の向上を実現しています。単一のTransformerアーキテクチャとVQコーデックを採用し、従来の多段階TTSモデルの複雑さを解消。1B、3B、8Bのモデルとトレーニングコードが公開され、研究者や開発者にとって有用なリソースとなっています。

ニュースボイス

Llasa：大規模音声合成モデルの革新

カテゴリ

タグ