Llasa:大規模音声合成モデルの革新
🕒
🔗
元記事を見る
カテゴリ
科学・技術Llasaは、LLaMAベースの音声合成モデルで、トレーニングと推論の計算リソースを拡張することで、自然な音声生成と感情表現の向上を実現しています。単一のTransformerアーキテクチャとVQコーデックを採用し、従来の多段階TTSモデルの複雑さを解消。1B、3B、8Bのモデルとトレーニングコードが公開され、研究者や開発者にとって有用なリソースとなっています。