拡張可能なブロック拡散型言語モデルBD3-LMの提案
🕒
🔗
元記事を見る
カテゴリ
科学・技術BD3-LMは、従来のオートレグレッシブモデルと離散拡散モデルの長所を統合し、柔軟な長さのテキスト生成や並列生成を可能にする新しい言語モデルです。トークンのブロック単位で拡散を行い、自己回帰的に文脈を捉えることで、精度を維持しつつ生成速度を向上させます。学習時にはノイズ率の最適化により高い安定性と低パープレキシティを実現し、従来の拡散モデルの限界を克服しています。