ニュースボイス

TransMLA:GQAを凌駕する新しい注意機構

🕒

カテゴリ

科学・技術

TransMLAは、既存のGroup Query Attention(GQA)ベースのモデルを、より効率的なMulti-head Latent Attention(MLA)ベースへ変換する手法を提案しています。MLAは低ランクのKey-Value行列を用いてキャッシュサイズを削減しつつ表現力を維持する新しい仕組みで、推論速度向上と通信効率化が期待されます。既存モデルの後処理による変換も可能で、今後の標準化が期待されています。