MVDRAM:改造なしのDRAMでLLM推論を加速
🕒
🔗
元記事を見る
カテゴリ
科学・技術MVDRAMは、汎用DRAMを改造せずに行列・ベクトル積(GeMV)演算を実行する手法であり、大規模言語モデル(LLM)の低ビット量子化推論を高速化することを目的としています。従来のPUD手法が抱える前処理・後処理のオーバーヘッドを、演算の線形性とデータ共有パターンの活用により削減。DDR4モジュールでの実験では、従来のプロセッサベース実装と比較して最大7.29倍の速度、30.5倍のエネルギー効率を達成。MVDRAMは、将来的に一般的なDRAMをAIアクセラレータとして活用する道を切り開く可能性があります。