「量子化」の記事一覧
-
KVSplit、Apple Silicon向けLLMのメモリ効率化技術を公開
2025-05-16 20:04
科学・技術GitHubプロジェクト「KVSplit」は、Apple Silicon上で大規模言語モデルを効率的に動作させるために、Attention機構のKVキャッシュにおけるキーとバリューを別々の精度で量子化する手法を提供しています。K8V4構成(キー8ビット・バリュー4ビット)では、メモリを59%削減しつつ精度劣化は1%未満。Metal最適化による高速推論や、直感的な可視化ツール、簡単なセットアップも特徴です。最大72%のメモリ削減が可能で、長文コンテキスト処理にも効果的です。
-
MVDRAM:改造なしのDRAMでLLM推論を加速
2025-05-04 23:35
科学・技術MVDRAMは、汎用DRAMを改造せずに行列・ベクトル積(GeMV)演算を実行する手法であり、大規模言語モデル(LLM)の低ビット量子化推論を高速化することを目的としています。従来のPUD手法が抱える前処理・後処理のオーバーヘッドを、演算の線形性とデータ共有パターンの活用により削減。DDR4モジュールでの実験では、従来のプロセッサベース実装と比較して最大7.29倍の速度、30.5倍のエネルギー効率を達成。MVDRAMは、将来的に一般的なDRAMをAIアクセラレータとして活用する道を切り開く可能性があります。
-
超軽量ニューラルネット構築への挑戦
2025-05-01 18:10
科学・技術著者は、6つのセンサーから得られる非線形なデータを用いて物体の姿勢推定を行うため、小型マイコン上で動作する超軽量なニューラルネットを構築しようと試みます。TensorFlowによる量子化訓練を用いてモデルを作成し、RustクレートMicroFlowで実行しますが、推論時に浮動小数点演算が必要で、目標とする整数演算オンリーの実装には至りません。著者はJAXによるカスタム量子化訓練を用いた手法を模索しており、200行以下で理解可能な美しく軽量なネットワークを目指しています。