ニュースボイス

2025-05-16 20:04

科学・技術

GitHubプロジェクト「KVSplit」は、Apple Silicon上で大規模言語モデルを効率的に動作させるために、Attention機構のKVキャッシュにおけるキーとバリューを別々の精度で量子化する手法を提供しています。K8V4構成（キー8ビット・バリュー4ビット）では、メモリを59％削減しつつ精度劣化は1％未満。Metal最適化による高速推論や、直感的な可視化ツール、簡単なセットアップも特徴です。最大72％のメモリ削減が可能で、長文コンテキスト処理にも効果的です。

MVDRAM：改造なしのDRAMでLLM推論を加速

2025-05-04 23:35

科学・技術

MVDRAMは、汎用DRAMを改造せずに行列・ベクトル積（GeMV）演算を実行する手法であり、大規模言語モデル（LLM）の低ビット量子化推論を高速化することを目的としています。従来のPUD手法が抱える前処理・後処理のオーバーヘッドを、演算の線形性とデータ共有パターンの活用により削減。DDR4モジュールでの実験では、従来のプロセッサベース実装と比較して最大7.29倍の速度、30.5倍のエネルギー効率を達成。MVDRAMは、将来的に一般的なDRAMをAIアクセラレータとして活用する道を切り開く可能性があります。

超軽量ニューラルネット構築への挑戦

2025-05-01 18:10

科学・技術

著者は、6つのセンサーから得られる非線形なデータを用いて物体の姿勢推定を行うため、小型マイコン上で動作する超軽量なニューラルネットを構築しようと試みます。TensorFlowによる量子化訓練を用いてモデルを作成し、RustクレートMicroFlowで実行しますが、推論時に浮動小数点演算が必要で、目標とする整数演算オンリーの実装には至りません。著者はJAXによるカスタム量子化訓練を用いた手法を模索しており、200行以下で理解可能な美しく軽量なネットワークを目指しています。

「量子化」の記事一覧