ニュースボイス

GitHubプロジェクト「KVSplit」は、Apple Silicon上で大規模言語モデルを効率的に動作させるために、Attention機構のKVキャッシュにおけるキーとバリューを別々の精度で量子化する手法を提供しています。K8V4構成（キー8ビット・バリュー4ビット）では、メモリを59％削減しつつ精度劣化は1％未満。Metal最適化による高速推論や、直感的な可視化ツール、簡単なセットアップも特徴です。最大72％のメモリ削減が可能で、長文コンテキスト処理にも効果的です。

ニュースボイス

KVSplit、Apple Silicon向けLLMのメモリ効率化技術を公開

カテゴリ

タグ