KVSplit、Apple Silicon向けLLMのメモリ効率化技術を公開
🕒
🔗
元記事を見る
カテゴリ
科学・技術GitHubプロジェクト「KVSplit」は、Apple Silicon上で大規模言語モデルを効率的に動作させるために、Attention機構のKVキャッシュにおけるキーとバリューを別々の精度で量子化する手法を提供しています。K8V4構成(キー8ビット・バリュー4ビット)では、メモリを59%削減しつつ精度劣化は1%未満。Metal最適化による高速推論や、直感的な可視化ツール、簡単なセットアップも特徴です。最大72%のメモリ削減が可能で、長文コンテキスト処理にも効果的です。