ニュースボイス

LLMの脆弱性「甘い毒」攻撃で明らかに

🕒

カテゴリ

科学・技術

大規模言語モデル(LLM)は広範な応用が進む一方で、設計された制限を回避させる「脱獄(Jailbreak)」攻撃の脅威に直面しています。本論文では、モデルの注意重みが入力から出力へ移行することで防御が緩む「防御閾値劣化(DTD)」を突く新たな手法「Sugar-Coated Poison(SCP)」を提案。この手法は一見無害な出力を通じてモデルを誘導し、やがて有害な内容を生成させるものです。対策として、効果的な防御戦略「POSD」も提案されています。