ニュースボイス

大規模言語モデル（LLM）は広範な応用が進む一方で、設計された制限を回避させる「脱獄（Jailbreak）」攻撃の脅威に直面しています。本論文では、モデルの注意重みが入力から出力へ移行することで防御が緩む「防御閾値劣化（DTD）」を突く新たな手法「Sugar-Coated Poison（SCP）」を提案。この手法は一見無害な出力を通じてモデルを誘導し、やがて有害な内容を生成させるものです。対策として、効果的な防御戦略「POSD」も提案されています。

ニュースボイス

LLMの脆弱性「甘い毒」攻撃で明らかに

カテゴリ

タグ