北京时间2月12日讯 近日,人工智能领域明星模型DeepSeek R1被曝出存在安全漏洞,引发业界对大模型安全性的担忧。据宾夕法尼亚大学研究者测试,DeepSeek R1在面对网络犯罪、虚假信息等有害提示时,几乎未能有效拦截,攻击成功率高达100%。
面对日益严峻的大模型“越狱”风险,香港科技大学、南洋理工大学等机构的研究团队联合推出了一项创新性防御框架——SelfDefend。该框架旨在赋予大语言模型(LLMs)真正的“自卫能力”,有效识别和抵御各类越狱攻击,同时保持极低的响应延迟。该研究成果已入选顶会,并在相关网站公开了论文和代码。
“越狱”攻击:大模型安全的一大挑战
随着大语言模型在各领域的广泛应用,其安全性问题日益凸显。“越狱”攻击作为一种常见的攻击手段,通过绕过LLMs的安全对齐机制,诱导模型生成有害内容,对社会安全和伦理道德构成潜在威胁。
现有的防御方法主要分为基于模型的防御和基于插件的防御,但都难以同时满足以下目标:应对所有类型的攻击、引入可忽略的额外延迟、对检测出的越狱访问提供可解释性,以及同时适用于开源和闭源模型。
SelfDefend:为大模型打造“影子卫士”
SelfDefend框架的灵感来源于传统安全领域中的“影子栈”概念。该框架通过引入一个并行的“影子LLM”来检测潜在的有害查询,从而有效抵御多种越狱攻击。
具体而言,SelfDefend框架包含两个并行的LLM实例:一个用于正常响应用户查询的目标LLM,另一个用于检测有害内容的防御LLM。当用户输入查询时,目标LLM会正常处理查询并生成响应,而防御LLM则通过特定的检测提示词来识别查询中的有害部分或意图。
这种设计带来了多重优势:
- 双重保护: 同时利用了目标LLM的安全对齐机制和防御LLM的越狱检测能力,显著提高了防御成功率。
- 低延迟: 由于防御LLM的输出通常较短,正常查询的响应延迟几乎可以忽略不计。
- 可解释性: 检测出的有害部分或者恶意意图可以作为防御的可解释性。
- 广泛兼容: 无需修改或监控目标LLM的内部机制,因此可以兼容开源和闭源模型。
实验验证:SelfDefend效果显著
研究团队通过大量实验验证了SelfDefend框架的有效性。实验结果表明,基于GPT-3.5和GPT-4的SelfDefend能够显著降低多种越狱攻击的成功率。例如,基于GPT-3.5的SelfDefend将攻击成功率(ASR)从平均65.7%降低至0.236,而基于GPT-4的SelfDefend更是将ASR降低至平均0.050。此外,SelfDefend对正常查询的影响微乎其微,GPT-3.5和GPT-4的正常查询通过率仅分别下降了0.51%和2.77%。
为了进一步降低成本和提升鲁棒性,研究团队还通过数据蒸馏方法对开源模型进行了优化。
未来展望:大模型安全之路任重道远
SelfDefend框架的推出,为大模型安全领域带来了新的希望。然而,随着攻击手段的不断演进,大模型安全之路仍然任重道远。未来,需要研究人员不断探索新的防御技术,共同构建安全、可靠、可信赖的大模型生态。
参考文献:
- 论文标题:SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner
- 论文主页:https://selfdefend.github.io/
- 论文链接:https://arxiv.org/abs/2406.05498
- GitHub 链接:https://github.com/selfdefend/Code
- 机器之心相关报道:https://www.jiqizhixin.com/articles/2025-02-11-4
Views: 0