DeepSeek R1易被越狱？顶会防御框架SelfDefend来袭

北京时间2月12日讯 近日，人工智能领域明星模型DeepSeek R1被曝出存在安全漏洞，引发业界对大模型安全性的担忧。据宾夕法尼亚大学研究者测试，DeepSeek R1在面对网络犯罪、虚假信息等有害提示时，几乎未能有效拦截，攻击成功率高达100%。

面对日益严峻的大模型“越狱”风险，香港科技大学、南洋理工大学等机构的研究团队联合推出了一项创新性防御框架——SelfDefend。该框架旨在赋予大语言模型（LLMs）真正的“自卫能力”，有效识别和抵御各类越狱攻击，同时保持极低的响应延迟。该研究成果已入选顶会，并在相关网站公开了论文和代码。

“越狱”攻击：大模型安全的一大挑战

随着大语言模型在各领域的广泛应用，其安全性问题日益凸显。“越狱”攻击作为一种常见的攻击手段，通过绕过LLMs的安全对齐机制，诱导模型生成有害内容，对社会安全和伦理道德构成潜在威胁。

现有的防御方法主要分为基于模型的防御和基于插件的防御，但都难以同时满足以下目标：应对所有类型的攻击、引入可忽略的额外延迟、对检测出的越狱访问提供可解释性，以及同时适用于开源和闭源模型。

SelfDefend：为大模型打造“影子卫士”

SelfDefend框架的灵感来源于传统安全领域中的“影子栈”概念。该框架通过引入一个并行的“影子LLM”来检测潜在的有害查询，从而有效抵御多种越狱攻击。

具体而言，SelfDefend框架包含两个并行的LLM实例：一个用于正常响应用户查询的目标LLM，另一个用于检测有害内容的防御LLM。当用户输入查询时，目标LLM会正常处理查询并生成响应，而防御LLM则通过特定的检测提示词来识别查询中的有害部分或意图。

这种设计带来了多重优势：

双重保护： 同时利用了目标LLM的安全对齐机制和防御LLM的越狱检测能力，显著提高了防御成功率。
低延迟： 由于防御LLM的输出通常较短，正常查询的响应延迟几乎可以忽略不计。
可解释性： 检测出的有害部分或者恶意意图可以作为防御的可解释性。
广泛兼容： 无需修改或监控目标LLM的内部机制，因此可以兼容开源和闭源模型。

实验验证：SelfDefend效果显著

研究团队通过大量实验验证了SelfDefend框架的有效性。实验结果表明，基于GPT-3.5和GPT-4的SelfDefend能够显著降低多种越狱攻击的成功率。例如，基于GPT-3.5的SelfDefend将攻击成功率（ASR）从平均65.7%降低至0.236，而基于GPT-4的SelfDefend更是将ASR降低至平均0.050。此外，SelfDefend对正常查询的影响微乎其微，GPT-3.5和GPT-4的正常查询通过率仅分别下降了0.51%和2.77%。

为了进一步降低成本和提升鲁棒性，研究团队还通过数据蒸馏方法对开源模型进行了优化。

未来展望：大模型安全之路任重道远

SelfDefend框架的推出，为大模型安全领域带来了新的希望。然而，随着攻击手段的不断演进，大模型安全之路仍然任重道远。未来，需要研究人员不断探索新的防御技术，共同构建安全、可靠、可信赖的大模型生态。

参考文献：

论文标题：SelfDefend: LLMs Can Defend Themselves against Jailbreaking in a Practical Manner
论文主页：https://selfdefend.github.io/
论文链接：https://arxiv.org/abs/2406.05498
GitHub 链接：https://github.com/selfdefend/Code
机器之心相关报道：https://www.jiqizhixin.com/articles/2025-02-11-4

>>> Read more <<<

一	二	三	四	五	六	日
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

DeepSeek R1易被越狱？顶会防御框架SelfDefend来袭

作者智能小编

相关文章

Veo 2发布：视频创作，触手可及！

Zhipu GLM Unveils New Open-Source Model Claims World-Class Performance Launches “z.ai

智谱GLM模型升级，比肩世界先进！

发表回复取消回复

为您推荐