Customize Consent Preferences

We use cookies to help you navigate efficiently and perform certain functions. You will find detailed information about all cookies under each consent category below.

The cookies that are categorized as "Necessary" are stored on your browser as they are essential for enabling the basic functionalities of the site. ... 

Always Active

Necessary cookies are required to enable the basic features of this site, such as providing secure log-in or adjusting your consent preferences. These cookies do not store any personally identifiable data.

No cookies to display.

Functional cookies help perform certain functionalities like sharing the content of the website on social media platforms, collecting feedback, and other third-party features.

No cookies to display.

Analytical cookies are used to understand how visitors interact with the website. These cookies help provide information on metrics such as the number of visitors, bounce rate, traffic source, etc.

No cookies to display.

Performance cookies are used to understand and analyze the key performance indexes of the website which helps in delivering a better user experience for the visitors.

No cookies to display.

Advertisement cookies are used to provide visitors with customized advertisements based on the pages you visited previously and to analyze the effectiveness of the ad campaigns.

No cookies to display.

0

北京时间2月12日讯 近日,人工智能领域明星模型DeepSeek R1被曝出存在安全漏洞,引发业界对大模型安全性的担忧。据宾夕法尼亚大学研究者测试,DeepSeek R1在面对网络犯罪、虚假信息等有害提示时,几乎未能有效拦截,攻击成功率高达100%。

面对日益严峻的大模型“越狱”风险,香港科技大学、南洋理工大学等机构的研究团队联合推出了一项创新性防御框架——SelfDefend。该框架旨在赋予大语言模型(LLMs)真正的“自卫能力”,有效识别和抵御各类越狱攻击,同时保持极低的响应延迟。该研究成果已入选顶会,并在相关网站公开了论文和代码。

“越狱”攻击:大模型安全的一大挑战

随着大语言模型在各领域的广泛应用,其安全性问题日益凸显。“越狱”攻击作为一种常见的攻击手段,通过绕过LLMs的安全对齐机制,诱导模型生成有害内容,对社会安全和伦理道德构成潜在威胁。

现有的防御方法主要分为基于模型的防御和基于插件的防御,但都难以同时满足以下目标:应对所有类型的攻击、引入可忽略的额外延迟、对检测出的越狱访问提供可解释性,以及同时适用于开源和闭源模型。

SelfDefend:为大模型打造“影子卫士”

SelfDefend框架的灵感来源于传统安全领域中的“影子栈”概念。该框架通过引入一个并行的“影子LLM”来检测潜在的有害查询,从而有效抵御多种越狱攻击。

具体而言,SelfDefend框架包含两个并行的LLM实例:一个用于正常响应用户查询的目标LLM,另一个用于检测有害内容的防御LLM。当用户输入查询时,目标LLM会正常处理查询并生成响应,而防御LLM则通过特定的检测提示词来识别查询中的有害部分或意图。

这种设计带来了多重优势:

  • 双重保护: 同时利用了目标LLM的安全对齐机制和防御LLM的越狱检测能力,显著提高了防御成功率。
  • 低延迟: 由于防御LLM的输出通常较短,正常查询的响应延迟几乎可以忽略不计。
  • 可解释性: 检测出的有害部分或者恶意意图可以作为防御的可解释性。
  • 广泛兼容: 无需修改或监控目标LLM的内部机制,因此可以兼容开源和闭源模型。

实验验证:SelfDefend效果显著

研究团队通过大量实验验证了SelfDefend框架的有效性。实验结果表明,基于GPT-3.5和GPT-4的SelfDefend能够显著降低多种越狱攻击的成功率。例如,基于GPT-3.5的SelfDefend将攻击成功率(ASR)从平均65.7%降低至0.236,而基于GPT-4的SelfDefend更是将ASR降低至平均0.050。此外,SelfDefend对正常查询的影响微乎其微,GPT-3.5和GPT-4的正常查询通过率仅分别下降了0.51%和2.77%。

为了进一步降低成本和提升鲁棒性,研究团队还通过数据蒸馏方法对开源模型进行了优化。

未来展望:大模型安全之路任重道远

SelfDefend框架的推出,为大模型安全领域带来了新的希望。然而,随着攻击手段的不断演进,大模型安全之路仍然任重道远。未来,需要研究人员不断探索新的防御技术,共同构建安全、可靠、可信赖的大模型生态。

参考文献:


>>> Read more <<<

Views: 0

0

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注