中文大模型安全堪忧：仅三款及格

好的，这是一篇根据你提供的信息撰写的新闻报道，力求达到你所提出的专业标准：

标题：中文安全基准评测揭示大模型软肋：仅三款模型及格，安全挑战迫在眉睫

引言：

在人工智能浪潮席卷全球的今天，大语言模型（LLMs）正以前所未有的速度渗透到我们生活的方方面面。然而，如同硬币的两面，其广泛应用也暴露出潜在的安全隐患。近日，中国信息通信研究院（以下简称“中国信通院”）联合淘天集团算法技术-未来生活实验室，发布了全球首个针对中文安全领域的事实性基准评测集——Chinese SafetyQA。这一评测结果犹如一记警钟，揭示了当前大模型在安全知识理解上的巨大短板，仅有三款模型勉强达到及格线，凸显了人工智能安全领域的严峻挑战。

主体：

大模型安全：不仅仅是“不作恶”

大语言模型的安全性，远非简单的“不作恶”所能概括。它要求模型对安全知识具备高准确性、全面性和清晰度的理解，尤其是在法律、政策和伦理等敏感领域。这意味着，模型不仅要避免输出明显的违规内容，更要在复杂的语境下，展现出清晰的逻辑和正确的判断。然而，传统的安全评测方法，往往依赖于特定场景的风险问题设置，这使得模型可以通过“安全对齐”训练，形成一种“虚假对齐”的状态，即模型在特定情境下给出“正确”的回复，但实际上缺乏对安全知识的深刻理解。这种“知其然而不知其所以然”的安全能力是不稳定的，在面对不同领域的风险问题时，会缺乏泛化性。

Chinese SafetyQA：填补中文安全评测空白

为了更精准地评估大模型对安全相关知识的掌握程度，中国信通院和淘天集团联合推出了Chinese SafetyQA评测集。该评测集具有以下七大显著特征：

中文聚焦： 评测集完全使用中文，并聚焦于中国相关的安全知识，特别是中国法律框架、道德标准和文化环境相关的安全问题。这与国际上侧重有害意图、越狱攻击等方向的研究形成鲜明对比，更贴合中国本土的安全需求。
高质量： 评测结果显示，在对包括OpenAI o1-preview、OpenAI GPT-4、LLaMA、Claude-3.5、Qwen、Doubao等国内外38个开源和闭源大模型的测试中，仅有三款模型达到60分及格线以上，最高得分也仅为73分。这一结果直观地反映了当前大模型在安全知识理解上的不足。
全面性： 数据集包含7个一级类目、27个二级类目和103个子类目，涵盖了中国违法违规、伦理道德、偏见歧视、辱骂仇恨、身心健康、谣言错误、网络安全理论知识等多个方面，是国际上首个全面覆盖中国内容安全类目的知识类评测数据集。
易评估： 评测集提供了QA和MCQ两种问题形式，问题和回答都保证简短、清晰，降低了评测难度，便于研究人员和开发者使用。
定期迭代： 中国信通院和阿里巴巴团队将定期对数据集进行迭代，以确保其对于最新法律法规的适应性，保证评测的有效性。
稳定性： 现有版本数据中，所有问题的知识截止于2023年底，且答案不随时间变化而改变，保证了评测的稳定性。
无害化： 虽然评测集围绕安全问题展开，但所有问题都是合法合规的无害化内容，避免了评测过程中的潜在风险。

评测方法：专家与模型双重验证

为了确保数据的准确性和高水准，Chinese SafetyQA的生成与质检流程采用了人类专家与大语言模型（LLMs）相结合的双重验证机制。数据来源主要包括搜索引擎（如Google、百度）和权威网站（如维基百科、人民网、新华网）。人类专家编写安全相关问题后，由大语言模型进行初步验证，再由人类专家进行二次审核，确保了数据的质量。

安全挑战与未来展望

Chinese SafetyQA的发布，为业界提供了一个客观公正的评测工具，有助于更好地理解和提升大模型在安全领域的应用能力。然而，评测结果也警示我们，大模型在安全知识理解方面仍然存在巨大的提升空间。未来，我们需要：