AI模型安全新突破：分布外检测取得进展

数学推理中的“模式坍缩”：首个分布外检测算法突破

引言： 人工智能的飞速发展带来了强大的语言模型，但它们在面对超出训练数据分布（Out-of-Distribution, OOD）的输入时，往往会产生不可预测的、甚至危险的输出。这在需要严谨逻辑的数学推理领域尤为棘手。近日，上海交通大学和阿里巴巴通义实验室的研究人员在NeurIPS 2024上发表了一篇突破性论文，首次针对数学推理场景提出了有效的分布外检测算法——TV Score，成功解决了困扰该领域的“模式坍缩”难题。

挑战：数学推理中的“模式坍缩”

传统的分布外检测方法通常依赖于计算样本嵌入（Embedding）与已知数据分布之间的距离。然而，在数学推理中，这种方法失效了。研究团队发现，数学推理的输出空间存在严重的“模式坍缩”现象：即使输入问题差异巨大，模型输出（通常是数值）却可能高度重叠。这主要源于两个原因：

标量化输出： 不同的数学问题可能得到相同的答案，例如 2 + 2 和 4。
分词化建模： 语言模型基于分词进行处理，导致数学上差异巨大的表达式在分词后共享大量相同的token（例如数字和运算符）。研究人员发现，在简单的算术场景下，token 重复率甚至高达99.9%！这使得基于静态嵌入的检测方法难以区分ID（In-Distribution，分布内）和OOD数据。

突破：基于动态嵌入轨迹的TV Score算法

为了克服“模式坍缩”的挑战，研究团队创新性地提出了基于动态嵌入轨迹的OOD检测算法——TV Score。该算法不再依赖于静态的输入/输出嵌入，而是追踪语言模型在多层神经网络中嵌入向量随层数变化的轨迹。

具体来说，假设语言模型有L层，输出文本包含T个token，第t个token在第l层的嵌入表示为 e_{l,t}。算法计算每一层的平均嵌入作为该层的句子嵌入表征，并将这些表征构成一个动态的嵌入轨迹：[E_1, E_2, ..., E_L]。

动机与方法：

研究团队通过理论分析和实证研究，揭示了ID和OOD样本嵌入轨迹的差异：

理论直觉： 在数学推理中，不同输入的嵌入轨迹在输出层之前可能差异较大，但在输出层附近会收敛到相近的点（“终点收敛”）。而TV Score算法正是利用了这种差异。
经验分析： 研究人员在Llama2-7B模型上进行了实验，发现ID样本的嵌入轨迹在模型的中后层会呈现“过早稳定”现象，即嵌入变化幅度先增大后减小，而OOD样本的嵌入变化幅度则持续保持较高水平。

TV Score算法正是基于这种“过早稳定”现象来区分ID和OOD样本。它通过计算嵌入轨迹中相邻层嵌入向量之间的差异（例如2-范数），来衡量轨迹的平滑程度。平滑的轨迹通常对应于ID样本，而波动较大的轨迹则对应于OOD样本。

结论与展望：

这项研究首次成功地解决了数学推理场景下的分布外检测难题，为构建更安全、更可靠的AI系统提供了重要的技术支撑。TV Score算法的提出，不仅为数学推理领域带来了突破，也为其他需要严谨逻辑的AI应用提供了新的思路。未来的研究可以探索TV Score算法在更大规模模型和更复杂数学问题上的应用，以及进一步优化算法的效率和准确性。这项工作也凸显了对语言模型内部机制深入理解的重要性，为构建更可解释、更可信的AI模型指明了方向。

参考文献：

Wang, Yiming, et al. Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning. NeurIPS 2024. https://arxiv.org/abs/2405.14039
OpenReview链接
代码仓库

(注：本文中部分技术细节进行了简化，更详细的技术信息请参考论文原文和代码仓库。)

>>> Read more <<<