数学推理中的“模式坍缩”:首个分布外检测算法突破
引言: 人工智能的飞速发展带来了强大的语言模型,但它们在面对超出训练数据分布(Out-of-Distribution, OOD)的输入时,往往会产生不可预测的、甚至危险的输出。这在需要严谨逻辑的数学推理领域尤为棘手。近日,上海交通大学和阿里巴巴通义实验室的研究人员在NeurIPS 2024上发表了一篇突破性论文,首次针对数学推理场景提出了有效的分布外检测算法——TV Score,成功解决了困扰该领域的“模式坍缩”难题。
挑战:数学推理中的“模式坍缩”
传统的分布外检测方法通常依赖于计算样本嵌入(Embedding)与已知数据分布之间的距离。然而,在数学推理中,这种方法失效了。研究团队发现,数学推理的输出空间存在严重的“模式坍缩”现象:即使输入问题差异巨大,模型输出(通常是数值)却可能高度重叠。这主要源于两个原因:
- 标量化输出: 不同的数学问题可能得到相同的答案,例如 2 + 2 和 4。
- 分词化建模: 语言模型基于分词进行处理,导致数学上差异巨大的表达式在分词后共享大量相同的token(例如数字和运算符)。 研究人员发现,在简单的算术场景下,token 重复率甚至高达99.9%! 这使得基于静态嵌入的检测方法难以区分ID(In-Distribution,分布内)和OOD数据。
突破:基于动态嵌入轨迹的TV Score算法
为了克服“模式坍缩”的挑战,研究团队创新性地提出了基于动态嵌入轨迹的OOD检测算法——TV Score。该算法不再依赖于静态的输入/输出嵌入,而是追踪语言模型在多层神经网络中嵌入向量随层数变化的轨迹。
具体来说,假设语言模型有L层,输出文本包含T个token,第t个token在第l层的嵌入表示为 e_{l,t}
。算法计算每一层的平均嵌入作为该层的句子嵌入表征,并将这些表征构成一个动态的嵌入轨迹:[E_1, E_2, ..., E_L]
。
动机与方法:
研究团队通过理论分析和实证研究,揭示了ID和OOD样本嵌入轨迹的差异:
-
理论直觉: 在数学推理中,不同输入的嵌入轨迹在输出层之前可能差异较大,但在输出层附近会收敛到相近的点(“终点收敛”)。 而TV Score算法正是利用了这种差异。
-
经验分析: 研究人员在Llama2-7B模型上进行了实验,发现ID样本的嵌入轨迹在模型的中后层会呈现“过早稳定”现象,即嵌入变化幅度先增大后减小,而OOD样本的嵌入变化幅度则持续保持较高水平。
TV Score算法正是基于这种“过早稳定”现象来区分ID和OOD样本。它通过计算嵌入轨迹中相邻层嵌入向量之间的差异(例如2-范数),来衡量轨迹的平滑程度。平滑的轨迹通常对应于ID样本,而波动较大的轨迹则对应于OOD样本。
结论与展望:
这项研究首次成功地解决了数学推理场景下的分布外检测难题,为构建更安全、更可靠的AI系统提供了重要的技术支撑。TV Score算法的提出,不仅为数学推理领域带来了突破,也为其他需要严谨逻辑的AI应用提供了新的思路。未来的研究可以探索TV Score算法在更大规模模型和更复杂数学问题上的应用,以及进一步优化算法的效率和准确性。 这项工作也凸显了对语言模型内部机制深入理解的重要性,为构建更可解释、更可信的AI模型指明了方向。
参考文献:
- Wang, Yiming, et al. Embedding Trajectory for Out-of-Distribution Detection in Mathematical Reasoning. NeurIPS 2024. https://arxiv.org/abs/2405.14039
- OpenReview链接
- 代码仓库
(注:本文中部分技术细节进行了简化,更详细的技术信息请参考论文原文和代码仓库。)
Views: 0