摘要: 上海交通大学张拳石教授在接受《智者访谈》时指出,DeepSeek-R1等模型展示的思维链(CoT)可能只是表象,并不能完全代表模型内在的推理机制。他强调,在医疗诊断、自动驾驶等高风险领域,我们需要对AI决策的可靠性保持警惕,并呼吁加强对神经网络可解释性的理论研究。
上海报道 – 近日,人工智能领域再次掀起波澜。DeepSeek-R1等大型语言模型(LLM)通过展示“思维链”(Chain-of-Thought, CoT)让用户得以一窥大模型的“思考过程”,引发了人们对AI可解释性的广泛关注。然而,这种展示的“思考过程”是否真正代表了模型内在的推理机制?我们又该如何在医疗诊断、自动驾驶、法律判决等高风险领域信任AI的决策?
机器之心《智者访谈》栏目邀请到上海交通大学张拳石教授,深入探讨了这一问题。张教授在神经网络可解释性研究领域开创了新的理论框架,他提出的“等效与或交互”解释性理论,试图用严谨的数学符号化方式证明神经网络的内在表征逻辑,为理解泛化性、鲁棒性和过拟合提供了新的视角。
思维链:表象还是本质?
DeepSeek-R1等模型能够将“思考过程”以文字形式展示出来,无疑提升了用户体验,也让模型的可解释性再次成为焦点。然而,张拳石教授对此持谨慎态度。他认为,虽然思维链具有一定作用,但从模型内在机理来看,它与传统的无思维链的生成语言并没有本质区别,依然是对人类问答数据的经验性拟合。
“这种经验拟合肯定是有作用的,但以什么形式、什么角度、什么机制产生作用,我们是不清楚的。”张教授强调,如果没有一个严谨的解释性理论去严格分析其内在推理是如何运行的,就无法探讨更深入的问题。
他进一步指出,不同模型展示的思维链之所以存在巨大差异,是因为其根本数学机理是大模型端对端的输出,而有些大模型给出的思维链看上去更好看,只能说明其对提供的QA训练数据的拟合质量可能更好。
可解释性的两种路径
张教授将可解释性领域的研究分为两类:一类是迎合人的主观认知的解释,另一类是从数学上对神经网络内在信息处理机制的严谨客观的解释。他认为,目前大模型的思维链以及其他一些事后解释,某种意义上都是对人类认知的一种拟合,解释出来的结果人能读懂,但这并不意味着模型真的是基于这些原因去做的。
“我问大模型你究竟是怎么去做推理的?大模型可能事后说‘我的推理依据是 1、2、3、4……’,但大模型真的是基于这些原因去做的吗?我们并不清楚,这就带来很大潜在风险。”张教授警告说。
“等效与或交互”:可解释性的新理论框架
为了解决上述问题,张拳石教授提出了“等效与或交互”的神经网络可解释性理论。该理论旨在用符号化的“与或图模型”来表示任意一个神经网络,从而对神经网络的内在表征逻辑进行严谨的数学证明。
张教授认为,长期以来,人们普遍认为对神经网络进行符号化解释是不可能的,因为神经网络内部的连接机制和特征非常混乱。然而,他强调,必须将看似矛盾的两者统一起来,提出可靠的检验方法,对大模型的信息处理进行内观与总结。
理论创新的重要性
面对大模型发展的各种挑战,张拳石教授强调了理论创新的重要性。他说:“所谓十年磨一剑,相比用十年时间去优化一个复杂系统,更多是用十年去等待一个真正值得投入的问题。”
张教授的观点无疑为人工智能领域的研究者们敲响了警钟。在追求模型性能的同时,我们更应该关注模型的可解释性和可靠性,只有这样,才能真正让人工智能技术服务于人类社会。
参考文献:
- 机器之心,《智者访谈:上海交大张拳石:思维链只是表象,DeepSeek凭什么更强?》,https://www.jiqizhixin.com/articles/2024-03-09-15
关键词: 人工智能,大模型,可解释性,思维链,DeepSeek,张拳石,上海交通大学,等效与或交互,神经网络,理论创新。
Views: 0