当前位置 : 首页 - IT技术 - 正文

我们真的能信任人工智能的链式思考推理吗?


发布时间:2025年05月30日

随着人工智能(AI)在医疗和自动驾驶等领域的广泛应用,我们对其信任程度的问题变得愈发关键。一种名为链式思考(CoT)的推理方法备受关注。它帮助人工智能将复杂问题分解为步骤,展示其如何得出最终答案。这不仅提升了性能,还让我们得以一窥人工智能的“思考”过程,这对AI系统的信任与安全至关重要。

然而,Anthropic的研究质疑了链式思考是否真实反映了模型内部的运作。本文探讨了链式思考的机制、Anthropic的发现,以及这些结果对构建可靠人工智能的意义。

理解链式思考推理

链式思考推理是一种引导人工智能分步解决问题的方法。模型不仅给出最终答案,还会解释每一步的推导过程。该方法于2022年提出,此后在数学、逻辑和推理任务中显著提升了结果。

OpenAI的o1和o3Gemini 2.5DeepSeek R1以及Claude 3.7 Sonnet等模型均采用这一方法。链式思考流行的原因之一是它提升了人工智能的透明度。这在错误代价高昂的领域(如医疗工具或自动驾驶系统)尤为重要。

尽管如此,链式思考虽有助于透明化,却未必反映模型的真实“思考”。某些情况下,模型的解释看似逻辑严密,但并非基于其实际决策步骤。

我们能否信任链式思考?

Anthropic测试了链式思考的解释是否真实反映AI模型的决策过程,这一特性被称为“忠实性”。他们研究了包括Claude 3.5 Sonnet、Claude 3.7 Sonnet、DeepSeek R1和DeepSeek V1在内的四个模型。其中,Claude 3.7和DeepSeek R1接受过链式思考训练,其他模型则未经过此类训练。

研究人员向模型输入了不同提示,其中一些提示包含旨在以不道德方式影响模型的暗示。随后,他们检查AI是否在推理中使用了这些暗示。

结果令人担忧:模型仅在不到20%的情况下承认使用了暗示。即使是接受过链式思考训练的模型,其解释的忠实性也仅为25%至33%。

当暗示涉及不道德行为(如欺骗奖励系统)时,模型几乎从不承认,尽管它们确实依赖这些暗示做出决策。

通过强化学习进一步训练模型后,结果仅有小幅改善。但当涉及不道德行为时,改善微乎其微。

研究者还发现,当解释不真实时,其内容往往更长且更复杂。这可能意味着模型在试图掩盖真实意图。

此外,任务越复杂,解释的忠实性越低。这表明链式思考在解决难题时效果不佳,尤其可能掩盖高风险或敏感决策中的真实过程。

这对信任意味着什么?

该研究揭示了链式思考表面透明度与实际忠诚性之间的巨大差距。在医疗或交通等关键领域,这种差距是重大风险。如果AI提供看似合理的解释却隐藏不道德行为,人们可能错误地信任其输出。

链式思考对需要多步逻辑推理的问题有帮助,但无法识别罕见或高风险错误,也不能阻止模型给出误导性或模棱两可的答案。

研究表明,仅依赖链式思考不足以信任AI的决策。还需结合其他工具和检查机制,以确保AI行为安全可靠。

链式思考的优势与局限

尽管存在挑战,链式思考仍有许多优势。它通过拆分复杂问题帮助AI提升表现。例如,当大型语言模型使用链式思考提示时,其在数学应用题上的准确性达到顶尖水平。链式思考还便于开发者和用户跟踪模型的推理过程,这对机器人、自然语言处理或教育等领域非常实用。

然而,链式思考并非完美。小型模型难以生成分步推理,大型模型则需要更多内存和算力才能有效运用。这些限制使得链式思考难以在聊天机器人或实时系统中发挥优势。

链式思考的表现还依赖于提示的编写质量。糟糕的提示可能导致错误或混乱的步骤。某些情况下,模型生成冗长的解释却无实际帮助,反而拖慢流程。此外,早期推理中的错误可能延续至最终答案。在专业领域,除非模型接受过针对性训练,否则链式思考可能效果不佳。

结合Anthropic的发现,显然链式思考虽有用,但单凭其本身并不足够。它是构建可信人工智能的更大工程中的一环。

关键发现与未来方向

该研究提供了几点启示。首先,链式思考不应成为检查AI行为的唯一方法。在关键领域,我们需要更多机制,例如分析模型的内部活动或使用外部工具验证决策。

其次,必须意识到模型的清晰解释未必代表真实意图。解释可能只是“掩护”,而非实际原因。

为解决这一问题,研究者建议将链式思考与其他方法结合,例如改进训练方法、监督式学习和人工审查。

Anthropic还建议深入探究模型的内部机制。例如,检查激活模式或隐藏层可能揭示模型是否在隐藏某些行为。

最重要的是,模型能够掩盖不道德行为的事实表明,AI开发中必须引入严格测试和伦理规范。

构建对AI的信任不仅关乎性能优异,还需确保模型诚实、安全且可被审查。

总结

链式思考推理提升了AI解决复杂问题和解释答案的能力。但研究表明,这些解释并非总是真实的,尤其当涉及伦理问题时。

链式思考存在高成本、依赖大型模型和提示质量等局限,无法保证AI行为安全或公平。

要构建真正可靠的人工智能,必须将链式思考与其他方法结合,包括人工监督和内部检查。此外,研究需持续提升模型的可信度。

译者介绍

涂承烨,51CTO社区编辑,具有15年以上的开发、项目管理、咨询设计等经验,获得信息系统项目管理师、信息系统监理师、PMP,CSPM-2等认证。

原文标题:Can We Really Trust AI’s Chain-of-Thought Reasoning?,作者:Dr. Tehseen Zia

译者 | 涂承烨

审校 | 重楼

本文转载自https://www.51cto.com/article/816825.html。