【OpenAI o1思维链CoT必看论文】谷歌“思维链提示“让AI更懂人类推理

原创超超的闲思世界

AI的推理能力正迎来一场重大突破。谷歌大脑团队最新开发的"思维链提示"方法，让大型语言模型在复杂推理任务上展现出惊人的进步。这项创新技术无需对模型进行额外训练，却能显著提升AI的推理能力，让机器的思维过程更接近人类。

链接：[arxiv.org/abs/2201.11903](arxiv.org/abs/2201.11903)

01 突破性方法:"思维链提示"

谷歌研究团队开发的"思维链提示"(Chain-of-Thought Prompting)方法,为增强大型语言模型的推理能力开辟了一条全新路径。这种方法的核心思想是让AI像人类一样展示出清晰的推理过程,而不仅仅是给出最终答案。

考虑一个人在解决复杂的推理任务，比如多步骤的数学问题时自己的思考过程。典型的做法是将问题分解成中间步骤，并在给出最终答案之前解决每个步骤：“简给了她妈妈2朵花后，她还剩下10朵：：：然后她再给她爸爸3朵，她就会剩下7朵：：：所以答案是7。”这篇论文的目标是赋予语言模型生成类似思考链的能力——一系列连贯的中间推理步骤，导向问题的最终答案。

思维链提示的工作原理出人意料的简单:

在提供给模型的少量示例中,不仅包含问题和答案,还附加上解决问题的推理步骤。
模型在面对新问题时,会自然而然地生成类似的推理步骤,最后得出答案。

这种方法的优势显而易见:

低成本高效率: 无需对模型进行专门的微调训练,仅通过提供几个带有推理步骤的示例,就能激发模型的推理能力。这大大降低了部署成本和复杂度。
广泛适用性: 实验表明,思维链提示在多种推理任务上都取得了显著效果

算术推理: 如解决复杂的数学应用题

常识推理: 如回答需要常识判断的问题

符号推理: 如执行抽象的符号操作任务

提高可解释性: 通过生成清晰的推理步骤,模型的决策过程变得更加透明,有助于研究人员理解和改进AI的推理机制。

值得注意的是,思维链推理能力是随着模型规模增长而自然涌现的。研究发现,只有当模型参数达到一定规模(通常是数百亿级别)时,这种能力才会显著体现。这一发现为大模型的潜力提供了新的视角,暗示着可能还有更多尚未被发掘的能力。

02 关键亮点:大模型的推理新突破

在一系列实验中,研究团队发现了一些令人振奋的关键发现:

思维链推理:大模型的新兴能力

研究结果表明,思维链推理能力是随着模型规模增长而自然涌现的。这一发现意味着,仅通过扩大模型参数量,就能激发出更强大的推理能力。具体来说,实验显示只有在模型规模达到约100B参数时,思维链推理的效果才开始显著提升。这一现象与之前发现的"涌现能力"相呼应,进一步证实了大模型在智能行为方面的潜力。

复杂推理任务性能大幅提升

在各类复杂推理任务上,思维链提示方法都带来了显著的性能提升。尤其是在需要多步推理的数学问题和常识推理任务中,改善更为明显。例如,在GSM8K数学问题集上,采用思维链提示的PaLM 540B模型将准确率从原本的58.1%提升至74.4%,超越了此前的最佳水平。这一结果表明,通过"教会"模型展示推理过程,可以极大地增强其解决复杂问题的能力。

泛化能力的提升

更令人兴奋的是,思维链提示还帮助模型实现了对未见长度序列的泛化。在符号推理任务中,即使测试样本的长度超过了训练示例,采用思维链提示的模型仍然表现出色。这一发现暗示着,思维链方法不仅提高了模型的推理能力,还增强了其适应新情况的灵活性。

03 实验结果

为了进一步验证思维链提示的效果,研究团队在多个具有挑战性的基准测试上进行了实验:

数学推理:GSM8K创新高

研究团队使用了多个数学词问题数据集,如GSM8K、SVAMP和AQuA,这些问题涵盖了从简单的一步计算到复杂的多步推理。

在GSM8K数学单词问题数据集上,PaLM540B模型配合思维链提示取得了74.4%的准确率,这一成绩不仅大幅超越了标准提示方法(58.1%),更是超过了此前经过微调的GPT-3模型保持的最佳记录(55%)。值得注意的是,这一突破是在仅使用8个示例进行少样本学习的情况下实现的,充分体现了思维链提示方法的强大效果。