当前位置：首页 > news >正文

SMART：大模型在关键推理步骤辅导小模型，在保持高推理效率的同时，显著提升小模型的推理能力！！

news 2025/4/30 10:49:16

摘要：小型语言模型（SLM）的推理能力有限，这使得人们对其是否适合需要深度、多步骤逻辑推理的任务产生了怀疑。本文介绍了一种名为“小理由，大提示”（SMART）的框架，该框架通过从大型语言模型（LLM）中选择性地提供针对性指导来增强SLM的推理能力。SMART受到认知脚手架概念的启发，通过基于评分的评估来识别不确定的推理步骤，并且只在必要时注入由LLM生成的纠正性推理内容。通过将结构化推理视为一种最优策略搜索，我们的方法能够在不进行穷尽采样的情况下，引导推理轨迹走向正确答案。我们在数学推理数据集上的实验表明，针对性的外部辅助显著提高了性能，为SLM和LLM的协作使用铺平了道路，使其能够共同解决目前SLM单独无法解决的复杂推理任务。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 SLM生成推理草稿

3.2 基于分数的步骤评估

3.3 LLM基于步骤修正

3. 4 终止条件

3.5 测试时间计算扩展

四、实验结果

4.1 实验设置

4.2 性能提升

4.3 LLM辅助的效益

4.4 成本效益分析

五、未来研究

一、背景动机

论文题目：Guiding Reasoning in Small Language Models with LLM Assistance

论文地址：https://arxiv.org/pdf/2504.09923v1

当前大模型在需要多步逻辑推理的任务中表现出色，然而小模型SLMs（Small Language Models）由于参数容量有限，虽然推理效率高，但通常难以处理复杂的推理任务，这限制了它们在需要深度逻辑推导的场景中的应用。

该文章提出SMART（Small Reasons, Large Hints）框架，通过在关键决策点提供LLM的辅助，来提升SLMs的推理能力，使其能够处理原本无法解决的复杂推理任务。

二、核心贡献

1、提出了SMART框架，其通过选择性地将LLM生成的推理步骤整合到SLM的推理过程中，以提升SLM的推理能力。

2、在数学推理数据集上进行的实验表明，SMART能够显著提升SLM的性能，使其能够解决原本无法解决的复杂推理问题。

3、文章详细分析了在何种情况下LLM辅助最为有益，为混合推理系统提供了思路。

三、实现方法

3.1 SLM生成推理草稿

输入：给定一个查询 Q。
过程：SLM自回归地生成一个初始推理轨迹 R=(r1,r2,…,rm)，其中每个 ri 是一个中间推理步骤。
输出：生成的推理过程 R。

3.2 基于分数的步骤评估

评分函数：为每个生成的推理步骤 $r_i$ 分配一个分数 $s(r_i|Q,r<i)$ ，用于评估其可靠性。
- PRM分数：使用预训练的奖励模型（Process Reward Model, PRM）评估每个步骤的正确性。
- Token级置信度（TLC）：计算每个步骤中每个token的平均置信度。
阈值判断：如果分数 s 低于预设阈值 τ，则认为该步骤不可靠，需要LLM的辅助。

3.3 LLM基于步骤修正

LLM干预：如果步骤 $r_i$ 的分数低于阈值 τ，则用LLM生成的替代步骤 $^{{r_i{}}^{'}}$ 替换它
保留SLM步骤：如果步骤的分数高于阈值，则保留SLM生成的步骤。

3. 4 终止条件

EOS标记：如果生成了结束标记（EOS），则停止推理。
最大token长度：如果累积的token数量超过预设的最大值 Lmax，则停止推理。

3.5 测试时间计算扩展

Best-of-N：生成多个推理路径，并独立应用SMART框架。每个路径中的低分节点被LLM生成的替代步骤替换。
Beam Search：在每个推理步骤中保留前 M 个候选序列。如果任何候选节点的分数低于阈值 τ，则用LLM生成的替代步骤替换。

四、实验结果

4.1 实验设置

数据集：MATH500数据集，包含500个数学问题，涵盖不同难度级别。
模型：Qwen2.5-1.5B和Qwen2.5-7B，以及Llama3.2-1B和Llama3.2-8B。
评分方法：PRM分数和TLC分数。
评估指标：Weighted@N，选择最高总奖励的答案。

4.2 性能提升

SMART在所有设置中均优于SLM基线，并且随着测试时间计算的增加，SMART的性能迅速接近LLM水平。

在单步生成（N=1）的情况下，SMART已经提供了明显的准确性提升。如在N=1时，SMART将Qwen2.5-1.5B的准确率从66.85%提升到79.79%。
随着N的增加，SMART的性能进一步提升，尤其是在更复杂的任务中。如在N=16时，SMART将Qwen2.5-1.5B的准确率提升到91.85%，接近Qwen2.5-7B的94.85%。

4.3 LLM辅助的效益

在低难度任务中，SLM需要较少的LLM干预。在高难度任务中，LLM干预频率显著增加，表明SMART能够有效检测并仅在SLM遇到困难时提供支持。
SMART在Best-of-N策略下更频繁地进行干预，并且在必要时进行更激进的修正。在Beam Search策略下，LLM干预较少，因为Beam Search的树状结构允许单个修正自动传播到多个子路径。

4.4 成本效益分析

SMART在Beam Search策略下显著减少了LLM token的使用量，最高可达90%。在Best-of-N策略下，SMART的LLM token使用量与直接使用LLM相当。
SMART在减少LLM token使用量的同时保持了与LLM相当的准确性，尤其是在Beam Search策略下。

五、未来研究

1、LLM辅助的控制：SMART通过PRM和TLC分数间接控制LLM辅助的程度，缺乏更精细的控制，未来可以探索基于任务复杂度或计算约束的更适应性策略。

2、触发LLM辅助的策略：当前的触发策略可能不是最优的，未来可以探索更优的策略以进一步减少计算开销。

http://www.xdnf.cn/news/172423.html

相关文章：

python合并一个word段落中的run

决策树相关案例

【Node.js 】在Windows 下搭建适配 DPlayer 的轻量（简陋）级弹幕后端服务

Linux系统之设置开机启动运行桌面环境

力扣hot100_子串_python版本

Nginx配置文件介绍

机器学习day2-seaborn绘图练习

数模学习：二，MATLAB的基本语法使用

跨专业自学AI人工智能学习路线图（2025版）

Android完整开发环境搭建/Studio安装/NDK/本地Gradle下载配置/创建AVD/运行一个Android项目/常用插件

金融数据分析（Python）个人学习笔记（13）：自然语言处理

Kubernetes学习笔记-配置Service对接第三方访问

【Redis】服务端高并发分布式结构演进之路

零基础小白如何上岸数模国奖

IDEA 连接 Oracle 数据库

安卓7.0以上抓包配置--Charles

全栈自动化：从零构建智能CI/CD流水线

手搓传染病模型（SEIR）

Alibaba Cloud Linux 3.2104 LTS 64位容器优化版安装docker docker compose记录

MyBatis DTD [Element type “if“ must be declared]

Kafka HA集群配置搭建与SpringBoot使用示例总结

LeetCode -- Flora -- edit 2025-04-27

Spring AI Alibaba - MCP连接 MySQL

docker--docker的基本环境配置

Stable Diffusion 技术全景解析与行业竞争力分析

小程序发布后，不能强更的情况下，怎么通知到用户需要去更新？

图论---最大流（Dinic）

Golang 类型方法

【2025最近Java面试八股】Spring中循环依赖的问题？怎么解决的？