当前位置: 首页 > news >正文

SMART:大模型在关键推理步骤辅导小模型,在保持高推理效率的同时,显著提升小模型的推理能力!!

摘要:小型语言模型(SLM)的推理能力有限,这使得人们对其是否适合需要深度、多步骤逻辑推理的任务产生了怀疑。本文介绍了一种名为“小理由,大提示”(SMART)的框架,该框架通过从大型语言模型(LLM)中选择性地提供针对性指导来增强SLM的推理能力。SMART受到认知脚手架概念的启发,通过基于评分的评估来识别不确定的推理步骤,并且只在必要时注入由LLM生成的纠正性推理内容。通过将结构化推理视为一种最优策略搜索,我们的方法能够在不进行穷尽采样的情况下,引导推理轨迹走向正确答案。我们在数学推理数据集上的实验表明,针对性的外部辅助显著提高了性能,为SLM和LLM的协作使用铺平了道路,使其能够共同解决目前SLM单独无法解决的复杂推理任务。

本文目录

一、背景动机

二、核心贡献

三、实现方法

3.1 SLM生成推理草稿

3.2 基于分数的步骤评估

3.3 LLM基于步骤修正

3. 4 终止条件

3.5 测试时间计算扩展

四、实验结果

4.1 实验设置

4.2 性能提升

4.3 LLM辅助的效益

4.4 成本效益分析

五、未来研究


一、背景动机

论文题目:Guiding Reasoning in Small Language Models with LLM Assistance

论文地址:https://arxiv.org/pdf/2504.09923v1

当前大模型在需要多步逻辑推理的任务中表现出色,然而小模型SLMs(Small Language Models)由于参数容量有限,虽然推理效率高,但通常难以处理复杂的推理任务,这限制了它们在需要深度逻辑推导的场景中的应用。

该文章提出SMART(Small Reasons, Large Hints)框架,通过在关键决策点提供LLM的辅助,来提升SLMs的推理能力,使其能够处理原本无法解决的复杂推理任务。

二、核心贡献

1、提出了SMART框架,其通过选择性地将LLM生成的推理步骤整合到SLM的推理过程中,以提升SLM的推理能力。

2、在数学推理数据集上进行的实验表明,SMART能够显著提升SLM的性能,使其能够解决原本无法解决的复杂推理问题。

3、文章详细分析了在何种情况下LLM辅助最为有益,为混合推理系统提供了思路。

三、实现方法

3.1 SLM生成推理草稿

  • 输入:给定一个查询 Q。

  • 过程:SLM自回归地生成一个初始推理轨迹 R=(r1​,r2​,…,rm​),其中每个 ri​ 是一个中间推理步骤。

  • 输出:生成的推理过程 R。

3.2 基于分数的步骤评估

  • 评分函数:为每个生成的推理步骤r_i分配一个分数 s(r_i|Q,r<i),用于评估其可靠性。

    • PRM分数:使用预训练的奖励模型(Process Reward Model, PRM)评估每个步骤的正确性。

    • Token级置信度(TLC):计算每个步骤中每个token的平均置信度。

  • 阈值判断:如果分数 s 低于预设阈值 τ,则认为该步骤不可靠,需要LLM的辅助。

3.3 LLM基于步骤修正

  • LLM干预:如果步骤 r_i 的分数低于阈值 τ,则用LLM生成的替代步骤 ^{​{r_i{}}^{'}} 替换它

  • 保留SLM步骤:如果步骤的分数高于阈值,则保留SLM生成的步骤。

3. 4 终止条件

  • EOS标记:如果生成了结束标记(EOS),则停止推理。

  • 最大token长度:如果累积的token数量超过预设的最大值 Lmax​,则停止推理。

3.5 测试时间计算扩展

  • Best-of-N:生成多个推理路径,并独立应用SMART框架。每个路径中的低分节点被LLM生成的替代步骤替换。

  • Beam Search:在每个推理步骤中保留前 M 个候选序列。如果任何候选节点的分数低于阈值 τ,则用LLM生成的替代步骤替换。

四、实验结果

4.1 实验设置

  • 数据集:MATH500数据集,包含500个数学问题,涵盖不同难度级别。

  • 模型:Qwen2.5-1.5B和Qwen2.5-7B,以及Llama3.2-1B和Llama3.2-8B。

  • 评分方法:PRM分数和TLC分数。

  • 评估指标:Weighted@N,选择最高总奖励的答案。

4.2 性能提升

  • SMART在所有设置中均优于SLM基线,并且随着测试时间计算的增加,SMART的性能迅速接近LLM水平。

  • 在单步生成(N=1)的情况下,SMART已经提供了明显的准确性提升。如在N=1时,SMART将Qwen2.5-1.5B的准确率从66.85%提升到79.79%。

  • 随着N的增加,SMART的性能进一步提升,尤其是在更复杂的任务中。如在N=16时,SMART将Qwen2.5-1.5B的准确率提升到91.85%,接近Qwen2.5-7B的94.85%。

4.3 LLM辅助的效益

  • 在低难度任务中,SLM需要较少的LLM干预。在高难度任务中,LLM干预频率显著增加,表明SMART能够有效检测并仅在SLM遇到困难时提供支持。

  • SMART在Best-of-N策略下更频繁地进行干预,并且在必要时进行更激进的修正。在Beam Search策略下,LLM干预较少,因为Beam Search的树状结构允许单个修正自动传播到多个子路径。

4.4 成本效益分析

  • SMART在Beam Search策略下显著减少了LLM token的使用量,最高可达90%。在Best-of-N策略下,SMART的LLM token使用量与直接使用LLM相当。

  • SMART在减少LLM token使用量的同时保持了与LLM相当的准确性,尤其是在Beam Search策略下。

五、未来研究

1、LLM辅助的控制:SMART通过PRM和TLC分数间接控制LLM辅助的程度,缺乏更精细的控制,未来可以探索基于任务复杂度或计算约束的更适应性策略。

2、触发LLM辅助的策略:当前的触发策略可能不是最优的,未来可以探索更优的策略以进一步减少计算开销。

http://www.xdnf.cn/news/172423.html

相关文章:

  • python合并一个word段落中的run
  • 决策树相关案例
  • 【Node.js 】在Windows 下搭建适配 DPlayer 的轻量(简陋)级弹幕后端服务
  • Linux系统之设置开机启动运行桌面环境
  • 力扣hot100_子串_python版本
  • Nginx配置文件介绍
  • 机器学习day2-seaborn绘图练习
  • 数模学习:二,MATLAB的基本语法使用
  • 跨专业自学AI人工智能学习路线图(2025版)
  • Android完整开发环境搭建/Studio安装/NDK/本地Gradle下载配置/创建AVD/运行一个Android项目/常用插件
  • 金融数据分析(Python)个人学习笔记(13):自然语言处理
  • Kubernetes学习笔记-配置Service对接第三方访问
  • 【Redis】服务端高并发分布式结构演进之路
  • 零基础小白如何上岸数模国奖
  • IDEA 连接 Oracle 数据库
  • 安卓7.0以上抓包配置--Charles
  • ​​全栈自动化:从零构建智能CI/CD流水线​
  • 手搓传染病模型(SEIR)
  • k8s的volume
  • Alibaba Cloud Linux 3.2104 LTS 64位 容器优化版安装docker docker compose记录
  • MyBatis DTD [Element type “if“ must be declared]
  • Kafka HA集群配置搭建与SpringBoot使用示例总结
  • LeetCode -- Flora -- edit 2025-04-27
  • Spring AI Alibaba - MCP连接 MySQL
  • docker--docker的基本环境配置
  • Stable Diffusion 技术全景解析与行业竞争力分析
  • 小程序发布后,不能强更的情况下,怎么通知到用户需要去更新?
  • 图论---最大流(Dinic)
  • Golang 类型方法
  • 【2025最近Java面试八股】Spring中循环依赖的问题?怎么解决的?