大模型推理革新:探索思维图(DoT)框架的逻辑与应用

姚期智院士领衔推出了大模型新推理框架,CoT的“王冠”已难以承载。

提出了思维图(Diagram of Thought,DoT),使大模型的思考方式更接近人类。

团队为这一推理过程提供了数学基础,通过拓扑斯理论(Topos Theory)对DoT进行了正式化(formalize),确保了其逻辑一致性和合理性。

图片

相比于将推理过程表示为线性序列的CoT,DoT更能捕捉人类推理的复杂性。

与引入分支结构的ToT和GoT不同,DoT不依赖外部控制机制或多个模型协作,使训练和部署更加简单。

秘诀在于,DoT将大语言模型(LLM)中的迭代推理建模为在单一模型内部构建有向无环图(DAG)。

DAG由代表命题、批评、精炼和验证的节点组成,边表示它们之间的逻辑或依赖关系,且所有边均有方向,不存在任何循环路径。

图片

这种无环特性确保推理过程不受循环依赖的影响,更真实地反映合理的逻辑推导。

在DoT的帮助下,诸如“9.11和9.8哪个大”、“strawberry中有几个‘r’”等问题都能迎刃而解。

图片

图片

值得注意的是,当前大模型中的“顶流”OpenAI o1已具备生成CoT的能力,而更强大的DoT的到来,是否意味着可以通过强化学习内化到模型中?

图片

这项研究提出后引起了广泛关注。

网友纷纷表示这是一条正确的路径。

图片

图片

具体来看DoT的结构。

大模型复杂推理新框架 

如前所述,DoT将逻辑推理过程建模为在单个LLM内构建有向无环图(DAG)。

其框架内管理着三个关键角色:

  1. 提议者:生成命题或推理步骤,添加新节点。

  2. 批评者:评估命题,识别错误、不一致或逻辑谬误,并添加批评节点。

  3. 总结者:将经过验证的命题综合成一个连贯的思维链,有效地执行DAG的拓扑排序(topological sort),以产出最终推理输出。

这三个角色通过特定token(如<proposer>、<critic>、<summarizer>)在模型输出中被明确定义。LLM在生成过程中能够在这些角色间无缝切换,利用自回归能力根据上下文预测下一个token。

图片

推理过程始于提议者引入一个命题,并向DAG添加一个节点。

随后,批评者对该命题进行评估。如果提供了批评,则会添加新节点,并在命题与批评之间建立边。

基于批评,提议者生成精炼后的命题,表示为DAG中的新节点。

这一过程会不断重复,命题经过精炼,直到得到验证。

一旦形成足够有效的命题,总结者将综合这些推理,对DAG进行拓扑排序,产生连贯的思维链。

通过让模型接触正确与错误的推理,DoT使得LLM能够从错误中学习,逐步精炼推理过程,这更接近人类的解决问题方式。

这种方法不仅捕捉了推理的非线性和迭代特性,还通过自然语言批评提供了比二元信号更为丰富的反馈。

DoT的训练使用格式化为DoT结构的训练样例,包括角色特定token和DAG表示。在推理过程中,模型根据上下文线索和角色特定token生成命题、批评和总结。

这种方法简化了部署,消除了对多个LLM协作或外部控制机制的需求,同时与标准LLM训练范式保持一致,便于集成到现有工作流程中。

作者为DoT框架提供了严谨的数学基础,利用Topos Theory对推理过程进行了形式化描述。

图片

在该框架中,命题被建模为拓扑中终端对象的子对象,逻辑关系和推理步骤用态射表示,批评与改进过程则分别对应子对象分类器的态射和命题间的态射。

通过引入PreNet范畴,他们成功捕捉了推理过程的动态和并发特性。

这种数学基础不仅确保了推理过程的逻辑一致性与完备性,还为下一代专门用于推理的AI模型设计提供了概念框架。

清华交叉信息研究院的姚期智、袁洋领衔了这篇论文,第一作者为张伊凡。

图片

张伊凡于2021年本科毕业于北京大学元培学院,现为清华大学交叉信息学院的博士研究生,师从袁洋助理教授。其研究方向包括基础模型(大语言模型)的理论与算法、自监督学习及可信人工智能。

袁洋是清华大学交叉信息学院助理教授,博士生导师,主要研究方向为智能医疗、AI可解释性及AI大系统,在非凸优化理论、神经网络优化理论及机制设计等领域有丰富的研究成果。

姚期智教授是中国科学院院士、清华大学交叉信息研究院院长,是“图灵奖”创立以来首位获奖的亚裔学者,至今唯一的华人计算机科学家。2004年,他辞去普林斯顿大学的终身教职回到清华任教,并创办了多个重要的计算机科学项目。

图片

一年前的同一时间,姚期智院士领衔提出了累积推理(Cumulative Reasoning,CR)的方法,而DoT是对CR的进一步深化。

图片

CR协调了涉及不同专业化大语言模型的迭代过程,由不同模型承担提议者、验证者和报告者的角色。而DoT则直接在单一模型内构建有向无环图,避免了外部控制机制或多个模型的依赖,训练和部署更为简便。

此外,在DoT中,模型生成的批评反馈为自然语言形式,而非CR中仅提供的二元信号,使模型能够接收到关于错误的详细解释,更有效地改进命题。

这次DoT还引入了强有力的数学基础,阐明了推理过程与范畴逻辑的关系,理论上确保了推理的一致性与可靠性。

论文链接:https://arxiv.org/abs/2409.10038

参考链接:
[1]https://x.com/omarsar0/status/1835882277563179512
[2]https://hub.baai.ac.cn/users/16897
[3]https://hub.baai.ac.cn/users/19790

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/149890.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

分享6个icon在线生成网站,支持AI生成

在这个数字化的时代&#xff0c;创意和视觉标识在产品推广中可谓是愈发重要。提到图标&#xff0c;我们就不能不聊聊“Icon”这个小家伙。它不仅仅是个简单的视觉元素&#xff0c;简直是品牌信息的超级传递者。因此&#xff0c;图标生成器成了设计界的“万金油”&#xff0c;帮…

教授【优青】团队亲自指导-图解表观遗传学 | 组蛋白修饰!专业实验设计、数据分析、SCI论文辅助等全方位服务。精准高效,为农植物科研保驾护航!

教授【优青】团队亲自指导&#xff01;提供专业实验设计、数据分析、SCI论文辅助等全方位服务。精准高效&#xff0c;为医学科研保驾护航&#xff01; 专业实验外包服务&#xff0c;一站式解决您的所有需求&#xff1b; 还在犹豫&#xff1f;别让您的科研和论文停滞不前&#…

什么是前端开发 ?

每当我们访问网页时&#xff0c;为什么会有这么多样的图片、视频、动画、各种各样的元素呢&#xff1f;下面将为你揭晓&#xff01; 一、 前端世界的基石 一切始于用户在浏览器地址栏输入一串字符&#xff0c;敲下回车。看似简单的动作&#xff0c;却开启了一段奇妙的旅程。 …

OmniPeek 空口抓包软件使用指导

OmniPeek 空口抓包软件使用指导 1 前置条件 PC机一台和TP_LINK(TL-WDN7200H)网卡一个 Omnipeek安装成功&#xff0c;TL-WDN7200H网卡驱动安装并设置成功 网卡插入到PC机的USB口 2 启动Omnipeek 3 打开Omnipeek 启动后打开Capture—Start Capture 注意网卡选择802.11的 4…

9月25日微语报,星期三,农历八月廿三

9月25日微语报&#xff0c;星期三&#xff0c;农历八月廿三&#xff0c;工作愉快&#xff0c;生活喜乐&#xff01; 一份微语报&#xff0c;众览天下事&#xff01; 1、多地响应取消普通与非普通住宅标准&#xff1a;降低居民购房成本&#xff0c;支持改善性需求。 2、中国将…

今日早报 每日精选15条新闻简报 每天一分钟 知晓天下事 9月25日,星期三

每天一分钟&#xff0c;知晓天下事&#xff01; 2024年9月25日 星期三 农历八月廿三 1、 央行宣布&#xff1a;存量房贷利率下调约0.5个百分点&#xff0c;二套房最低首付比例15%。 2、 央行近期将下调存款准备金率0.5个百分点&#xff0c;向金融市场提供长期流动性约1万亿元…

Redis 分布式缓存服务(集群)

作者&#xff1a;程序那点事儿 日期&#xff1a;2023/11/17 13:05 准备6台虚拟机&#xff0c;ip分别是 192.168.10.101 192.168.10.102 192.168.10.103 192.168.10.104 192.168.10.105 192.168.10.106 创建6个节点 mkdir -p /usr/local/cluster/redis-node1 #对应192.168.10.…

阿里云函数计算 x NVIDIA 加速企业 AI 应用落地

作者&#xff1a;付宇轩 前言 阿里云函数计算&#xff08;Function Compute, FC&#xff09;是一种无服务器&#xff08;Serverless&#xff09;计算服务&#xff0c;允许用户在无需管理底层基础设施的情况下&#xff0c;直接运行代码。与传统的计算架构相比&#xff0c;函数…

ffmpeg解封装解码

文章目录 封装和解封装封装解封装 相关接口解封装的流程图关于AVPacket的解释如何区分不同的码流&#xff0c;视频流&#xff0c;音频流&#xff1f;第一种方式av_find_best_stream第二种方式 通过遍历流 代码 封装和解封装 封装 是把音频流 &#xff0c;视频流&#xff0c;字…

LeetCode题练习与总结:删除链表中的节点--237

一、题目描述 有一个单链表的 head&#xff0c;我们想删除它其中的一个节点 node。 给你一个需要删除的节点 node 。你将 无法访问 第一个节点 head。 链表的所有值都是 唯一的&#xff0c;并且保证给定的节点 node 不是链表中的最后一个节点。 删除给定的节点。注意&…

实例讲解电动汽车驱动扭矩控制策略及Simulink建模方法

电动汽车完成上电后进入Ready状态&#xff0c;此时车辆具备行车条件&#xff0c;处于行车准备状态。驾驶员挂挡&#xff08;D挡或R挡&#xff09;后&#xff0c;踩油门踏板即可控制车辆开始行车。对于电动汽车来说&#xff0c;驱动行车控制过程一般为&#xff0c;VCU接收Ready状…

高侧电流检测电路设计

1 简介 此单电源、高侧、低成本、电流检测解决方案可以检测 50mA 和 1A 之间的负载电流&#xff0c;并将其转换为 0.25V至 5V 的输出电压。高侧检测使系统能够识别接地短路&#xff0c;并且不会对负载造成接地干扰。 2 设计目标 2.1 输入 2.2 输出 ​​​ 2.3 电…

轴承介绍以及使用

轴承&#xff08;Bearing&#xff09;是在机械传动过程中起固定、旋转和减小载荷摩擦系数的部件。也可以说&#xff0c;当其它机件在轴上彼此产生相对运动时&#xff0c;用来降低运动力传递过程中的摩擦系数和保持转轴中心位置固定的机件。 轴承是当代机械设备中一种举足轻重的…

在java中怎么把对象转换成json,可以使用jackson

简述 在Spring Boot应用中&#xff0c;将Java对象转换为JSON字符串通常有两种主要方法&#xff1a;使用Jackson库或使用Gson库。由于Spring Boot默认集成了Jackson库&#xff0c;所以我们将重点介绍如何使用Jackson来进行对象到JSON的转换。 第1步&#xff1a;Maven添加依赖 …

STM32 Modbus主从站实例程序-FreeRTOS

资料下载地址&#xff1a;STM32 Modbus主从站实例程序-FreeRTOS​​​​​​​ 基本设置 启用Freertos,添加任务 设置中断优先级 设置长生成MDK工程 工程里面添加Modbus库 修改main.c 修改freertos.c 编译下载到单片机,完美运行

深入解析 helpTransfer 方法:多线程协作中的哈希表扩容

文章目录 什么是哈希表哈希表的问题&#xff1a;扩容扩容的挑战扩容的原理helpTransfer 方法检查是否正在扩容生成扩容标记并检查条件判断是否需要更多线程帮助加入搬家工作返回新表或旧表 什么是哈希表 哈希表&#xff08;HashMap&#xff09;是一种常用的数据结构&#xff0…

熬夜2月,终成人人可自建的AI网站

一、前言 自小码哥AI上线以来&#xff0c;备受粉丝们的关注&#xff0c;拖更了两个月&#xff0c;每日加班加点研发系统&#xff0c;2.0终于上线了。 作为一名年过三十的程序员&#xff0c;我深刻体会到了职场的残酷和不确定性&#xff0c;特别是这两年&#xff0c;经济不景气…

ROS理论与实践学习笔记——2 ROS通信机制之服务通信

服务通信也是ROS中一种极其常用的通信模式&#xff0c;服务通信是基于请求响应模式的&#xff0c;是一种应答机制。也即: 一个节点A向另一个节点B发送请求&#xff0c;B接收处理请求并产生响应结果返回给A&#xff0c;用于偶然的、对时时性有要求、有一定逻辑处理需求的数据传输…

基于Java语言的桩底层直连协议和云快充协议

‌云快充协议‌是一种标准通信协议&#xff0c;主要用于电动车与充电桩之间的数据交换。该协议包含了充电请求、状态查询、支付等多个功能模块&#xff0c;这些功能的实现不仅需要对协议进行深入理解&#xff0c;还需要编写相应的代码进行封装。云快充协议旨在解决市场上快充标…

【C++前缀和 状态压缩】1177. 构建回文串检测|1848

本文涉及的基础知识点 C算法&#xff1a;前缀和、前缀乘积、前缀异或的原理、源码及测试用例 包括课程视频 位运算、状态压缩、枚举子集汇总 LeetCode 1177. 构建回文串检测 难度分&#xff1a;1848 给你一个字符串 s&#xff0c;请你对 s 的子串进行检测。 每次检测&#x…