【LLM】OpenAI o1模型和相关技术

Note

  • OpenAI o1 模型中推理过程的工作原理
    • 1、o1模型引入了reasoning tokens。这些token用于"思考",帮助模型分解对提示的理解,并考虑生成回应的多种方法。
    • 2、在生成推理token后,模型会产生一个可见的完成token作为答案,同时从上下文中丢弃推理token。
  • OpenAI o1 运用的技术关键还是在于强化学习的搜索与学习机制,基于 LLM 已有的推理能力,迭代式的 Bootstrap 模型产生合理推理过程(Rationales) 的能力,并将 Rationales 融入到训练过程内,让模型学会进行推理,而后再运用足够强大的计算量实现 Post-Training 阶段的 Scaling。类似于 STaR [1] 的扩展版本。
    • 注意这里合理推理过程并不只是对问题的拆解和分步作答,还有对于为什么如此作答的分析和思考。
  • 三个技术要点:
    • 后训练扩展律 Post-Training Scaling Laws 已经出现,并且 Post-Training Scaling Laws 为上述技术路径的成功提供了有力支持。
    • 模型学习的是产生合理推理的过程,MCTS 在其中的作用是诱导合理推理过程的产生或构建相应的偏序对形成细粒度奖励信号,而非直接搜索过程和最终答案。
    • 模型的 BootStrap 有助于构建新的高质量数据,并且新的 Rationales 数据促进了模型进一步提升能力。

文章目录

  • Note
  • 一、Openai o1模型效果
  • 二、合理使用强化学习的探索
    • 1. 思维链(Chain of Thought, CoT)
    • 2. Quiet-STaR:内部思维
    • 3. 内容总结
  • 三、Openai o1的影响
  • 四、Openai o1技术报告的思维导图
  • Reference

一、Openai o1模型效果

最新的发布的 OpenAI o1 在数学代码等复杂推理能力上取得巨大进步,在竞争性编程问题 (Codeforces) 中排名第 89 个百分位,在美国数学奥林匹克竞赛 (AIME) 资格赛中跻身美国前 500 名学生之列,在物理、生物和化学问题的基准 (GPQA) 上超过了人类博士水平的准确性。
关键:Post-Training 阶段 RL 计算量的 Scaling 和测试推理阶段思考时间的 Scaling。

在这里插入图片描述

在这里插入图片描述

二、合理使用强化学习的探索

1. 思维链(Chain of Thought, CoT)

通过思维链(Chain of Thought, CoT)优化模型输出。CoT 通过分步推理的方式,要求模型在生成最终答案之前,先生成一系列中间推理步骤。这种 “思考链” 的生成过程有助于增强模型的推理能力,尤其在数学和代码生成等任务中表现出色。

2. Quiet-STaR:内部思维

可能得两种做法:

  • 学习合理的中间推理过程 Rationales:包括在 Token 级别或子句级别提供奖励信号,帮助模型调整生成的回答。这些方法如蒙特卡洛树搜索(MCTS),将输出建模为一系列节点,这些节点可以是 Token 级别或句子级别。例如:
    • Token 级别的节点:每个节点对应生成序列中的一个 Token。通过 MCTS,模型可以探索不同的 Token 序列,最终生成更连贯的响应。
    • 句子级别的节点:在复杂推理任务中,每个节点可以代表一个完整的句子或推理步骤,帮助模型更好地处理多步推理任务。
  • 思维链(Chain of Thought, CoT)优化模型输出:针对 STaR 的局限性,Quiet-STaR [7] 提出 “内部思维” 的概念,将显式的 Rationales(中间 CoT 推理过程) 推理过程转化为模型内部隐式的推理过程,从而摆脱对于外部示例的依赖。

STaR 的核心思路是利用 LLM 已有的推理能力,迭代式的 Bootstrap 模型产生合理推理过程(Rationales) 的能力,并将 Rationales 融入到训练过程内,让模型学会进行推理。
在这里插入图片描述

Quiet-STaR:

  • 引入可学习的 <|startofthought|><|endofthought|> token 来标记思维的开始和结束。
  • Quiet-STaR 还实现了在更一般文本上的推理学习,这意味着大量复杂任务下的非结构化语料(如医疗、金融等领域)都可以被加入学习过程。同时利用带推理过程的结果与真实结果的分布差异引入奖励信号,通过 REINFORCE 的方法优化生成的推理,使得基于这些推理的模型预测未来的 tokens 更为准确。
    在这里插入图片描述

就目前来看,STaR 和 Quiet-STaR 是最接近 o1 的技术路线和模型表现效果的,但是如果想要进一步达到 OpenAI o1 的效果,还需要克服很多问题。

3. 内容总结

  • RL + “隐式思维链”:o1 模型使用 RL 进行训练,通过引入动态的 Reasoning Token,从而启发 “隐式思维链” 来 “思考” 问题,思考时间越长,推理能力越强!
  • 推理时间 = 新的扩展维度:o1 模型的发布,意味着 AI 能力的提升不再局限于预训练阶段,还可以通过在 Post-Training 阶段中提升 RL 训练的探索时间和增加模型推理思考时间来实现性能提升,即 Post-Training Scaling Laws。
  • 数据飞轮 + Bootstrap -> SuperIntelligence : 基于自我反思的模型将能够实现自举 Bootstrap,并提升大大提升模型对于未见过的复杂问题的解决能力,模型的推理过程形成大量高质量数据的飞轮,并最终有可能向 SuperIntelligence 更进一步。

三、Openai o1的影响

基于把Cot能力拉满,(可能用RL让COT稳定,不出太多dummy和错误的内容),认知能力的提升体现在:
1、解决复杂数学问题
2、基于复杂逻辑的编程任务
3、多步骤条件推理任务
4、其他基于逻辑的任务,比如逻辑创作能力。

对于提示词工程的影响:o1 模型无需复杂的提示词(提示词工程师又不存在了?)
1、新版o1 内置了Agent和思维链,能自主判断思考结果的正确性,无需人工添加思维链。
2、o1 善于提供清晰指令,用更精简的提示词和检索上下文解决问题。可使用Lisp等语言进行分隔,使层次更分明(虽然不用应该可以达到同样效果)
3、许多原本需要拆解为多步骤Agent工作流的任务,现在可能通过一个API调用就能完成。

思考对于AI产品设计,转变:
应用场景可能从实时协作/聊天机器人转向更多异步或本质上就很复杂的多步骤任务处理(用户愿意为此付出更高成本)。例如:
1、取代QA/管理系统:编写全面的长期用例或企业后台管理。
2、为游戏开发者、竞赛组织者、科研人员设计实验或模拟环境。
3、让类人机器人执行一些人类难以生存环境中的任务(具身智能的突破)。
4、异步处理复杂代码库的重构,解决团队技术债务问题。
5、理解整个代码库,实现自动化的测试覆盖率提升、工具链开发、代码审查。

使用方面:
在这里插入图片描述

四、Openai o1技术报告的思维导图

请添加图片描述

Reference

[1] STaR: Bootstrapping Reasoning With Reasoning https://arxiv.org/abs/2203.14465
[2] LLM Critics Help Catch LLM Bugshttps://arxiv.org/pdf/2407.00215
[3] Self-critiquing models for assisting human evaluatorshttps://arxiv.org/pdf/2206.05802
[4] OpenAI o1 System Cardhttps://assets.ctfassets.net/kftzwdyauwt9/67qJD51Aur3eIc96iOfeOP/71551c3d223cd97e591aa89567306912/o1_system_card.pdf
[5] Scaling LLM Test-Time Compute Optimally can be More Effective than Scaling Model Parametershttps://arxiv.org/abs/2408.03314
[6] Training Verifiers to Solve Math Word Problems https://arxiv.org/pdf/2110.14168[
7] Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking https://arxiv.org/abs/2403.09629
[8] AI Control: Improving Safety Despite Intentional Subversion https://arxiv.org/abs/2312.06942
[9] Sycophancy to Subterfuge: Investigating Reward Tampering in Language Models https://arxiv.org/abs/2406.10162
[10] AI Alignment: A Comprehensive Survey https://arxiv.org/abs/2310.19852
[11] 北大对齐团队独家解读:OpenAI o1开启「后训练」时代强化学习新范式
[12] 280页PDF,全方位评估OpenAI o1,Leetcode刷题准确率竟这么高
[13] OpenAI o1 技术报告发布!快来学习

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1555258.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Redis:zset类型

Redis&#xff1a;zset类型 zset命令ZADDZCARDZCOUNTZRANGEZREVRANGEZRANGEBYSCOREZREVRANGEBYSCOREZPOPMAXBZPOPMAXZPOPMINBZPOPMINZRANKZREVRANKZSCOREZREMZREMRANGEBYRANKZREMRANGEBYSCOREZINCRBY 集合间操作ZINRERSTOREZUNIONSTORE 内部编码ziplistskiplist 在Redis中&…

【AIGC】ChatGPT提示词Prompt助力自媒体内容创作升级

博客主页&#xff1a; [小ᶻZ࿆] 本文专栏: AIGC | ChatGPT 文章目录 &#x1f4af;前言&#x1f4af;高效仿写专家级文章提示词使用方法 &#x1f4af;CSDN博主账号分析提示词使用方法 &#x1f4af;自媒体爆款文案优化助手提示词使用方法 &#x1f4af;小结 &#x1f4af…

02基础篇:667的大题题型与应对策略

通过本节&#xff0c;你将学习到&#xff1a; 667分析题的考查方向与基本题型667分析题的两种解决策略 667分析题的三大基本题型 首先&#xff0c;通过回顾667科目分析题的真题&#xff08;2021-2024年&#xff09;&#xff0c;我根据题目特点将其归纳为三个主要类别。这样的…

【JavaWeb】javaweb目录结构简介【转】

以上图说明&#xff1a; bbs目录代表一个web应用bbs目录下的html,jsp文件可以直接被浏览器访问WEB-INF目录下的资源是不能直接被浏览器访问的web.xml文件是web程序的主要配置文件所有的classes文件都放在classes目录下jar文件放在lib目录下

Linux Cent7 已安装MySQL5.7.X,再安装MYSQL8.4.2

一、 下载安装 检查Linux系统的glibc版本rpm -qa | grep glibc结果&#xff1a;glibc-common-2.17-260.el7_6.6.x86_64 glibc-2.17-260.el7_6.6.x86_64 glibc-headers-2.17-260.el7_6.6.x86_64 glibc-devel-2.17-260.el7_6.6.x86_64访问MySQL官网&#xff0c;下载对应版本数据…

华为 HCIP-Datacom H12-821 题库 (32)

&#x1f423;博客最下方微信公众号回复题库,领取题库和教学资源 &#x1f424;诚挚欢迎IT交流有兴趣的公众号回复交流群 &#x1f998;公众号会持续更新网络小知识&#x1f63c; 1.当一个运行 MSTP 协议的交换设备端口收到一个配置BPDU 时&#xff0c;会与设备保存的全局配…

CF D. Minimize the Difference

原题链接&#xff1a;Problem - D - Codeforces 题意&#xff1a;给你长度为n的数组&#xff0c;可以无限次的让i位置的数-1&#xff0c;让i1的位置的数1。问最大值-最小值的最小值是多少&#xff1f; 思路&#xff1a;可以观察出&#xff0c;操作的真正意义是让i位置的数减少…

数字乡村智慧乡镇整体规划设计解决方案

1. 数字乡村的重要性 数字乡镇作为乡村振兴战略的一部分&#xff0c;通过信息化手段提高农业农村现代化水平&#xff0c;是建设数字中国的重要内容&#xff0c;对保障扶贫成果、促进乡村治理体系和治理能力现代化具有基础支撑作用。 2. 乡镇政府和农户面临的问题 乡镇政府和…

Linux 之 安装软件、GCC编译器、Linux 操作系统基础

安装软件、GCC编译器、Linux 操作系统基础 学习任务&#xff1a; 安装 Vmware虚拟机、掌握Ubuntu 系统的使用认识 Ubuntu 操作系统的终端和 Shell掌握软件安装、文件系统、掌握磁盘管理与解压缩掌握 VIM 编辑器、Makefile 基本语法熟悉 Linux 常见指令操作 安装好开发软件&…

电源管理芯片PMIC

一、简介 电源管理芯片&#xff08;Power Management Integrated Circuits&#xff0c;简称PMIC&#xff09;是一种集成电路&#xff0c;它的主要功能是在电子设备系统中对电能进行管理和控制&#xff0c;包括但不限于以下几点&#xff1a; 电压转换&#xff1a;将电源电压转换…

IndexTree、AC自动机

一、引言。 IndexTree和线段树有一些联系&#xff0c;这里我们再重新解释一下线段树用来解决什么样的一个问题&#xff0c;线段树解决的是一个区间查询和区间更新的一个问题&#xff0c;比如说我有一个数组在 L....R 上统一加上V&#xff0c;或者在L.....R上&#xff0c;统一所…

硬件设计-利用环路设计优化PLL的输出性能

目录 前言 问题描述 问题分析步骤 杂散源头排查 245.76M 参考相噪&#xff1a; 30.72M VCXO的相噪性能测试如下: 解决方案 前言 LMK04832是TI 新发布的低抖动双环去抖模拟时钟&#xff0c; 其最高输出频率可以到达3250MHz&#xff0c; 输出抖动极低&#xff0c;3200MHz…

Sentinel学习

系列文章目录 JavaSE基础知识、数据类型学习万年历项目代码逻辑训练习题代码逻辑训练习题方法、数组学习图书管理系统项目面向对象编程&#xff1a;封装、继承、多态学习封装继承多态习题常用类、包装类、异常处理机制学习集合学习IO流、多线程学习仓库管理系统JavaSE项目员工…

Linux基本命令及vim应用实训练习

Linux基本命令及vim应用实训练习 1. 2. 3. 4. 5. 使用man cp找出

序列化与反序列化基础及反序列化漏洞(附案例)

参考文章&#xff1a; [web安全原理]PHP反序列化漏洞 - 笑花大王 - 博客园 (cnblogs.com) 一、概念 为了能有效的存储数据而不丢失数据的类型和内容&#xff0c;经常需要通过序列化对数据进行处理&#xff0c;将数据进行序列化后&#xff0c;会生成一个字符串&#xff0c;字符…

linux安装minianconda

文章目录 我的配置从清华镜像源里下载minianaconda安装自定义安装位置是否关闭打开终端默认进入anaconda的设置&#xff1f;&#x1f315;配置清华镜像源 我的配置 ubuntu 22.04LTS 从清华镜像源里下载minianaconda https://mirrors.tuna.tsinghua.edu.cn/anaconda/minicond…

带你深入浅出设计模式:七、代理模式:设计模式中的中间人

此为设计模式第七谈&#xff01; 用总-分-总的结构和生活化的例子给你讲解设计模式&#xff01; 码农不易&#xff0c;各位学者学到东西请点赞收藏支持支持&#xff01; 开始部分&#xff1a; 总&#xff1a;代理模式为其他对象提供一个代理来控制这个对象的访问&#xff0c…

openpnp - 坐标文件中的元件0角度如果和编带规定的角度不一样,需要调整贴片任务中的元件旋转角度

文章目录 openpnp - 坐标文件中的元件0角度如果和编带规定的角度不一样&#xff0c;需要调整贴片任务中的元件旋转角度笔记查看自己图纸中的封装的0角度方法贴片任务的角度值范围编带规定的0角度根据编带规定的元件0角度来调整贴片的元件旋转角度如果是托盘飞达备注备注END ope…

Python并发编程(3)——Python多线程详解介绍

左手编程&#xff0c;右手年华。大家好&#xff0c;我是一点&#xff0c;关注我&#xff0c;带你走入编程的世界。 公众号&#xff1a;一点sir&#xff0c;关注领取python编程资料 Python 的多线程入门是非常简单的&#xff0c;直接导入threading模块就可以开始多线程之旅了。模…

弧形导轨驱动器高效使用技巧!

弧形导轨驱动器是一种用于驱动滑座沿着导轨做弧线运动的设备&#xff0c;其用方法因具体型号和应用场景的不同而有所差异&#xff0c;通常可以归纳为以下几个步骤&#xff1a; 1、安装前要明确弧形导轨的使用需求&#xff0c;根据需求选择合适的弧形导轨驱动器&#xff0c;准备…