​OpenAI最强模型o1系列:开启人工智能推理新时代

前不久OpenAI发布全新模型——o1模型,也就是业界说的“草莓模型”,包含三款型号:OpenAI o1、OpenAI o1-preview和OpenAI o1-mini。

图片

其中,OpenAI o1-mini和 o1-preview已经对用户开放使用:

OpenAI o1:高级推理模型,暂不对外开放;

OpenAI o1-preview:这个版本更注重深度推理处理,每周可以使用50条;

OpenAI o1-mini:这个版本更高效、划算,适用于编码任务,每天都能使用50条。

不过,从OpenAI文章中的附录来看,这次放出的preview和mini似乎都只是o1的阉割版,OpenAI o1更加值得期待。

o1模型推理能力大幅提升

对于为什么不用过去GPT系列命名,而是重新起了一个o系列,OpenAI的首席研究官鲍勃·麦格鲁(Bob McGrew)在一次采访中透露,“o1”这个名字是为了表示“将计数器重置为1”。这意味着OpenAI希望通过这个模型,重新定义人工智能的推理能力,开启一个新的纪元。

根据OpenAI的技术报告显示:

编程方面,模型在Codeforces竞赛上超过了83%的专业人员,要知道这是个很厉害的竞赛;

数学方面,以2024年的美国数学邀请赛为测试集,o1单次生成可解决74%的问题,多次生成后进一步提升正确率到83%,而GPT-4只能解决12%的问题;

科学方面,模型GPQA Dimond测试集正确率78%,超越人类专家70%水平。

图片

和之前的大语言模型相比,全新的o1系列,在复杂推理上的性能又提升到了一个全新级别,主要体现在数据分析、数学和编程方面,可以说拥有了真正的通用推理能力。

图片

OpenAI称,这是它目前为止推理能力最好的模型,下一个模型将在物理、化学和生物学方面达到与博士生接近的水平。

o1模型背后的原理

OpenAI的研究负责人杰里·特沃瑞克(Jerry Tworek)表示,o1背后的训练与前代产品有本质区别。他透露,o1“采用了全新的优化算法和专门为其定制的新训练数据集”。这种新的训练方法,使得o1在处理复杂推理任务时,能够更加准确和高效。

OpenAI的o1模型在设计之初就瞄准了复杂推理任务,这些任务通常需要模型具备高度的逻辑推理能力和深度学习能力。为了实现这一目标,OpenAI采用了强化学习(Reinforcement Learning, RL)作为其核心训练方法。通过强化学习,o1学会了识别并纠正自己的错误,并将复杂的步骤分解为更简单的步骤。在当前方法不起作用时,它还会尝试不同的方法。这个过程显著提高了模型的推理能力。

在OpenAI o1发布后不久,其团队组织了一个 AMA(Ask Me Anything)的活动,团队通过社交媒体下的评论和用户互动。国外网友已经整理了AMA的核心内容,下面做下分享,帮助大家更全面的了解o1系列模型:

01

o1模型的大小和性能

o1-mini比o1-preview小得多且更快,因此未来将提供给免费用户;

o1-preview是o1模型的早期检查点,既不大也不小;

o1-mini在STEM任务中表现更好,但世界知识有限;

与o1-preview相比,o1-mini在某些任务上表现更好,尤其是在代码相关任务中;

与o1-preview相比,o1-mini在某些任务上表现更好,尤其是在代码相关任务中;

o1的输入Tokent算方式与GPT-4o相同,使用相同的分词器;

o1-mini可以比o1-preview探索更多思维链。

02

输入Token上下文和模型能力

更大的输入上下文即将为o1模型提供;

 o1模型能够处理更长、更开放的任务,较少需要像GPT-4o那样进行输入分块;

o1可以在给出答案之前生成长推理链,这不同于之前的模型;

当前无法在链式推理(CoT)过程中暂停推理以添加更多上下文,但正在为未来模型探索此功能。

03

工具、功能和即将推出的特性

o1-preview目前还不使用工具,但计划支持函数调用、代码解释器和浏览;

工具支持、结构化输出和系统提示将在未来更新中添加;

用户最终可能会获得对思考时间和Token限制的控制权;

正在计划启用流式传输并在API中考虑推理进展;

多模态能力内置于o1中,旨在在诸如MMMU等任务中达到最先进的表现。

04

链式推理(CoT)

o1在推理过程中生成隐藏的推理链;

目前没有计划向API用户或ChatGPT公开CoT Token;

CoT Token被总结,但无法保证其完全忠实于实际推理过程;

提示词中的指令可以影响模型如何思考问题;使用强化学习(RL)改进了o1的链式推理性能,GPT-4o无法仅通过提示词匹配其COT表现;

思维阶段看起来较慢,因为它总结了思维过程,但生成答案的速度通常更快。

05

模型开发和研究见解

o1通过强化学习训练以实现推理性能;

该模型在诗歌等横向任务中展现了创造性思维和强大的表现;

o1的哲学推理和泛化能力 (例如破译密码)令人印象深刻;

研究人员使用o1创建了一个GitHub机器人,该机器人可以提醒正确的CODEOWNERS进行代码审查;

在内部测试中,o1通过对自己提出困难问题来评估其能力;

正在添加广泛的世界领域知识,未来版本会有所改进;

计划为未来迭代的o1-mini提供更新的数据 (当前截至2023年10月)。

06

提示技巧和最佳实践

o1受益于提供边界情况或推理风格的提示技巧;

与早期模型相比,o1模型对提示中的推理线索更为敏感;

在检索增强生成(RAG)中提供相关的上下文可以改善性能;不相关的部分可能会削弱推理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/145341.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

拥塞控制算法的 rtt 公平性

我强调过,拥塞控制的核心在公平可用性,公平性由 buffer 动力学保证,而 buffer 动力学有两种表现形式: buffer 占比决定带宽占比,以 aimd 为例;带宽越小,buffer 挤兑加速比越大,以 b…

AI Agent的20个趋势洞察

结论整理自【QuestMobile2024 AI智能体应用洞察半年报】: AI原生应用(APP)一路高歌;豆包用户突破3000万;TOP10 APP以综合类应用为主。无论何种类型的AIGC APP都以智能体为“抓手”,专注于解决各种细分场景中的问题&am…

Opencv+Cuda编译的保姆级别教程

OpencvCuda编译的保姆级别教程 一、环境总览二、环境准备2.1 opencv和opencv扩展2.2 cuda环境下载2.2.1 首先电脑要有英伟达的显卡2.2.2 然后查看显卡驱动版本2.2.3 下载Cuda Toolkit工具包2.2.4 下载Cudnn库 2.3 CMake下载 三、CMake配置步骤3.1 加载路径第一次Configure3.1.1…

influxdb-winsdows电脑用户切换 Unauthorized

如果切换winsdows电脑用户之后启动influxdb出现Unauthorized 1.考虑windows用户的权限问题,给full control 2.要把原来用户下的.influxdb中的sqlite给搬到新用户下,因为里面存了数据库的token,需要认证

C++入门基础知识77(实例)——实例 2【标准输入输出】

成长路上不孤单😊😊😊😊😊😊 【14后😊///C爱好者😊///持续分享所学😊///如有需要欢迎收藏转发///😊】 今日分享关于C 实例 【标准输入输出】相关内容&#…

React学习day08-useReducer、useMemo、memo、useCallback、forwardRef、useInperativeHandle

15、useReducer 1)作用:用来管理相对复杂的状态数据,类似于useState 2)使用步骤(传递一般的参数)(在APP.js中): ①定义一个reducer函数,在函数中通过switc…

技术美术百人计划 | 《4.4 抗锯齿》笔记

前言:文中补充的内容很多来自链接里的,建议看看链接的文章。 一、锯齿 (一) 什么是锯齿 在学习渲染的旅途中,你可能会时不时遇到模型边缘有锯齿的情况。这些锯齿边缘(Jagged Edges)的产生和光栅器将顶点数据转化为片段的方式有关。在下面的…

Mobile net V系列详解 理论+实战(1)

Mobilenet 系列 论文精讲部分0.摘要1. 引文2. 引文3. MobileNet 模型架构3.0 卷积个人理解3.1 深度可分离卷积3.2 网络结构和训练3.3 宽度乘数:更细的模型 α3.4 分辨率乘数:降低表示的维度ρ 4. 实验4.1 模型选择4.2. 模型缩减超参数4.3. 细粒度识别4.4…

人力资源数据集分析(二)_随机森林与逻辑回归

数据入口:人力资源分析数据集 - Heywhale.com 数据说明 字段说明EmpID唯一的员工IDAge年龄AgeGroup年龄组Attrition是否离职BusinessTravel出差:很少、频繁、不出差DailyRate日薪Department任职部门:研发部门、销售部门、人力资源部门Dista…

Linux 进程3

进程地址空间 CPU读取数据都需要地址,在计算机中所有东西都是一种数据,包括我们的进程。 这是一个进程空间示意图,操作系统通过task_struct结构体链表来管理每一个进程,结构体里面有一个指针指向操作系统为进程开辟的一段空间&am…

2-100 基于matlab的水果识别

基于matlab的水果识别。从面积特征、似圆形特征,颜色(rgb值和hsv值)特征对图像中的梨子、苹果、桃子、香蕉和菠萝进行特征提取,边缘检测识别,最后按照筛选出来的特征对水果进行识别。程序已调通,可直接运行。 下载源程序请点链接…

【CustomPainter】渐变圆环

说明 实现一个渐变圆环,起点位置为- π / 2。 效果 源码 GradientCircularPainter1 class GradientCircularPainter1 extends CustomPainter {final double progress;GradientCircularPainter1(this.progress);overridevoid paint(Canvas canvas, Size size) {c…

VCNet论文阅读笔记

VCNet论文阅读笔记 0、基本信息 信息细节英文题目VCNet and Functional Targeted Regularization For Learning Causal Effects of Continuous Treatments翻译VCNet和功能目标正则化用于学习连续处理的因果效应单位芝加哥大学年份2021论文链接[2103.07861] VCNet和功能定向正…

OpenCV特征检测(5)检测图像中的角点函数cornerMinEigenVal()的使用

操作系统:ubuntu22.04 OpenCV版本:OpenCV4.9 IDE:Visual Studio Code 编程语言:C11 算法描述 计算用于角点检测的梯度矩阵的最小特征值。 该函数类似于 cornerEigenValsAndVecs,但它计算并存储协方差矩阵导数的最小特征值&…

2024上海工博会,正运动激光振镜运动控制器应用预览(二)

■展会名称: 第二十四届中国国际工业博览会(以下简称“上海工博会”) ■展会日期 2024年9月24日–28日 ■展馆地点 中国国家会展中心(上海) ■展位号 6.1H-E261 正运动激光加工控制解决方案主要分为激光振镜运动…

24 小时不关机的挂机云电脑,还能这么玩?

云电脑技术为我们提供了无限可能。特别是对于游戏爱好者,挂机云电脑不仅解决了传统电脑的局限性,还带来了更为便利的游戏体验。除此之外云电脑还有什么其他玩法呢? 01 挂机云电脑的优势 首先要知道,什么是挂机云电脑&#xff1f…

解锁自动化新境界:KeymouseGo,让键盘和鼠标动起来!

文章目录 解锁自动化新境界:KeymouseGo,让键盘和鼠标动起来!背景:为何选择KeymouseGo?KeymouseGo简介安装KeymouseGo简单函数使用应用场景常见问题与解决方案总结 解锁自动化新境界:KeymouseGo,…

操作系统 | 学习笔记 | | 王道 | 5.1 I/O管理概述

5.1 I/O管理概述 5.1.1 I/O设备 注:块设备可以寻址,但是字符设备是不可寻址的 I/O设备是将数据输入到计算机中,或者可以接收计算机输出数据的外部设备,属于计算机中的硬件部件; 设备的分类 按使用特性分类&#xff…

from tqdm.auto import tqdm用法详细介绍

tqdm 是一个 Python 库,用于在长时间运行的任务中显示进度条。tqdm.auto 是 tqdm 的一个版本,能够自动适配输出环境(如 Jupyter Notebook、命令行等),以确保进度条在各种环境下显示正确。下面是 tqdm.auto 的详细用法介…

英飞凌 PSoC6 评估板 RT-Thread 开发环境搭建

本文介绍如何搭建基于 RT-Thread Studio IDE 工具的 PSoC6 RTT 评估板的开发环境,通过搭建一个简单的工程,将代码编译、下载到 PSoC6 RTT 开发板。 安装软件包 首先需要安装 RT-Thread Studio,如果你还没安装,可以点击这里下载安…