介绍GPT-o1:一系列解决困难问题( science, coding, and math )的推理模型

openai o1介绍

  • 一、官方技术报告要点剖析
    • 实验1 benchmark分析
    • 实验2:和phd比赛
    • 技术细节:Chain of Thought的使用
    • 人类偏好评估Human preference evaluation
    • satety
    • 技术细节:隐藏思维链为监控模型提供了机会:)
    • openai的几点conclusion
  • 二、官方介绍剖析 Introducing OpenAI o1-preview

一、官方技术报告要点剖析

https://openai.com/index/learning-to-reason-with-llms/
技术报告核心内容解读
报告日期:September 12, 2024

实验1 benchmark分析

On the 2024 AIME exams, GPT-4o only solved on average 12% (1.8/15) of problems. o1 averaged 74% (11.1/15) with a single sample per problem, 83% (12.5/15) with consensus among 64 samples, and 93% (13.9/15) when re-ranking 1000 samples with a learned scoring function. A score of 13.9 places it among the top 500 students nationally and above the cutoff for the USA Mathematical Olympiad.
在这里插入图片描述

结果分析:

1.	GPT-4o 是基础版本的 GPT-4 模型。在这次考试中,它只能解答 12% 的问题,也就是平均每场考试 15 道题中仅能解答 1.8 道题。
2.	o1 版本 是经过进一步优化的 GPT-4 模型:•	单次采样(即每道题只运行一次模型)时,能解答 74% 的问题,平均解答 11.1 道题。•	如果对每道题进行 64 次采样(即多次运行模型并选择共识答案),它的正确率提升至 83%,平均解答 12.5 道题。•	如果对每道题进行 1000 次采样,并且使用学习得出的评分函数进行重新排序,它的正确率进一步提升至 93%,平均解答 13.9 道题。
3.	取得 13.9 分的表现使得这个模型达到了全美前 500 名学生的水平,并且超过了参加美国数学奥林匹克竞赛(USA Mathematical Olympiad, USAMO)的资格线。

实验2:和phd比赛

We also evaluated o1 on GPQA diamond, a difficult intelligence benchmark which tests for expertise in chemistry, physics and biology. In order to compare models to humans, we recruited experts with PhDs to answer GPQA-diamond questions.

这里有一个问题,就是,所招募的专家测试结果是找的各个专业的phd做完整的测试,然后取精确率的平均值作为对比数值,还是请他们分别做自己所属专业的部分试题,然后将结果汇总作为专家结果。

技术细节:Chain of Thought的使用

Similar to how a human may think for a long time before responding to a difficult question, o1 uses a chain of thought when attempting to solve a problem.
Through reinforcement learning, o1 learns to hone its chain of thought and refine the strategies it uses. It learns to recognize and correct its mistakes. It learns to break down tricky steps into simpler ones. It learns to try a different approach when the current one isn’t working. This process dramatically improves the model’s ability to reason. To illustrate this leap forward, we showcase the chain of thought from o1-preview on several difficult problems below.

  • Through reinforcement learning, o1 learns to hone its chain of thought and refine the strategies it uses.
    1.通过强化学习,o1学会磨练其思维链并完善其使用的策略
  • It learns to recognize and correct its mistakes.
    2.o1学会了识别和纠正错误。
  • It learns to break down tricky steps into simpler ones.
    3.o1学会了将棘手的步骤分解成简单的步骤。
  • It learns to try a different approach when the current one isn’t working.
    4.当前方法无效时,它学会尝试不同的方法。 在实例当中,会发现

这一过程极大地提高了模型的推理能力。为了说明这一飞跃,报告中还展示了 o1-preview 在几个难题上的思维链。(详情见报告)

人类偏好评估Human preference evaluation

In this evaluation, human trainers were shown anonymized responses to a prompt from o1-preview and GPT-4o, and voted for which response they preferred.
在这项评估当中,人类培训师被展示了o1-preview和GPT-4o对于一个提示词的匿名回复,然后投票选出他们喜欢的回复。在数据分析、编码和数学等推理繁重的类别中,o1预览比gpt-4o更受欢迎。 然而,o1预览在某些自然语言任务中并不受欢迎,这表明它并不适合所有用例。
在这里插入图片描述

satety

We believe that using a chain of thought offers significant advances for safety and alignment because (1) it enables us to observe the model thinking in a legible way, and (2) the model reasoning about safety rules is more robust to out-of-distribution scenarios.
我们认为,使用思维链可以在安全性和一致性方面取得重大进展,因为(1)它使我们能够以清晰的方式观察模型思维,(2)关于安全规则的模型推理对分布外的场景更稳健。

技术细节:隐藏思维链为监控模型提供了机会:)

the hidden chain of thought allows us to “read the mind” of the model and understand its thought process.
例如,在未来,我们可能希望监控思维链,寻找操纵用户的迹象。
然而,为了实现这一点,模型必须能够以不变的形式自由表达其思想,因此我们无法将任何政策合规性或用户偏好训练到思想链上。我们也不想让用户直接看到不一致的思维链。
因此,在权衡了用户体验、竞争优势和追求思维链监控的选择等多个因素后, we have decided not to show the raw chains of thought to users.

我们承认这一决定有缺点。我们努力通过教模型从答案中的思维链中再现任何有用的想法来部分弥补这一点。

注意,为了让模型保持市场优势,对于思维连的具体过程,openai选择了隐藏,并通过让模型从*真实思维链*和*答案response*中再现思维链中有用的想法的方式来弥补隐藏思维链带来的问题 因此,对于思维链的具体技术细节,无从得知。

openai的几点conclusion

1.o1显著推进了AI reasoning的最新工作
2.我们相信o1会解锁AI在科学、编程、数学等相关领域的新应用案例。
3.openai对于开发者会如何使用o1保持激动和期待。

二、官方介绍剖析 Introducing OpenAI o1-preview

A new series of reasoning models for solving hard problems. Available now.
20240912:https://openai.com/index/introducing-openai-o1-preview/
Update on September 17, 2024: Rate limits are now 50 queries per week for o1-preview and 50 queries per day for o1-mini.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/148582.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【C语言进阶】第四节:自定义类型详解

1、结构体 1.1 结构体变量的定义和初始化 struct Point//类型声明 {int x;int y; }p1;//声明类型的同时定义变量p1struct Point p2;//定义结构体变量p2//初始化:定义变量的同时赋初值。 struct Point p3 { x, y };struct Node {int data;struct Point p;struct N…

端侧 AI 的新突破:面壁智能 MiniCPM 3.0

在人工智能领域,每一次技术的革新都可能引发一场小小的革命。 ChatGPT-3.5 曾经凭借其惊人的表现赢得了大众的关注,但如今,随着国内AI公司面壁智能推出的新端侧基座模型,人们开始重新审视端侧AI的潜力和未来。 这款名为MiniCPM …

Dockerfile全面指南:从基础到进阶,掌握容器化构建的核心工具

目录 Dockerfile全面指南:从基础到进阶,掌握容器化构建的核心工具 引言 一、什么是 Dockerfile 二、Dockerfile 的基本结构 三、Dockerfile 的常见配置项 1、多阶段构建 (Multi-stage Builds) 2、缓存优化 3、合并 RUN 命令 四、Dockerfile 使用…

C盘太臃肿了用这招一键给C盘瘦身 快速释放C盘空间

C盘太臃肿了用这招一键给C盘瘦身 快速释放C盘空间。我们的电脑不知不觉的就爆满了,这个主要的原因就是各种垃圾文件堆积,时间用得越久,垃圾堆积得越多,这样我们的C盘空间就被蚕食了,空间越来越小,变得越来越…

干货分享:为什么stable diffusion训练用ddpm, 采样用ddim呢?

前言 回忆一下DDPM,实质上它的推导过程应是如下的: 其中, 是单纯的高斯分布的推导,相当于一个序列过程的归纳法推导。 在DDPM中采用的是[贝叶斯公式]。 而过程则是用对进行一个估测,也就是用前向过程反过来对进行一个…

sql语法学习:关键点和详细解释

学习SQL语法是掌握数据库操作的基础。以下是SQL语法的一些关键点和详细解释: 1. SQL基础 SQL(Structured Query Language)是一种用于管理和操作关系型数据库的标准语言。它主要包括以下几个部分: 数据定义语言(DDL&…

探索Mem0:AI的智能记忆层

文章目录 探索Mem0:AI的智能记忆层背景介绍Mem0是什么?如何安装Mem0?简单使用方法应用场景常见问题及解决方案总结 ![ 探索Mem0:AI的智能记忆层 背景介绍 在人工智能的世界里,记忆是个性化体验的关键。想象一下&…

结构设计模式 -装饰器设计模式 - JAVA

装饰器设计模式 前言 这是我在这个网站整理的笔记,有错误的地方请指出,关注我,接下来还会持续更新。 作者:神的孩子都在歌唱 一. 介绍 百度百科:装饰模式指的是在不必改变原类文件和使用继承的情况下,动态地扩展一个对…

只需5分钟!掌握学术写作的核心逻辑!

人工智能的广泛应用中,ChatGPT 已被证明是一种极具潜力的语言模型,其功能涵盖多个领域,显示出强大的适应性。在 GPT-4 架构的推动下,ChatGPT 正在彻底改变我们与文本驱动的人工智能的交互模式。 在学术界,学术写作至关…

【测试】——Selenium API (万字详解)

📖 前言:本文详细介绍了如何利用Selenium进行Web自动化测试,包括定位元素(如cssSelector和xpath)、常用操作函数(如点击、输入等)、窗口管理、键盘鼠标事件和浏览器导航,以及处理弹窗…

实用小工具——多标签页插件Office Tab介绍

Office Tab引入选项卡式用户界面,增强了Microsoft Office使用体验。软件界面,可以设置你喜欢的标签类型。 安装后office界面会新增一个办公标签栏,立面有各功能说明。 最常用的是这个标签切换功能。 安装也很简单,选择对应位数安装…

知识产权实缴出资是否合法

知识产权实缴出资是否合法 近年来,随着知识产权在企业价值中的重要性日益凸显,知识产权实缴出资作为一种新兴的出资方式,逐渐受到社会各界的关注。然而,关于知识产权实缴出资是否合法的问题,一直是企业和投资者关注的焦…

vulnhub(13):LordOfTheRoot(sql时间盲注、mysql udf提权)

端口 nmap主机发现 nmap -sn 192.168.72.0/24 ​ Nmap scan report for 192.168.72.170 Host is up (0.00020s latency). ​ 170是新出现的机器,他就是靶机 nmap端口扫描 nmap -Pn 192.168.72.170 -p- --min-rate 10000 -oA nmap/scan 扫描开放端口保存到 nmap/sca…

Sony IMX334LQR-C 1/1.8寸 8.42 M像素

索尼IMX334LQR宽动态超星光级交通监测CMOS 封装:LGA 对⾓线:8.86 mm(类型1/1.8) 索尼IMX334LQR宽动态超星光级交通监测CMOS的参数及规格书资料: IMX334LQR-C是⼀个对⾓线8.86 mm(类型1/1.8)的…

帕金森病:这五大幕后推手,你了解多少?

在快节奏的现代生活中,健康问题日益受到公众的关注,而帕金森病作为一种常见的神经系统退行性疾病,更是牵动着无数家庭的心弦。今天,就让我们一起揭开帕金森病的神秘面纱,探讨其背后的五大主要原因,让更多人…

离散化c++

应用于数字取值范围很大,但数字个数很少的情况,原理是将要用到的数字放到一个连续的数组中,通过一个函数find得到数字和存放在数组中的下标的映射关系。 其中find函数的实现可以通过二分查找来实现; 练习题: 题意&…

Python 类型提示全解析:从入门到精通的必备技巧(如何让Python代码更清晰、错误更少)

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 文章内容 📒📝 什么是类型提示?📝 类型提示的基本用法📝 高级用法📝 类型提示的工具和技巧📝 注意事项和最佳实践⚓️ 相关链接 ⚓️📖 介绍 📖 在编程的世界里,代码的清晰和可维护性是成功的关键。尤其是在 …

C++——关联式容器(5):哈希表

7.哈希表 7.1 哈希表引入 哈希表的出现依旧是为了查找方便而设计的。在顺序结构中,查询一个值需要一一比较,复杂度为O(N);在平衡树中,查询变为了二分查找,复杂度为O(logN);而对于哈希表,我们可…

SpringBoot简易商品管理系统

> 这是一个基于SpringBootThymeleaf实现的简易商品管理系统。 > 包含基本的登录/注册与商品管理功能。 > 界面简洁美观,代码结构清晰,适用于JAVA初学者在此基础上进行二次开发。 一、项目演示 二、技术框架 框架描述Spring Boot容器管理 S…

毫米波雷达预警功能 —— 开门预警(DOW)

文档声明: 以下资料均属于本人在学习过程中产出的学习笔记,如果错误或者遗漏之处,请多多指正。并且该文档在后期会随着学习的深入不断补充完善。感谢各位的参考查看。 笔记资料仅供学习交流使用,转载请标明出处,谢谢配…