OpenAI GPT o1技术报告阅读(5)-安全性对齐以及思维链等的综合评估与思考

 ✨继续阅读报告:使用大模型来学习推理(Reason)

原文链接:https://openai.com/index/learning-to-reason-with-llms/

编码

我们训练了一个模型,在2024年国际信息学奥林匹克竞赛(IOI)中得分213分,排名在第49百分位,通过从o1初始化并进一步训练以提高编程技能。这个模型在2024年IOI中与人类参赛者在相同条件下竞争。它有十个小时的时间来解决六个具有挑战性的算法问题,并允许每个问题提交50次。

对于每个问题,我们的系统采样了许多候选提交,并基于测试时的选拔策略提交了其中的50个。提交是基于在IOI公开测试用例、模型生成的测试用例以及学习到的评分函数上的表现来选择的。如果我们随机提交,平均得分将只有156分,这表明在竞赛限制下,这种策略值得近60分。

在放宽提交限制的情况下,我们发现模型性能显著提高。当允许每个问题提交10,000次时,模型得分为362.14分——超过了金牌阈值——甚至没有使用任何测试时的选拔策略。

最后,我们模拟了由Codeforces主办的竞技编程比赛,以展示这个模型的编码技能。我们的评估与比赛规则紧密匹配,并允许10次提交。GPT-4o获得了808的Elo评分,这在人类参赛者中排在11百分位。这个模型远远超过了GPT-4o和o1——它获得了1807的Elo评分,表现优于93%的参赛者。
 

 在编程竞赛上的进一步微调,提高了o1的性能。改进后的模型在2024年国际信息学奥林匹克竞赛中,在竞赛规则下排名在第49百分位。

人类偏好评估


除了考试和学术基准测试,我们还评估了在广泛的领域中,对于具有挑战性的开放式提示,人类对o1预览版和GPT-4o的偏好。在这次评估中,人类训练师被展示了来自o1预览版和GPT-4o的匿名回应,并投票选择他们更喜欢的回应。在数据分析、编码和数学等需要大量推理的类别中,o1预览版以较大的优势被偏好于GPT-4o。然而,在一些自然语言任务上,o1预览版并不被偏好,这表明它并不适用于所有用例。

安全性


思维链推理为对齐(小梦备注:与人类意志对齐)和安全性提供了新的机会。

我们发现,将我们的模型行为政策整合到推理模型的思维链中,是一种有效的方法,可以稳健地教授人类价值观和原则。通过教授模型我们的安全规则以及如何在上下文中推理它们,我们发现推理能力直接有益于模型的鲁棒性:o1预览版在关键的越狱评估和我们评估模型安全拒绝边界的最困难的内部基准测试上取得了显著提高的性能。(小梦备注:这一点也可以参考OpenAI GPT o1技术报告阅读(2)- 关于模型安全性的测试案例_openai o1大模型中文技术报告-CSDN博客)

我们相信,使用思维链推理为安全性和对齐提供了重大进步,因为:

(1)它使我们能够以可读的方式观察模型的思考;

(2)模型对安全规则的推理更能抵御各种外部干扰场景的鲁棒性挑战;

为了对我们的改进进行压力测试,我们在部署前进行了一系列的安全测试和红队攻击,这符合我们的准备框架。

我们发现,思维链推理有助于我们评估中的能力提升。特别值得注意的是,我们观察到了一些有趣的奖励黑客行为实例。这些评估的详细结果可以在随附的系统卡片中找到。

相关内容:

【https://cdn.openai.com/o1-system-card.pdf#page=16】

【https://openai.com/index/openai-o1-system-card/】

贴一张微信截图自动翻译的评估内容,大概感受下...(翻译的有点烂,不过不影响理解)

隐藏思维链


我们认为,隐藏的思维链为监控模型提供了一个独特的机会。

假设它是忠实和清晰的,隐藏的思维链允许我们“读懂”模型的思维并理解其思考过程。

例如,在未来我们可能希望监控思维链,以寻找操纵用户的征兆。然而,为了使这行之有效,模型必须有自由以未修改的形式表达其思想,因此我们不能将任何政策合规性或用户偏好训练到思维链上。我们也不想让用户直接看到未对齐的思维链。

因此,在权衡了包括用户体验、竞争优势和追求思维链监控的选项在内的多个因素之后,我们决定不向用户展示原始的思维链。我们承认这个决定有其缺点。我们努力通过教授模型在答案中复制思维链中的任何有用想法来部分弥补这一点。对于o1模型系列,我们展示了模型生成的思维链摘要。


【小梦备注:哈,或许官方公布的这几个例子是唯一有完整思维链展示的,所以如果想要理解这个模型,还是满建议大家详细读读前边翻译的这几个案例的。当然,官网对于代码、化学和数学的案例也可以看看。】

结论


o1在人工智能推理方面显著推进了现有技术。

我们计划在我们继续迭代的过程中发布这个模型的改进版本。我们预计这些新的推理能力将提高我们使模型与人类价值观和原则对齐的能力。我们相信o1及其后续版本将为科学、编码、数学和相关领域的人工智能解锁许多新的用例。我们对用户和API开发者发现它如何改善他们的日常工作感到兴奋。
 

✨写在最后

如果对comfyui还不熟悉的话,最近面向ComfyUI的新手,写了一门系统性入门图文课程,现在已经更新完成了,内容主要包括如何下载软件、如何搭建自己的工作流、关键基础节点讲解、遇到报错怎么解决等等,如果大家在学习过程中遇到什么问题,也可以直接对应的文章下留言,会持续更新相关答疑内容哈。欢迎订阅哦~

https://blog.csdn.net/jumengxiaoketang/category_12683612.html

​​​​

感谢大家的支持~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/146926.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

大数据实验一: Linux系统安装和使用

一、实验目的 描述Ubuntu的安装过程;使用命令完成Ubuntu中的基础操作; 二、实验平台 操作系统:window系统;内存:4G以上;硬盘:100GB以上;Virtual Box或者VMware;Ubuntu…

当大语言模型应用到教育领域时会有什么火花出现?

当大语言模型应用到教育领域时会有什么火花出现? LLM Education会出现哪些机遇与挑战? 今天笔者分享一篇来自New York University大学的研究论文,另外一篇则是来自Michigan State University与浙江师范大学的研究论文,希望对这个话题感兴趣…

Java反序列化利用链篇 | CC6链分析(通用版CC链)

文章目录 CC6和CC1之间的区别CC6的调用链构造CC6的payload完成TiedMapEntry.getValue()完成TiedMapEntry.hashCode()完成HashMap.hash()及HashMap.readObject()解决hash()方法提前触发的问题 系列篇其他文章,推荐顺序观看~ Java反序列化利用链篇 | JdbcRowSetImpl利…

FastAPI 的隐藏宝石:自动生成 TypeScript 客户端

在现代 Web 开发中,前后端分离已成为标准做法。这种架构允许前端和后端独立开发和扩展,但同时也带来了如何高效交互的问题。FastAPI,作为一个新兴的 Python Web 框架,提供了一个优雅的解决方案:自动生成客户端代码。本…

C语言-文件操作-一些我想到的、见到的奇怪的问题

博客主页:【夜泉_ly】 本文专栏:【C语言】 欢迎点赞👍收藏⭐关注❤️ C语言-文件操作-一些我想到的、见到的奇怪的问题 前言1.在不关闭文件的情况下,连续多次调用 fopen() 打开同一个文件,会发生什么?1.1过…

简单多状态dp第三弹 leetcode -买卖股票的最佳时机问题

309. 买卖股票的最佳时机含冷冻期 买卖股票的最佳时机含冷冻期 分析: 使用动态规划解决 状态表示: 由于有「买入」「可交易」「冷冻期」三个状态,因此我们可以选择用三个数组,其中: ▪ dp[i][0] 表示:第 i 天结束后&#xff0c…

基于主从Reactor模型实现高并发服务器

目录 1. 项目简介1.1 环境介绍1.2 项目定位1.3 功能模块整体划分 2. Reactor简介2.1 Reactor模型分析2.2 多Reactor多线程分析:多I/O多路复用线程池(业务处理) 3. 日志宏的编写4. Server模块4.1 Buffer模块4.1.1 Buffer的功能4.1.2 Buffer的实…

AI健身之俯卧撑计数和姿态矫正-角度估计

在本项目中,实现了Yolov7-Pose用于人体姿态估计。以下是如何在Windows 11操作系统上设置和运行该项目的详细步骤。 环境准备 首先,确保您的计算机已经安装了Anaconda。Anaconda是一个开源的Python发行版本,它包含了conda、Python以及众多科…

Python基于TensorFlow实现时间序列循环神经网络回归模型(LSTM时间序列回归算法)项目实战

说明:这是一个机器学习实战项目(附带数据代码文档视频讲解),如需数据代码文档视频讲解可以直接到文章最后获取。 1.项目背景 随着信息技术的发展和传感器设备的广泛应用,时间序列数据的产生量急剧增加。无论是股市价格…

Windows本地连接远程服务器并创建新用户详细记录

前提可知: (1)服务器IP地址:x.x.x.x (2)服务器名称:root(一般默认为root,当然也有别的名称) (3)服务器登陆密码:**** 一、…

优化下载性能:使用Python多线程与异步并发提升下载效率

文章目录 📖 介绍 📖🏡 演示环境 🏡📒 文章内容 📒📝 普通请求下载📝 使用多线程加速下载📝 使用异步编程加速下载📝 总结 📝⚓️ 相关链接 ⚓️📖 介绍 📖 你是否因为下载速度慢而感到焦虑?特别是在下载大型文件时,等待进度条慢慢移动的感觉真的很…

西圣、吉玛仕、绿联电容笔好不好用?热门平替电容笔超真实测评!

电容笔在数字化学习与办公环境中扮演着举足轻重的角色,它不仅是绘写的基本工具,更是提高创造效率的重要手段。随着平替电容笔的市场不断扩大,涌现了很多品牌,使得很多消费者不知道如何选择。此外,还有掺杂了一些性能不…

浅谈Spring Cloud:OpenFeign

RestTemplate 方式调用存在的问题: String url "http://userservice/user/" order.getUserId(); User user restTemplate.getForObject(url, User.class); 这是通过URL地址来访问的。但是: 代码可读性差,编程体验不统一参数复…

CSGHub开源版本v0.9.0更新

CSGHub开源版本v0.9.0更新现已发布! 00 重大更新🔊🔊🔊 golang 重写 Rails 服务端API git server增加gitaly的支持,且新版本默认使用 gitaly 本地运行应用空间、推理、微调不再需要域名 01 代码仓库(模型…

在线骑行网站设计与实现

摘 要 传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装在线骑行网站软件来发挥其高效地信息处理的作用&#xff0c…

灾备技术演进之路 | 虚拟化无代理备份只能挂载验证和容灾吗?只能无代理恢复吗?且看科力锐升级方案

灾备技术演进之路系列 虚拟化备份技术演进 摆脱束缚,加速前行 无代理备份仅能挂载/恢复验证吗? ——科力锐极简验证演练无代理备份来了 无代理备份无法应对平台级故障吗? ——科力锐应急接管无代理备份来了 无代理备份仅能同平台挂载吗&a…

Java反序列化利用链篇 | URLDNS链

文章目录 URLDNS链调用链分析Payload编写 系列篇其他文章,推荐顺序观看~ Java反序列化利用链篇 | JdbcRowSetImpl利用链分析Java反序列化利用链篇 | CC1链_全网最菜的分析思路Java反序列化利用链篇 | CC1链的第二种方式-LazyMap版调用链Java反序列化利用链篇 | URLD…

thinkphp 做分布式服务+读写分离+分库分表(分区)(后续接着写)

thinkphp 做分布式服务读写分离分库分表(分区) 引言 thinkphp* 大道至简一、分库分表分表php 分库分表hash算法0、分表的方法(thinkphp)1、ThinkPHP6 业务分表之一:UID 发号器2、ThinkPHP6 业务分表之二:用…

【数据结构与算法 | 灵神题单 | 二叉搜索树篇】力扣653

1. 力扣653:两数之和IV - 输入二叉搜索树 1.1 题目: 给定一个二叉搜索树 root 和一个目标结果 k,如果二叉搜索树中存在两个元素且它们的和等于给定的目标结果,则返回 true。 示例 1: 输入: root [5,3,6,2,4,null,7…

伊犁云计算22-1 raid 5 linux 配置

1  添加四块sata 硬盘  2  设置启动项为原来scsi 的硬盘 3  四块盘都是  fd   li&…