OpenAI o1碎片化过程中探索与利用的泛化

de298ffde3a74878a48701d203ee5751.jpg

在上一篇《OpenAI o1:隐含在训练与推理间的动态泛化与流形分布》笔记里尝试剖析OpenAI o1内部机理的过程中我们将目光聚焦在了「模型从训练到推理两个阶段的动态渐进与平衡」之上,并将其等价于对long reasoning chain(长程推理链&步骤)的某种碎片化泛化能力的迭代式探索·explore历程,从而直观上形成了从training from real world data → influence to synthetis data的scaling law的扩展与转移。

1c098cd55e3743ce8bd4c90a8631f068.jpg

在文中结尾处,提出了隐含于long chain reasoning与RL training的两种模型网络信号传播统一视角下的模型泛化动态演进这一内涵。

因此,本篇笔记将试图对这一“内涵”中的模型在训练以及推理传播过程中所体现的“泛化”的特点进行分析与阐释:

3094b82298f54cd3a5dc8e4644d55270.jpg

 

熟悉笔者历史笔记观点或之前读过我于半年前写过的那篇10万字电子书《融合RL与LLM思想,探寻世界模型以迈向AGI·上中下篇》中对于AGI的一种可能的长期技术路径与本质内涵的阐释中,提出构建模型网络隐层e2e信号传播下所实现的system2复杂推理范式,其内涵本质即是需要找到一个完备且通用的e2e训练范式实现对完整long chain reasoning or Cognition流形分布构象的充分泛化与压缩。- 这里的e2e指将全外显性的推理与认知范畴内化为模型隐层中的数学变换(网络传播)。

然而,随着笔者对存在于真实世界与理念世界中各种longchain流形分布的探索下,要实现上述e2e的范式其难度与挑战是极大且多方面的(1-2年内),包含了当前诸如算力与数据下scaling law的局限、真实世界与概念世界下也许趋于无限大的空间尺度及泛化维度、以及self play RL(←终于可以直接这样描述了,半年前还需进一步解释,相信大家也都能深刻理解其思想内涵)范式下对于探索、利用、奖励机制所对应的学习目标在尺度及粒度上的稀疏性和精确性问题与挑战...

这里详细的内容阐释大家可搜索参考我之前的几篇笔记或那篇10万字电子书,对相关内容感兴趣的大伙可参见文章配图或下方目录索引↓

在这样的挑战之下,我想OpenAI有种不得不且直觉上参照拟人类system2思维模式下一种long chain reasoning的“碎片化”泛化探索与利用范式。

这里的泛化性目标聚集在reasoning上;

碎片化粒度则以token或先验定义下的step为标记;

RL过程的采样则涵盖多任务下所对应的多个子探索(推理)步骤…

 

相关历史文章或笔记参考:

744e4a126de8453d8f5b722eb45ef91e.jpg

2024.09.09 | 牛津大学:自动发现跨领域高阶抽象泛化框架

2024.09.05 | 大模型→世界模型下的「认知流形」本质·上

2024.09.05 | 大模型×认知科学:多维潜空间洞悉复杂认知

2024.09.04 | RL+LLM下新的Scaling Law与挑战

2024.08.29 | Thinking·快与慢的统一认知框架探索 上篇

2024.08.28 | 慢思考复杂推理下AR与Diffusion的融合统一

2024.08.26 | Meta的Transfusion:自回归与扩散的融合

2024.08.24 | 来自DeepSeek:形式化证明体系的RL框架

2024.08.23 | 微软亚研院&哈佛:同行评议互一致的rStar

2024.08.22 | KAN2.0来了:符号+连接双驱动下的AI4S

2024.08.21 | 全华班LLM战队:图灵完备的RAG堆栈框架

2024.08.19 | 来自Bengio:高级认知下深度学习归纳偏差

2024.08.18 | MIT:LLM对现实语义空间的抽象表征

2024.08.16 | Think | AI探索过程潜在的overfitting

2024.08.13 | Think | AGI的探索(Axplore)与对齐(Align)

2024.08.12 | 关于「认知」Cognition

2024.08.11 | 有关「推理」Reasoning

2024.08.10 | 有关「泛化」Generalization

2024.08.09 | 关于「表征」 Representation

2024.08.06 | 来自Meta:LLM数学隐推理过程验证与阐释

2024.08.05 | 隐藏在复杂信息结构中的泛化性与K氏复杂度

2024.07.31 | 自回归(AR)与扩散(Diffusion)的邂逅

2024.07.27 | 形式化的启示 | 谷歌的AlphaProof

2024.07.26 | OAI的Rule-Based Rewards,RBR

2024.07.25 | Llama3.1浅炼

2024.07.24 | Q*s' AGI

2024.07.16 | GraphRAG → 必然桥梁 or 过渡折中?

2024.07.16 | 唠两句kimi底层推理的全局存算分离调度策略

2024.07.16 | 来自MIT的大脑认知与语言符号表的最新观点

2024.07.16 | 基于语义熵的幻觉检测

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/143320.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【重学 MySQL】三十四、加密与解密函数

【重学 MySQL】三十四、加密与解密函数 在 MySQL 中,加密与解密函数是保护数据安全的重要手段,它们允许开发者在存储和传输敏感数据时保持数据的保密性。 函数名描述返回值类型备注AES_ENCRYPT(str, key_str)使用 AES 算法加密字符串BLOB返回加密后的二…

梯度的定义是什么?一阶梯度、二阶梯度对应的优化器是什么?

梯度 梯度的定义一阶梯度、二阶梯度对应的优化器 梯度的定义 梯度的定义主要出现在多元函数的微分学中,是一个向量场,表示某一函数在该点处的方向导数沿着该方向取得最大值,即函数在该点处沿着该方向(此梯度的方向)变…

好用的网页翻译插件

软件介绍 「火山翻译,开箱即用免配置,完全免费无广告,开发的多语言翻译插件,基本涵盖众多小语种及国际通用语言的翻译,支持网页一键翻译、划词翻译、英语词典、生词本、吐司弹词记忆等丰富能力。 下载方式 请看文章…

Red Hat 和 Debian Linux 对比

原图的作者(https://bbs.deepin.org/post/209759) Red Hat Enterprise Linux https://www.redhat.com/ CentOS Linux https://www.centos.org/ Fedora Linux https://fedoraproject.org/ Debian https://www.debian.org/ Ubuntu https://cn.ubuntu.com/ https://ubuntu.c…

Python “字符串操作” ——Python面试100道实战题目练习,巩固知识、检查技术、成功就业

本文主要是作为Python中列表的一些题目,方便学习完Python的元组之后进行一些知识检验,感兴趣的小伙伴可以试一试,含选择题、判断题、实战题、填空题,答案在第五章。 在做题之前可以先学习或者温习一下Python的列表,推荐…

[数据集][目标检测]文本表格检测数据集VOC+YOLO格式6688张5类别

数据集格式:Pascal VOC格式YOLO格式(不包含分割路径的txt文件,仅仅包含jpg图片以及对应的VOC格式xml文件和yolo格式txt文件) 图片数量(jpg文件个数):6688 标注数量(xml文件个数):6688 标注数量(txt文件个数):6688 标注…

<<编码>> 第 14 章 反馈与触发器(5)--加法器综合 示例电路

带锁存器和选择器的 8 位加法器 info::操作说明 鼠标单击逻辑输入切换 0|1 状态 当 “来自锁存器” 位为 0 时, 选择 A; 否则, 选择锁存器的输出 注: 保存位 和 来自锁存器位 不能同时为高电平, 否则电路可能振荡. 实际上, 在模拟器中, 此电路经测试会振荡, 因为 来自锁存器位 …

【算法题】46. 全排列-力扣(LeetCode)

【算法题】46. 全排列-力扣(LeetCode) 1.题目 下方是力扣官方题目的地址 46. 全排列 给定一个不含重复数字的数组 nums ,返回其 所有可能的全排列 。你可以 按任意顺序 返回答案。 示例 1: 输入:nums [1,2,3] 输出:[[1,2,3…

xxl-job、Quartz、power-job、elastic-job对比选型

一、框架对比 1. Quartz 优点:稳定性和可扩展性好,适用于企业级应用;调度功能丰富,满足多种需求。 缺点:本身不提供原生的分布式支持,需要通过扩展或与其他组件结合来实现分布式任务调度;调度…

计算机人工智能前沿进展-大语言模型方向-2024-09-19

计算机人工智能前沿进展-大语言模型方向-2024-09-19 1. SAM4MLLM: Enhance Multi-Modal Large Language Model for Referring Expression Segmentation Authors: Yi-Chia Chen, Wei-Hua Li, Cheng Sun, Yu-Chiang Frank Wang, Chu-Song Chen SAM4MLLM: 增强多模态大型语言模型…

kubernetes持久化存储

一 、Volumes 容器的弊端: 1. Container (容器) 中的磁盘文件是短暂的,当容器崩 溃时,kubelet 会重新启动容器,但最初的文件将丢 失,Container 会以最干净的状态启动。 2. 当一个 Pod 运行多个 Container 时&#x…

网络安全:建筑公司会计软件遭受暴力攻击

黑客正在暴力破解基金会会计服务器上高权限账户的密码,这些账户广泛用于建筑行业,从而侵入企业网络。 这一恶意活动最先被 Huntress 发现,其研究人员于 2024 年 9 月 14 日检测到了此次攻击。 Huntress 已经发现这些攻击对管道、暖通空调、…

解决mac下 Android Studio gradle 下载很慢,如何手动配置

抓住人生中的一分一秒,胜过虚度中的一月一年! 小做个动图开篇引题 前言 平时我们clone git 上项目,项目对应gradle版本本地没有,ide编译会自动下载,但是超级慢可能还下载失败,下面讲解下此问题如 如下图所示&#xff…

TCP: Textual-based Class-aware Prompt tuning for Visual-Language Model

文章汇总 存在的问题 原文:具有图像特定知识的图像条件提示符号在提升类嵌入分布方面的能力较差。 个人理解:单纯把"a photo of {class}"这种提示模版作为输入是不利于text encoder学习的 动机 在可学习的提示和每一类的文本知识之间建立…

软考高级:嵌入式系统调度算法 AI 解读

嵌入式系统中的调度算法用于管理任务的执行顺序,确保系统资源能够有效分配。以下是几种常见的调度算法的通俗讲解。 生活化例子 想象你是一位超市收银员,有很多顾客排队,每位顾客都可以看作一个任务,收银台就是你的处理器。你需…

【Web】从网安的角度浅聊Groovy命令执行

什么是 Groovy? Groovy 是一种基于 Java 平台的动态语言,旨在提高开发效率。它与 Java 语言高度兼容,允许开发者以更简洁的方式编写代码。Groovy 支持面向对象编程、闭包、DSL(领域特定语言)等特性,使得它…

四、Cookie 和 Session

文章目录 1. Cookie 饼干1.1 什么是 Cookie?1.2 如何创建 Cookie1.3 服务器如何获取 Cookie1.4 Cookie 值的修改1.5 浏览器查看 Cookie1.6 Cookie 生命控制(指浏览器中Cookie的存在时间)1.7 Cookie 有效路径 Path 的设置 2. Session 会话2.1 什么是 Ses…

实例讲解电动汽车钥匙ON挡上下电控制策略及Simulink建模方法

在电动汽车VCU开发中,上下电控制是其中一个核心控制内容,也是其他控制功能的基础,而钥匙ON挡上下电又是整车上下电的基础。本文介绍电动汽车钥匙ON挡上下电的控制策略及Simulink建模方法。 目录 一、整车高压原理 二、钥匙ON挡上下电控制策…

养殖场中的分布式光伏发电

海南农垦集团其前身是与海南省农垦总局实行政企合一的海南省农垦总公司,属直属三大垦区之一。该集团在海南有多个养殖场,本次工程涉及到红华养猪场、红华肉牛繁育场、白沙县邦溪镇和牛产业扶贫养殖场等多个项目,通过在厂房屋顶铺设分布式光伏…

干货-并发编程提高——重谈 RUNNABLE-上篇(十四)

具体来看下 State.RUNNABLE 状态,即所谓的可运行状态。(以下简称 runnable) 再次强调,这里谈论的是 Java 虚拟机层面所暴露给我们的状态,与操作系统底层的线程状态是两个不同层面的事。 具体而言,这里说的 Java 线程状态均来自于 Thread 类下的 State 这一内部枚举类中…