谷歌发布新 RL 方法，性能提升巨大；苹果前设计总监正与 OpenAI 合作开发 AI 设备丨 RTE 开发者日报

在这里插入图片描述

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、JetBrains AI Assistant 编程助手正式在国内发布，基于阿里通义大模型

在本周举行的 2024 云栖大会上，JetBrains 正式发布了基于阿里云通义大模型的 JetBrains Al Assistant。

JetBrains 官方介绍称，JetBrains Al Assistant 与多款 JetBrains 产品深度集成，是专为中国开发者量身定制的「提效神器」。

JetBrains Al Assistant 支持全链路优化开发，可在特定 IDE 工具窗口中作为内联操作使用，也可以通过内置聊天使用，不会中断开发工作流。

此外，JetBrains 承诺所用模型绝不会在开发者的代码库上训练，确保专有代码保持机密和安全。

JetBrains Al Assistant 整合了五大功能，汇总如下：

加快编码任务：如多行代码补全、编辑器内代码生成、生成单元测试等。
在上下文中寻找解决方案：如上下文感知 AI 聊天、使用 AI 合并 VCS 冲突等。
检测并修正代码问题：如查找潜在问题、修正运行时错误。
将总结委托给 AI：如生成文档、编写提交信息。
优化代码：如重构、声明重命名建议。（@IT 之家）

2、OpenAI 首款具备「推理」能力模型 o1 现已向企业 / 教育用户开放，每周最多使用 50 次

OpenAI 公司旗下首款具备「推理」能力的模型 o1 和 o1-mini 现已向企业版（Enterprise）和教育版（Edu）用户开放访问权限，用户每周最多可输入 50 条消息。

据介绍，OpenAI o1 系列模型具有更高的理解能力，与传统模型不同，o1 系列模型在回答问题之前会进行深度思考，生成内在的思维链后再给出答案，因此系列模型能够处理比之前模型更复杂的任务，特别擅长解决科学、编程和数学领域的难题。

OpenAI 指出，尽管目前 GPT-4o 仍是大多数任务的最佳选择，但 o1 系列在处理复杂、问题解决导向的任务（如研究、策略、编程、数学和科学）方面表现更为优异。

然而，由于 o1 模型「会消耗更多的计算资源」，OpenAI 声称系列模型初期仅向 Plus / Team / Enterprise / Edu 用户限量开放，其中 o1 模型每周最多可使用 50 次，而 o1-mini 模型每天最多可使用 50 次。

而在 API 方面，相关模型访问权限价格较高，其中 o1 的输入词元（tokens）费用为每百万个成本 15 美元，输出词元费用为每百万个 60 美元，通过 API 调用时，o1 模型每分钟最多可调用 500 次，o1-mini 模型每分钟可调用 1000 次。（@IT 之家）

3、谷歌发布新 RL 方法，性能提升巨大，o1 模型已证明

在这里插入图片描述

谷歌 DeepMind 的研究人员提出了一种创新多轮强化学习方法——SCoRe。

目前，多数大模型不具备自我纠错或能力较差，尤其是在数学和代码领域在给出错误答案后，会一直坚持错误答案，影响模型的准确率。而 SCoRe 通过避免训练数据与模型实际响应分布不匹配以及多轮反馈奖励机制，来帮助大模型及时纠正自己的错误。

OpenAI 最近发布的 o1 模型便使用了类似的技术，主要亮点之一便是模型的自我纠错能力，其数学和代码能力也获得了大幅度提升。也就是说，强化学习确实能帮助大模型提升输出性能和准确率。

在传统的大模型训练过程中，模型通常通过监督学习来优化其对特定任务的性能。但这种方法主要依赖于大量的标注数据，并且在训练和推理之间存在巨大的数据分布差异，导致模型在实际应用中难以有效纠正错误。

最重要的是，传统的监督学习方法在训练过程中，并没有明确地教导模型如何自我纠正错误。一旦模型在推理阶段产生错误的结果，只能依赖外部反馈或手动干预来纠正这些错误。这对于需要高度准确率的法律、金融等应用场景来说是一个重大缺陷。

而 SCoRe 则是在模型自己生成的数据上进行多轮强化训练，使模型能够学习到如何根据奖励信号来调整自己的输出实现自我纠正。在训练过程中，SCoRe 会鼓励模型尝试不同的输出，并根据奖励信号来判断哪些输出是最准确的。帮助模型就能够逐渐学习到如何在不同的情况下做出正确的决策。

例如，在文本生成任务中，如果模型生成的句子不符合语法或是病句，SCoRe 会给予模型一个负面的奖励信号，促使模型调整自己的输出直到生成符合要求的句子。（@AIGC 开放社区）

4、Deepgram 推出了全新的 AI 语音代理 API 能够进行实时自然的语音对话
Deepgram 推出了全新的 AI 语音代理 API，这是一个统一的语音对话 API，旨在让 AI 代理能够进行自然的对话。该 API 依赖于快速的语音识别和语音合成模型，支持实时的语音理解、推理和对话生成。

适用于企业和开发人员，能够创建强大的语音代理，特别适用于客户支持、订单处理等场景。

实时自然对话：语音代理 API 能够在对话中处理人类语音输入并快速生成语音输出，支持流畅的交互。中断处理：采用最新的「结束思维」检测模型，能够自然地处理对话中的停顿或中断。可扩展性与灵活性：开发者可以选择使用开源、闭源或自带的大语言模型，灵活集成不同任务所需的模型。（@小互 AI）

5、苹果前设计总监正与 OpenAI 合作开发 AI 设备

据纽约时报报道，苹果前设计总监 Jony Ive 表示，他正在与 OpenAI 首席执行官 Sam Altman 合作开发 AI 设备。

报道中指出，Jony Ive 通过 Airbnb 首席执行官 Brian Chesky 认识了 Sam Altman ，这一项目由 Jony Ive 以及 Laurene Powell Jobs 的公司资助。

目前，该项目只有 10 名员工，但其中包括 Tang Tan 和 Evans Hankey，，他们是与 Ive 一起开发 iPhone 的两位关键人物。(@APPSO)

02有态度的观点

1、o1 核心作者 MIT 演讲：激励 AI 自我学习，比试图教会 AI 每一项任务更重要

OpenAI 研究科学家、o1 核心贡献者 Hyung Won Chung 分享了他在 MIT 的一次演讲。演讲主题为「Don’t teach。Incentivize」，核心观点是：「激励 AI 自我学习比试图教会 AI 每一项具体任务更重要。

在 Hyung Won 看来，AI 领域正处于一次范式转变，即从传统的直接教授技能转向激励模型自我学习和发展通用技能。他的理由也很直观，AGI 所包含的技能太多了，无法一一学习。

具体如何激励，他以下一个 token 预测为例，说明了这种弱激励结构如何通过大规模多任务学习，鼓励模型学习解决数万亿个任务的通用技能，而不是单独解决每个任务。他指出，「如果尝试以尽可能少的努力解决数十个任务，那么单独模式识别每个任务可能是最简单的；但如果尝试解决数万亿个任务，通过学习通用技能（例如语言、推理等）可能会更容易解决它们。」

对此他打了个比方，「授人以鱼不如授人以渔」，用一种基于激励的方法来解决任务。面对这一「循循善诱」的过程，也许有人认为还不如直接教来得快。但在 Hyung Won 看来：「对于人类来说确实如此，但是对于机器来说，我们可以提供更多的计算来缩短时间。」

换句话说，面对有限的时间，人类也许还要在专家 or 通才之间做选择，但对于机器来说，算力就能达到。原因也众所周知，大型通用模型能够通过大规模的训练和学习，快速适应和掌握新的任务和领域，而不需要从头开始训练。他还补充道，数据显示计算能力大约每 5 年提高 10 倍。

此外，他还认为当前存在一个误区，即人们正在试图让 AI 学会像人类一样思考。但问题是，我们并不知道自己在神经元层面是如何思考的。「机器应该有更多的自主性来选择如何学习，而不是被限制在人类理解的数学语言和结构中。」在 Hyung Won 看来，一个系统或算法过于依赖人为设定的规则和结构，那么它可能难以适应新的、未预见的情况或数据。造成的结果就是，面对更大规模或更复杂的问题时，其扩展能力将会受限。（@IT 之家）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述