【深度分析】OpenAI o1是最强的推理模型，却不是最强模型！

大家好，我是木易，一个持续关注AI领域的互联网技术产品经理，国内Top2本科，美国Top10 CS研究生，MBA。我坚信AI是普通人变强的“外挂”，专注于分享AI全维度知识，包括但不限于AI科普，AI工具测评，AI效率提升，AI行业洞察。关注我，AI之路不迷路，2024我们一起变强。

就在昨天（9月12日），OpenAI高调发布了全新的AI模型o1，同一时刻，各路媒体开始纷纷跟进。如果你以OpenAI o1作为关键词进行搜索，定然会看到诸如“最强大”、“地表最强”、“猎杀时刻”、“AI新时代”等等定语形容词。然而，虽然不可否认o1模型在推理方面确实很强，但当前版本的o1距离“最强”的完全体还有着不小的距离。且听我一一道来。

`o1`是最强的推理模型

说o1最强，记得加上“推理”二字。

为什么推理如此重要？我在《OpenAI提出从AI到AGI通用人工智能的五级分类系统！》一文中曾详细解释OpenAI提出的从AI到AGI（通用人工智能）的五个发展阶段。这也代表着OpenAI的“野心”。

AI发展的第一阶段是基础AI，如当前的ChatGPT，能进行自然语言处理和简单对话，但推理和解决复杂问题的能力有限。第二阶段是推理者，具备更强的逻辑推理能力，能够解决博士级学术问题，并在多个领域展现专业知识。第三阶段是代理AI，能理解并执行用户需求，如预约、发邮件等。第四阶段是创新AI，具备自主研究和开发新技术的能力，推动科学进步。最高阶段是组织AI，代表AGI的最终形态，能够跨领域协同创新，提供复杂的专业服务。

ChatGPT处于第一阶段，是“基础AI”，那么，这次新推出的o1模型是第几阶段应该一目了然了吧。o1这个推理模型的发布也代表着OpenAI愿景的进一步推动，从第一阶段跨入了第二阶段，这也是为什么新模型不叫“GPT-5”，而是从1开始重新记录版本号，称为o1的原因。

基于o1模型的训练方式，其强大的推理能力几乎是必然。让我们来看OpenAI官方的介绍。

o1 models think before they answer, and can produce a long internal chain of thought before responding to the user.

简单来说，o1模型和GPT-4o不同的是，GPT-4o几乎可以做到实时响应，而o1则会在回答之前执行精细化的“思考”，即内部思维链（internal chain of thought）。思维链是什么？是让AI模型模拟人类思考过程的一种技术手段，使得AI模型更“聪明”，从而获得更高质量的输出结果。思维链技术经常被用在提示工程中。更详细的介绍可以参考我这篇文章《思维链(Chain-of-Thought)技术的背后，是人类思考问题的方式！》。

在这样的训练方式下，o1模型取得了亮眼的标准化测试成绩：在国际数学奥林匹克（IMO）考试中正确率达到了惊人的83%，而GPT-4o的正确率仅有13%，在物化生等复杂学科的高难度基准任务上，表现与博士生相当。

也正因此，有了OpenAI宣传的AI基准测试的结果对比图。o1、o1-preview和o1-mini在多个测试中大幅超越GPT-4o，比如GPQA (General Purpose Question Answering)，测试模型在多领域科学问题上的推理能力，以及MATH-500，专注于数学推理的测试。

也正因为o1模型能够在回答问题前自主推理，它的安全性能很高，更不容易被“越狱”。这也是OpenAI大力宣传的一点。上一代的GPT-4o在越狱测试中的得分仅为22（满分100分），而o1-preview模型则取得了84的高分。

所以，o1是最强的，“推理”，模型。

`o1`还达不到“最强”模型

“看，这只是一只普通的、会拉屎的兔子而已。”

1. 以时间换质量

当前的o1模型是以时间换输出质量。基于之前讨论的训练方式，o1模型在回答前需要先“思考”，即推理，然后回答问题。

以OpenAI官方给出的案例为例，当我们输入问题“Give me five countries with letter A in the third position in the name”，GPT-4o在3秒内即给出了答案，但回答错误；o1-mini则用时9秒，回答正确；o1-preview更是花了32秒回答正确这个问题，其中思考时间长达30-31秒。

注意，o1模型是不区分简单问题还是复杂问题的，一律按照先思考、后回答的流程来给出答案。如果是一个非常复杂的任务或问题，那么这种思维链思考肯定是有意义的，但如果是普通模型就能解决的任务，那么完全没有必要来进入内部思维链。

2. 纯文本模型

当前的o1模型是一个纯文本模型，不具备多模态能力。

在介绍o1时，OpenAI明确提到：“As an early model, it doesn't yet have many of the features that make ChatGPT useful, like browsing the web for information and uploading files and images”。意思是o1模型还无法处理文件、图片等类型的输入。

所以，在ChatGPT中如果你选择了o1模型，在输入框左侧的文件上传按钮会被自动隐藏。

而当你当前的会话中如果上传过文件或图片，此时你打开模型选择的下拉菜单，就会看到下面的提示：This model doesn't support file attachments。该模型不支持文件上传。

3. 使用场景有限

以上两点会直接导致一个结果：当前o1模型的使用场景有限。

响应速度慢，推理能力强，意味着o1模型非常适合复杂的任务，和OpenAI宣传的一样，o1对于处理“难题”很擅长。而对于一般的任务，有种“大炮打蚊子”的感觉。另外，纯文本模型决定了o1的使用场景是受限的，对于需要多模态输入的任务中，当前的o1还难以胜任。

以上分析也和OpenAI特意强调的o1模型的适用人群吻合。OpenAI表示，o1特别适合那些需要处理复杂问题的专业领域，无论是科学研究、代码开发，还是数学运算等相关领域。而OpenAI给出的3个例子无一不是垂直领域的使用案例，比如帮助医疗研究人员标注细胞测序数据，生成量子光学所需的复杂数学公式，帮助开发者构建和执行多步骤的工作流程。

基于此，o1模型更像是一个工程产品，而不是一个全新的AI基座模型。小伙伴们可以细想，OpenAI在发布GPT-4或者GPT-4o时有强调过特定的适用人群吗？

4. 使用成本太高

当前的o1模型使用成本太高。

当下的o1模型还不是完全体，从目前已发布的模型名称就能看出来：o1-preview和o1-mini。预览版本算是提前发布。

o1模型使用成本高体现在两个方面。

首先是使用权限。目前只有ChatGPT Plus和Team付费会员可以在ChatGPT获得o1模型的使用权限，并且已全面放开。开发者则可以通过API调用使用o1模型，但，划重点，只有使用等级5（usage tier 5）的账号有权限调研o1模型。o1在使用数量上的限制也很严格。ChatGPT Plus和Team会员每周可以使用30次o1-preview及50次o1-mini对话。而o1API调用的数量限制为每分钟20次调用（20 RPM），这个数量是不足以大规模商用的。