李彦宏最新内部讲话曝光,谈大模型三大认知误区:榜单不代表实力,智能体还是非共识

图片来源:百度

近半年多来,AI行业在经历飞速增长后开始进入冷静期。业内出现了对AI的担忧声音:大模型技术是否已经接近天花板?大模型之间是否没有技术壁垒?闭源模型相对开源模型的优势是什么?AI应用的发展方向在哪里?这些令人担心的问题甚至引发了AI是否又是一场科技泡沫的舆论。

近日,李彦宏的一场内部讲话被曝光。他提出了大模型三大认知误区,涉及了大模型竞争格局、开源模型效能以及智能体发展趋势等备受关注的话题。ZP整理了李彦宏的核心观点和讲话原文。

核心观点

误区一:大模型之间的能力已经不存在壁垒?

打榜不能代表大模型真正实力

对于行业“大模型之间的能力已经没有壁垒”的说法,李彦宏给出了不同观点。“每次新模型发布,都要和GPT-4o做比较,说我的得分已经跟它差不多了,甚至某些单项上得分已经超过它了,但这并不表明和最先进的模型就没有差距了。”

大模型公司刷榜似乎已经成为“潜规则”,也就是李彦宏在讲话中说到的“对于测试集的over-fitting”。为了让为了让自家模型得高分,这里面很多厂商会刷榜,有的会让数据标注员把评测题做一遍,有的会让GPT-4做一遍再把答案喂给自家模型,相当于让模型“刷题”考高分,但在实际应用场景中,就出现高分低能。李彦宏说“从榜单或者测试集上看,你觉得能力已经很接近了,但到实际应用中还是有明显差距的。”

模型之间的差距是多维度的

很多公司或者用户对于模型能力的评价是片面的,往往只看基础能力的对比数据,这就导致了对于单一榜单的过度迷恋。实际上,李彦宏指出,模型之间的差距是多维度的。行业往往更关注理解、生成、逻辑、记忆等能力的差距,但却忽视了成本、推理速度等维度。有些模型虽能达到同样效果,但成本高、推理速度慢,还是不如先进模型。

模型能力的天花板很高,最终比的是谁能持续迭代

李彦宏表示,“模型天花板很高,你今天做到的跟你实际想要做到的、跟理想状态还差得非常远,所以模型还需要不断快速地去迭代、去更新、去升级。” 如果大模型公司不能持续投入和满足用户需求,很快就会被拉开差距。“哪怕你能保证永远领先竞争对手6个月,那就赢了,你的市场份额可能是70%,而对手可能仅为20%甚至10%的份额。”

 

误区二:开源缩小闭源模型的差距,闭源大模型没有优势?

软件时代开源的优势在大模型时代不成立

外界常常固守的观念是“开源一定好”,但这在大模型时代却不一定正确。软件时代,开源的优势是建立在低廉的算力和硬件成本之上的,但对于大模型来说,算力成本却是无法被忽略的关键因素。

李彦宏表示,在大模型时代之前,大家习惯了开源意味着免费、意味着成本低。但这些在大模型时代不成立。比如开源的Linux为什么免费,因为已经有了电脑,所以使用起来是免费的。但是大模型时代,算力是“命根子”,推理成本是很贵的,开源模型也不会送算力,还得自己买设备,无法实现算力的高效利用。

开源模型效率不高,在商业领域没有优势

李彦宏指出,“商业化的模型是无数个用户或者说客户在共享同样的资源,在分摊研发成本、分摊推理用的机器资源和GPU。,GPU的使用效率是最高的。”目前文心大模型3.5、4.0,GPU使用率都能达到90%多。

但是在商业场景下使用开源模型还得去找算力,自己去部署,GPU使用率是问题,最终的综合成本是没有一开始就选择商业化模型划算。

因此,李彦宏表示,在教学科研等领域,开源模型是有价值的;但在商业领域,当追求的是效率、效果和最低成本时,开源模型是没有优势的。

 

误区三:AI应用难以落地,找不到商业化路径?

大模型应用的发展阶段整体是清晰的:从Copilot到Agent智能体,再到AI Worker。

李彦宏在讲话中表示,大模型应用的发展过程必然要经历几个阶段。开始是对人进行辅助,最后出来什么东西需要人把最后一道关,我们确定它的效果是OK的,各方面都不错才会让它出去,这是Copilot阶段;再往下走就是Agent智能体,有了一定的自主性,具备自主使用工具、反思、自我进化等能力;这种自动化程度再往下走就变成一个所谓的Al Worker,各方面的工作都可以独立完成。

智能体门槛足够低,是当前大模型最重要的发展方向

过去一年很多的目光都在多模态,但其实忽略了智能体才是目前最能激发大模型潜力的应用方向。李彦宏表示,“智能体的门槛确实很低”, 很多人不知道怎么把大模型变成应用,而智能体是一个非常直接、高效、简单的方式,在模型之上构建智能体相当方便。

虽然智能体已经收到越来越多的大模型公司和客户的关注,但依旧没有被完全重视起来,还有很大的发展潜力。李彦宏认为,“到今天为止,智能体还不是共识,像百度这样把智能体作为大模型最重要的战略、最重要的发展方向的公司并不多。”

图片来源:百度

内部讲话原文

问:有观点认为,大模型之间的能力已经没有壁垒了?

李彦宏:这个说法我不同意。我认为外界对大模型有相当多的误解,每一个新模型发布时,肯定都想说自己有多好,每次都去跟GPT-4o做比较,拿测试集或者弄一些榜单,说我的得分已经跟它差不多了,甚至某些单项上得分已经超过它了,但这并不能证明这些新发的模型跟OpenAl最先进的模型相比已经没有那么大的差距了。

模型之间的差距是多维度的,一个维度是能力方面,不管是理解能力、生成能力、逻辑推理能力还是记忆能力等这些基本能力上的差距;另一个维度是成本方面,你想具备这个能力或者想回答这些问题,你付出的成本是多少?有些模型可能推理速度很慢,虽然也达到同样的效果了,但实际上它的体验还是不如最先进的模型。还有就是对于测试集的over-fitting,每一个想证明自己能力的模型都会去打榜,打榜时他就要猜别人到底在测什么、哪些题我用什么样的技巧就能做对,所以从榜单或者测试集上看,你觉得能力已经很接近了,但到实际应用中还是有明显差距的。

部分自媒体的炒作,再加上每个新模型发布的时候都有宣传的动力,使得大家有一种印象,认为模型之间的能力差别已经比较小了,其实真不是这样。在实际使用过程当中,我不允许我们的技术人员去打榜,真正衡量文心大模型能力的是,你在具体应用场景当中到底有没有能够满足用户的需求,有没有能够产生价值的增益,这是我们真正在乎的。

我们需要看到,一方面模型能力之间还有比较明显的差距,另外一方面天花板很高,你今天做到的跟你实际想要做到的、跟理想状态还差得非常远,所以模型还需要不断快速地去迭代、去更新、去升级。即使今天你看到差距也许没有那么大了,再过一年你看看差距有没有拉大?有谁能够持续不断地几年甚至十几年如一日往这个方向上去投入,让它越来越能够满足用户的需求、满足场景、满足提升效率或者说降低成本等需求?不同的模型之间差距不是越来越小,是会越来越大的,只是他们不知道真实需求的时候,只去做测试集的题可能觉得差不多了。

所谓的领先12个月或者落后18个月,我认为没有那么重要。我们每个公司都处在完全竞争的市场环境中,你不管做什么方向都有很多竞争对手,如果你能永远保证领先对手12~18个月,那是天下无敌的,不要觉得12—18个月是很短的时间,哪怕你能保证永远领先竞争对手6个月,那就赢了,你的市场份额可能是70%,而对手可能仅为20%甚至10%的份额。

问:有人说开源模型正在缩小与闭源模型的差距,这会摧毁闭源大模型公司的商业模式吗?

李彦宏:这个问题跟上一个问题是高度关联的,我刚才讲一个模型除了能力或效果之外还要看效率,效率上开源模型是不行的。闭源模型准确地讲应该叫商业模型,商业化的模型是无数个用户或者说客户在共享同样的资源,在分摊研发成本、分摊推理用的机器资源和GPU,而开源模型需要你自己去部署一套东西,部署之后GPU的使用率是多少呢?我们的文心大模型3.5、4.0也好,使用率都是90%多,你部署一个开源模型有多少人在用?我们对外讲文心大模型每天调用量超过6亿,每天生成的token数超过万亿,哪个开源模型可以说自己一天调用量是多少、生成了多少token?没有人用的话成本怎么分担?推理成本怎么能够跟商业化模型相比呢?

在大模型时代之前,大家习惯了开源意味着免费、意味着成本低。那时市面上那种商业化的产品,每一个版本都要为之付钱,比如买一个电脑装Windows,可能微软要从中收多少钱,而你如果跑一个Linux就不用花这个钱了。由于Linux是开源的,所有程序员都可以看到代码,哪儿做的不好我可以去更新,更新了再check in,大家众人拾柴火焰高,你在巨人的肩膀上可以不断地进步。但是这些东西在大模型时代都不成立,大模型时代大家经常讲的是GPU有多贵,算力是决定大模型成败的一个关键因素,开源的模型给你送算力吗?它不给你送算力,怎么能够让算力高效地被利用?开源模型解决不了这个问题。

以前你买电脑的时候就已经为算力付费了,但大模型的推理不是这样,这个推理其实很贵。所以说开源大模型的价值在教学科研这些领域,要想搞清楚大模型的工作原理是啥,如果不知道源代码什么的肯定是有劣势的,但是真正在商业领域,当你追求的是效率、效果,追求的是最低的成本时,开源模型是没有优势的。

问:AI应用的演进方式是什么?为什么强调智能体?

李彦宏:大模型发展的过程必然要经历这几个阶段,一开始是对人进行辅助,最后出来什么东西需要人把最后一道关,我们确定它的效果是OK的,各方面都不错才会让它出去,这是Copilot阶段;再往下走就是Agent智能体,外界对于Agent有各种各样不同的定义,最主要还是说它有了一定的自主性,具备自主使用工具、反思、自我进化等能力;这种自动化程度再往下走就变成一个所谓的Al Worker,能够像人一样做各种各样的脑力和体力劳动,各方面的工作都可以独立完成。肯定要有这么一个过程。

“智能体是大模型最重要的发展方向”这个判断,其实是一个非共识。百度Create大会上我们发了三个产品,AgentBuilder、AppBuilder、ModelBuilder,其中AgentBuilder和AppBuilder都是讲智能体的,一个门槛更低一些,另一个功能更强大一些。当我们解释完了之后,有些人终于开始明白这东西确实有意思,能够产生价值,而且已经可以相对比较低门槛地做出来大家感觉可用的东西。从那时候开始智能体的热度才慢慢上来,也开始有很多人看好智能体这个发展方向,但是到今天为止智能体还不是共识,像百度这样把智能体作为大模型最重要的战略、最重要的发展方向的公司并不多。

为什么我们这么强调智能体?因为智能体的门槛确实很低,我们去年说要卷应用、大家都去做应用,其实很多人还是说不知道该怎么做,不知道这个方向能不能做出来,我到底要用到什么能力才能够在这个场景下产生价值,这里面有无数不确定性,大家不知道怎么从模型变成应用。但是智能体提供了一个非常直接、非常高效、非常简单的方式,在模型之上构建智能体是相当方便的,这也是为什么今天每周都有上万个新的智能体在文心平台上被创造出来。

智能体方面我们已经看到了趋势,也有比较好的先决条件,除了模型本身的能力比较强大之外,我们也有很好的分发通路。百度的APP,尤其是百度搜索一天有数以亿计的人在用,用户的需求主动向我们表达了,哪一个智能体能更好地去回答他这些问题,去满足他这些需求,这是一个自然匹配的过程,所以我们是最能够帮助这些开发者分发他们智能体的。

END

来源 | Z Potentials,管理智慧

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/148405.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

遗传算法与深度学习实战(14)——进化策略详解与实现

遗传算法与深度学习实战(14)——进化策略详解与实现 0. 前言1. 进化策略1.1 进化策略原理1.2 将进化策略应用于函数逼近 2. 实现进化策略小结系列链接 0. 前言 进化策略 (Evolutionary Strategies, ES) 是进化计算和遗传方法的扩展,增加了控…

SSM整合步骤

目录 一、Mybatis整合Spring 1、整合后的maven坐标 2、核心配置文件 3、pojo、mapper、service配置 4、单测 二、整合SpringMVC 1、引入springMVC的坐标并配置tomcat 2、核心配置文件 3、controller配置 4、启动项目并测试 SSM SpringMVC Spring Mybatis 整合顺序&#xff1…

动态线程池(六)

动态线程池 AlarmManager报警管理器 AlarmManager的doAlarmAsync AlarmLimiter警报限流器 AlarmCounter警报计数器 checkThreadhole报警阈值检查 NotifyHelper alarm_keys 向notifyItems填充platformIds 初始化通知 刷新通知 NotifyFilterBuilder 同步 拒绝 RejectedAware 三…

【Python学习手册(第四版)】学习笔记24-高级模块话题

个人总结难免疏漏,请多包涵。更多内容请查看原文。本文以及学习笔记系列仅用于个人学习、研究交流。 本来计划中秋发布几篇文章,结果阳了,发烧、头疼、咽疼,修养了近一周,还没好完。希望大家都能有个好身体&#xff0…

【题解】—— LeetCode一周小结38

🌟欢迎来到 我的博客 —— 探索技术的无限可能! 🌟博客的简介(文章目录) 【题解】—— 每日一道题目栏 上接:【题解】—— LeetCode一周小结37 16.公交站间的距离 题目链接:1184. 公交站间的距…

vscode调试配置文件,微软官方

vscode调试配置文件,微软官方 选择对应的文件夹 在readme中找到配置 在vscode中,点击创建launch.json文件 这时在文件夹中会多一个文件 可以愉快的使用调试功能了

《〈妈妈朋友的儿子〉:一场别样的浪漫与成长之旅》

《〈妈妈朋友的儿子〉:一场别样的浪漫与成长之旅》 最近,一部名为《妈妈朋友的儿子》的韩剧,如同一颗闪耀的新星,在影视的天空中绽放出独特的光芒,吸引了众多观众的目光。今天,就让我们一同走进这个充满温情…

多模态论文串讲-学习笔记(上)

入门参考:跟着chatgpt一起学|多模态入门-CSDN博客 学习参考:多模态论文串讲上【论文精读46】_哔哩哔哩_bilibili,强烈推荐这个博主啊,感觉比沐神讲的还要清楚,非常喜欢。 本文介绍只使用transformer encoder的方法&a…

【软件工程】系统流程图

一、定义 二、常用符号 例题 选择题

空栈压数 - 华为OD统一考试(E卷)

2024华为OD机试(E卷D卷C卷)最新题库【超值优惠】Java/Python/C合集 题目描述 向一个空栈压入正整数,每当压入一个整数时,执行以下规则(设:栈顶至栈底整数依次编号为 $n_1, n_2, \dots, n_x $,其…

Tile View Kanban Board平铺视图和看板

Goto 数据网格和视图入门 平铺视图(TileView 类)将数据记录显示为平铺。此视图类型可以以任何自定义方式排列多个元素(bound 和 unbound)。用户可以按如下方式编辑瓦片: 使用模态 Edit Form。利用 HTML-CSS 平铺模板…

MySQL(七)——事务

文章目录 事务事务的概念事务的ACID特性事务的语法查看存储引擎查看自动提交参数和设置手动事务操作保存点 隔离级别与并发事务问题隔离级别并发事务问题 事务 事务的概念 事务(Transaction)是数据库管理系统中执行过程中的一个逻辑单位,由…

高效打造知识图谱,使用LlamaIndex Relik实现实体关联和关系抽取

大家好,文本信息转化为知识图谱的技术,自问世以来一直是研究界的宠儿。大型语言模型(LLMs)的兴起让这个领域受到更多关注,但LLMs的成本之高令人却步。然而通过对小型模型微调优化,可以找到一种更经济高效的…

Linux中的环境变量及main函数参数详解

目录 Linux中的环境变量 常见环境变量 PATH : 和环境变量相关的命令 通过系统调用获取或设置环境变量 getenv putenv 新增环境变量 进程切换: main函数参数 命令行参数 Linux中的环境变量 环境变量(environment variables)一般是指在操作系统中用来指定操…

面试速通宝典——1

1. 内存有哪几种类型? ‌‌‌‌  内存分为五个区,堆(malloc)、栈(如局部变量、函数参数)、程序代码区(存放二进制代码)、全局/静态存储区(全局变量、static变量&#…

GNU链接器(LD):什么是符号?符号定义及实例解析

0 参考资料 GNU-LD-v2.30-中文手册.pdf GNU linker.pdf1 前言 一个完整的编译工具链应该包含以下4个部分: (1)编译器 (2)汇编器 (3)链接器 (4)lib库 在GNU工具链中&…

手动实现逻辑回归算法(LogisticRegression)

目录 1. 前言 2. 示例 3. 原理介绍 4. 实验代码 1. 前言 逻辑回归是一种解决分类问题的算法 值得注意的是,在机器学习中,回归指的是连续型数据的预测问题。而这里的逻辑回归特指分类任务,比如判断一个人是否患病、是否健康等等 逻辑回归…

nodejs基于vue+express度假村旅游管理系统设计与实现7t82p

目录 功能介绍数据库设计具体实现截图技术栈技术论证解决的思路论文目录核心代码风格详细视频演示源码获取 功能介绍 实现了一个完整的农家乐系统,其中主要有用户表模块、关于我们模块、收藏表模块、公告信息模块、酒店预订模块、酒店信息模块、景区信息模块、景区…

ARM(Day 2)

一、作业 (1)汇编代码 .text.globl _start_start:mov r0, #0x5mov r1, #0x10比较r0,r1 是否相等 相等执行stop 不相等执行下一步比较( r0 > r1 ?)cmp r0, r1 比较实际在做减法 (YES NO )subhi r0, r0, r1 r0 > r1 …

VLDB 2024 圆桌会议回顾:展望物联网与 AI 时代的时序数据库

回顾我们在 VLDB 2024 8 月 26 日至 8 月 30 日,数据库领域的顶级国际会议 VLDB 2024 在广州举行。IoTDB 最新研发成果的三篇论文被本次大会录用(详见:IoTDB 在顶级会议 VLDB 2024:四篇最新论文入选,特邀做 TPC 报告与…