现在的大模型榜单,真就没一个可信的,真的都是水分

现在的大模型榜单上,真的都是水分。

全是作弊的考生,真的。

上周,AI圈有个很炸裂的大模型发布,在全网引起了山呼海啸,一众从业者和媒体尊称它为开源新王。

就是Reflection 70B。

在每项基准测试上都超过了 GPT-4o,还只用70B的参数,就击败了405B的Llama 3.1,模型中还有一个叫「Reflection-Tuning」的技术,能让模型能够在最终回复之前,先识别自己有没有错误,如果有,纠正以后再回答。

其实这个东西当时我就很存疑,因为在我的理解里,这玩意,就是个CoT,就是个纯Prompt,一个Prompt把70B模型直接带的螺旋升天?

你这玩意,真要是能做到,奥特曼就真的直接原地给你磕头了。。。

最关键的是,还有一个很离谱的点,这个模型就两个人做,而且,从一拍即合、到找数据集、到模型微调完成并正式发布,一共就花了3周。

这效率,这速度,直接卷的螺旋升天,国内大厂速度没卷到这个地步…

于是我就观望了几天。

直到昨天,发现这模型底都快被人扒掉了。

模型结果造假,提供给开发者的API,还是造假。

先是跑分评测上面,这是他们老板Matt自己发出来的跑分结果,勇夺第一。

看这个结果,你就说屌不屌吧,拳打Claude3.5,脚踢GPT-4o,还把Gemini1.5 Pro和Llama3.1 405B给摁在地上摩擦。

你很难想象这只是一个两个人花三周训的70B的模型能干出来的事。

直到7号,Artificial Analysis用他们自己的标准评测集跑了一通,发现这事不对啊,你这么多项评测集都登顶了,你应该很牛逼才对啊,这得分什么情况???

他们是这么说的:

“哥们,我们测完了咋感觉你比Llama3.1 70B更拉了呢?老实说,你是不是在骗兄弟们。”

Matt看到了以后,开始说卧槽不对劲啊,我们内部是好的啊,怎么你们测试结果这么烂?

花了好半天,Matt终于说,哦是**Hugging Face 权重出现了问题,**我也不知道咋回事,你们等一等。

说完还不忘凡尔赛一下,说:

翻译一下就是:我们是在太太太太火啦,你们再等等啊,乖

直到今天凌晨,最骚的事情来了,Matt说,我们终于解决了问题,开放了新的API。

他们提供了一个私有接口,说这个才是Reflection 70B完全体。

大家一测,卧槽,果然牛逼,牛逼炸了。

真的好像比GPT4o还有那些大厂的模型强哎。

就差点直接给Reflection 70B开香槟了。

2个人,3周时间,创了AI行业的奇迹。

但是大家香槟刚开一半,就被生生的摁回去了。

大家发现,这个所谓的“Reflection 70B”的API,怎么跟Claude3.5回复的东西,一模一样。。。

于是有人,又做了一个验证测试,他把所有API的参数全部设为10个Token、0温度、top_k 1,然后让大模型,重复entsprechend这个词20次,因为大模型对token的计算都不太一样,所以其实10个token限制输出的内容也不太一样,你既然说你是基于Llama3.1微调的,那你肯定得跟Llama3.1输出内容一样对吧。

但是,结果直接让人大跌眼镜。

好兄弟,你怎么,跟Claude的长度一样,你到底是Llama3.1生出的Reflection 70B,还是披着狗皮的Claude啊???

更狗的是,他们居然,还把Claude设成了屏蔽词,在用户的对话中,一旦你发Claude,就直接剔除。

骚啊,实在是太骚了。。。

这下,所有AI行业的人,都知道,Reflection 70B就是一场彻头彻尾的闹剧。

这个闹剧背后,我觉得反应出了现在整个AI领域,一个非常诡异的现象。

刷榜。

回到整个事情的起点,就是模型能力的强度,和榜单。

正是因为Reflection 70B在评测集上屠榜了,秒杀Claude3.5和GPT4o,才让大家如此兴奋。

但是结果大家发现,卧槽你怎么就做那些特定评测集的题目那么牛逼?换个别的题就直接变废物了?不是细狗你行不行啊?

直接对着答案抄,还不行,那不扯淡吗。

大模型目前的评测体系,从来就不复杂,就是考试,纯纯的考试。

评测数据集相当于试卷,模型就是正在考试的学生,最后交卷,看谁的分高。

听起来是不是很科学?理论上是的,但是大模型评测领域有一个非常严重的BUG,就是评测集,就是考试试卷,是公开的,所有人在考试之前,都可以看到考卷。

为什么评测机构要公开评测集?不公开不就行了?

答案是不行。

高考和学校的考试,是权威的考试,我不差你一个,你爱考不考,我就是天,我就是规则,所以,他们当然不会公开试卷,一切以公平说话。

但是大模型领域,太新了,这些评测榜单,比如SuperCLUE、C-Eval、HuggingFace,话语权没那么大,供需关系倒过来了,如果机构在评测时用什么问题以及对应什么答案是什么一直不公开,如果机构的评测逻辑与工具、评分方法与过程是封闭的“黑盒子”,那一定会被招来无数质疑,先被干躺的是这些评测机构你信不信。

两害相权取其轻,所以就变成了现在的情况了。

人们总是单纯的,总是喜欢量化的,也总是喜欢用一些固定的标准,来恒定一个东西的好与差。

所以在这一年半的白模大战中,我们经常能听到各种奇奇怪怪的第一,每个模型,都说自己超越GPT4o了,把它按在脚下摩擦。

6月27日:“ 讯飞星火V4.0不仅在8个国际主流测试集中排名第一,领先国内大模型,并在文本生成、语言理解、知识问答、逻辑推理、数学能力等方面实现了对GPT-4 Turbo的整体超越。”

_5月21日:“在 LMSYS最新排名中,零一万物的最新千亿参数模型 Yi-Large 总榜排名世界模型第7,中国大模型中第一,已经超过 Llama-3-70B、Claude 3 Sonnet;其中文分榜更是与 GPT4o 并列世界第一。”
_

3__月26日:“沙利文发布了《2024年中国大模型能力评测》,评测显示,百度文心一言稳居国产大模型首位,拿下数理科学、语言能力、道德责任、行业能力及综合能力等五大评测维度的四项第一”

我不想说什么模型好什么模型不好,这种刷榜到底有没有意义,我只想说,使用者一定会用脚投票的。

况且,有的排行榜,那是真的不能看,比如前段时间看到的一个权威机构的文生视频排行榜,用量化指标来恒量视频生成质量。

别的我不说了,我就说你把智谱清影排在可灵上面,你自己去问问智谱的人,他们敢接这个第二吗?智谱是一家很实诚的公司,所以他们品牌市场也没拿这玩意去做宣传,你要是一些别的公司,又得PR起飞了。

这个榜单创作者们看到也只会笑笑,大家不傻,真的。

在经济学中,有一个著名的理论,叫做古德哈特定律。

原意是:一项社会指标或经济指标,一旦成为一个用以指引宏观政策制定的既定目标,那么该指标就会丧失其原本具有的信息价值。因为政策制定者会牺牲其他方面来强化这个指标,从而使这个指标不再具有指示整体情况的作用。

用最简单的话来说,就是:

“当一个指标成为目标时,它就不再是一个好的指标。”

万物皆如此。

所以这里,我想说一个暴论:现在的大模型榜单,还有各种乱七八糟的AI产品榜单,参考看看可以,但是不要奉为圣经,更不要当真,拿来做你跟别人吵架的凭据。

骗骗兄弟可以,别把自己也骗了。

当所有的大模型,都用MMLU、MATH、IFEval、GSM8K之类的基准测试来衡量自己模型的能力,那这些基准测试,也就不再是一个好的基准了。

去年一篇论文让我印象非常的深刻,叫《Don’t Make Your LLM an Evaluation Benchmark Cheater》,来自中国人民大学。

里面详细的阐述了因为数据泄露而引起的整个大模型刷榜情况的虚假繁荣。

N多模型,直接把评测集的数据训在了模型里面,从而直接屠榜,来引起声量和讨论。

这就像学校里考试,我们每个人都公平的在考场上,一起考试答题,大家各凭本事一决胜负。

但是偏偏有个学生,平时满分750他只能考个299,但是这次,他在考试前,已经提前知道了所有卷子的题目和答案,都在脑子里背了下来,只有一些语文之类的主观题没有满分,其他全是满分,考了720分。

那你会觉得,他考了720分,是因为他真的牛逼吗?

傻子才会。

大模型的评测,跟这种考试,没有任何区别。刷题而已,人类刷了几千年的题,这点手段,还能难倒背后的人?开什么玩笑。

所以《Don’t Make Your LLM an Evaluation Benchmark Cheater》的作者,提出一种方法, 用n-gram哈希算法在考试前对数据污染现象,进行严格检查,只要是作弊的,一律滚出去。

可惜,因为我上面说的那些乱七八糟的问题,并没有办法用上,现在所有的榜单,都还是充斥着无数的水分。

榜单不再可信,但是普通用户和开发者,永远会用脚投票。

所以,真的,骗骗哥们可以,别把你自己也骗了。

AI这行里,真的充斥着各种各样奇奇怪怪的现象。

脚踏实地做点事吧。

站在普通人的场景想想未来。

我觉得,比那一瞬的泡沫,更重要。

在这里插入图片描述

大模型&AI产品经理如何学习

求大家的点赞和收藏,我花2万买的大模型学习资料免费共享给你们,来看看有哪些东西。

1.学习路线图

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

2.视频教程

网上虽然也有很多的学习资源,但基本上都残缺不全的,这是我自己整理的大模型视频教程,上面路线图的每一个知识点,我都有配套的视频讲解。

在这里插入图片描述

在这里插入图片描述

(都打包成一块的了,不能一一展开,总共300多集)

因篇幅有限,仅展示部分资料,需要点击下方图片前往获取

3.技术文档和电子书

这里主要整理了大模型相关PDF书籍、行业报告、文档,有几百本,都是目前行业最新的。
在这里插入图片描述

4.LLM面试题和面经合集

这里主要整理了行业目前最新的大模型面试题和各种大厂offer面经合集。
在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。
在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1543545.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

printf 命令:格式化输出

一、命令简介 ​printf​ 命令在 Linux 系统中用于格式化并打印字符串到标准输出。它是 C 语言中 printf ​函数的命令行版本,因此其格式化选项与 C 语言中的非常相似。 相关命令: echo:通常使用 echo,它比较简单。printf&…

FastAPI开发环境搭建——开发第一个web程序

FastAPI开发环境搭建——开发第一个web程序 搭建开发环境 FastAPI官方文档学习 - FastAPI (tiangolo.com) 安装fastapi框架 pip install fastapi[all] pip install uvicorn使用对应IDE创建fastapi项目,例如pycharm,vscode和创建普通的python项目无差别 创建一个…

Solidity编码规范汇总篇

本文首发于公众号 【Keegan小钢】 上周,完成了 Solidity 编码规范的视频录制并上传到了 B 站、Youtube 和视频号。总共分为了 6 个小节,在 B 站的合集地址为: https://space.bilibili.com/60539794/channel/collectiondetail?sid3780183 为…

【ASE】第一课_双面着色器

今天我们一起来学习ASE插件,希望各位点个关注,一起跟随我的步伐 今天我们来学习双面着色器,对颜色和贴图进行差值,双面显示不同的效果 最终效果: 思路: 1.先确定前后面的贴图和颜色 贴图(Alb…

高效工程师的七个习惯

原文 我曾与一些杰出的工程师共事过 – 在诸如 FAANG 的大公司,也在初创规模的小公司。他们让我看到,传说中的「10 倍」工程师,真实存在! 如今,这些工程师中,有些人后来创办了自己的公司,他们…

kmp快速匹配

用处:对于一个较长的字符串A,判断A中是否存在字符串B。 思路: 暴力的做法是从A的每个元素开始,依次比较看是否有和B相同的子串,时间复杂度是o(N*N) 优化思路是对于每次查找完成以后&#xff…

springboot+vue宠物医院挂号看病诊断系统 f9h46

目录 宠物主人宠物医生系统管理人员系统实现截图技术介绍核心代码部分展示详细视频演示源码获取 宠物主人 登录注册:注册账户并登录系统。 首页:显示系统基本信息和用户导向功能。 个人中心:更新个人信息,包括联系方式、密码等。…

【AI创作组】工程方向的硕士研究生学习Matlab的路径

1. MATLAB软件概述 1.1 MATLAB发展历程 MATLAB自20世纪70年代诞生以来,已经经历了多次重要的版本更新和功能扩展。 初始版本:MATLAB的前身只是一个简单的交互式矩阵计算器,由Cleve B. Moler博士在1970年代初期开发,目的是为了方便学生和研究人员使用线性代数软件包LINPAC…

农业与植物基因组分析专家—优青博导提供从实验设计、数据分析到SCI论文咨询的一站式服务。多年经验,精准高效,为农业科研保驾护航!

🌟 教授团队领衔,全方位服务! 🚀 从实验设计到论文发表,一站式解决方案! 📈 选择我们,加速您的科研进程,让成果不再等待! 📝 专业分析 定制服…

ubuntu安装gitlab-runner

目录 1.添加gitlab 仓库地址 ​编辑2. 安装gitlab-runner命令 1.添加gitlab 仓库地址 curl -L "https://packages.gitlab.com/install/repositories/runner/gitlab-runner/script.deb.sh" | sudo bash2. 安装gitlab-runner命令 sudo apt-get install -y gitlab-ru…

Python3爬虫教程-HTTP基本原理

HTTP基本原理 1,URL组成部分详解2,HTTP和HTTPS3,HTTP请求过程4,请求(Request)请求方法(Request Method)请求的网址(Request URL)请求头(Request H…

招联金融内推(深圳武汉大量招后端、算法)---2025秋招内推

【投递方式】 直接扫下方二维码,或点击内推官网https://wecruit.hotjob.cn/SU61025e262f9d247b98e0a2c2/mc/position/campus,使用内推码 igcefb 投递) 【招聘岗位】 后台开发 前端开发 数据开发 数据运营 算法开发 技术运维 软件测试 产品策…

HubSpot一站式增长平台,让获客变得超简单

在这片浩瀚的商业海洋中,每一位企业家都是一位勇敢的航海家,驾驶着自己的船只,追逐着心中的梦想与远方。然而,风浪无情,竞争激烈,如何才能确保你的航程既平稳又快速?HubSpot,正是那位…

宠物去浮毛救星?希喂、小米、霍尼韦尔宠物空气净化器哪款好用

怎么有人放假也不开心? 快到的国庆假期真是愁死我了...本来我妈国庆去旅游,我就打算不回家,和我家猫过二人世界。结果突然有事,我妈取消出行,改成让我假期回家陪她。我回家容易,我家猫回去可难啊&#xff…

【C++】拆分详解 - string类

文章目录 一、为什么学习string类?二、标准库中的string类  1. 定义  2. 常用接口说明     2.1 构造     2.2 容量操作     2.3 访问及遍历操作     2.4 修改操作     2.5 非成员函数 三、OJ练习自测  [1. 仅仅反转字母](https://leetcod…

基于DeepFace深度学习模型的离线版人脸识别API接口实现(类似百度在线API接口)

一 背景 人脸识别技术经过数年的发展,在技术算法、识别性能、应用场景以及隐私保护和数据安全等方面都取得了显著的进步和成熟。 应用场景 门禁系统: 在门禁系统中,离线人脸识别可用于身份验证,用户只需站在摄像头前&#xff0…

明明没违规,应用还是被判恶意软件?可能是这些原因

作为Google Play上架应用的开发者,大家的普遍感受:比起写代码,上架的过程简直更让人心力交瘁!特别是涉及用户数据和隐私保护的时候,稍有疏忽,就可能面临应用被下架、甚至账号被封的风险。 最近听到很多开发…

FPGA随记——VIVADO中ASYNC_REG指令

参考文章:Vivado综合属性系列一、ASYNC_REG_asyncregtrue-CSDN博客 -很棒棒的 跨时钟域设计(CDC)是个老生常谈的问题,其场景很多很杂,其中一个比较为人熟知的就是单bit信号从慢时钟到快时钟所采用的两级寄存器处理的…

一种求解城市场景下无人机三维路径规划的高维多目标优化算法,MATLAB代码

在城市环境下进行无人机三维路径规划时,需要考虑的因素包括高楼、障碍物、飞行安全和效率等。为了解决这些问题,研究者们提出了多种算法,包括基于智能优化算法的方法。 首先,无人机航迹规划问题的数学模型需要考虑无人机的基本约…

Spring Boot集成Redis Search快速入门Demo

1.什么是Redis Search? RedisSearch 是一个基于 Redis 的搜索引擎模块,它提供了全文搜索、索引和聚合功能。通过 RedisSearch,可以为 Redis 中的数据创建索引,执行复杂的搜索查询,并实现高级功能,如自动完…