机器之心 | 阿里云Qwen2.5发布!再登开源大模型王座,Qwen-Max性能逼近GPT-4o

本文来源公众号“机器之心”,仅用于学术分享,侵权删,干货满满。

原文链接:阿里云Qwen2.5发布!再登开源大模型王座,Qwen-Max性能逼近GPT-4o

人工智能领域再度迎来重磅消息! 

2023 年 8 月,通义首次开源后迅速引起全球开发者的关注和热议,短短一年时间内,阿里云大模型又迎来了重要升级。 

在 9 月 19 日的云栖大会上,CTO 周靖人宣布:通义千问发布新一代开源模型 Qwen2.5,开源旗舰模型 Qwen2.5-72B 性能超越 Llama 3.1-405B,再次登上全球开源大模型的王座;通义旗舰模型 Qwen-Max 全方位升级,性能已经逼近 GPT-4o。

发布现场,图源:泽南

通义千问凭借不断迭代的技术和丰富的应用场景,迅速崛起为开发者的热门选择,尤其是在中文社区中引发了广泛关注。这次发布,模型不仅展现出更强大的代码、数学和语言处理能力,还拥有领先的多模态处理和视觉智能,使其成为当前 AI 技术领域的佼佼者。 

百宝箱:Qwen2.5

这次,Qwen2.5 系列是一个超级 AI 模型「百宝箱」,涵盖了多个尺寸的大语言模型、多模态模型、数学模型和代码模型。每个尺寸都有基础版本、指令跟随版本和量化版本,总计上架了 100 多个模型,刷新了业界纪录。

集合链接:https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e

在语言模型方面,Qwen2.5 开源了 7 个尺寸:0.5B、1.5B、3B、7B、14B、32B、72B,每个都在同等参数赛道创造了业界最佳成绩。这些型号的设定充分考虑了下游场景的不同需求:3B 是适配手机等端侧设备的黄金尺寸;32B 是最受开发者期待的「性价比之王」,可在性能和功耗之间获得最佳平衡。令人惊喜的是,Qwen2.5-32B 的整体表现甚至超越了 Qwen2-72B。

所有 Qwen2.5 系列模型都在 18 万亿(18T)tokens 的数据上进行了预训练。相比 Qwen2,整体性能提升了 18% 以上,拥有更多的知识、更强的编程和数学能力。旗舰模型 Qwen2.5-72B 在 MMLU-redux(通用知识)、MBPP(代码能力)和 MATH(数学能力)等基准测试中,分别取得了 86.8、88.2、83.1 的高分。72B 作为 Qwen2.5 系列的旗舰模型,在多个核心任务上,以不到 1/5 的参数超越了拥有 4050 亿巨量参数的 Llama3.1-405B。

在专项模型方面,用于编程的 Qwen2.5-Coder 和用于数学的 Qwen2.5-Math 都有了实质性飞跃。Qwen2.5-Coder 在多达 5.5 万亿(5.5T)token 的编程相关数据上进行了训练,当天开源了 1.5B 和 7B 版本,未来还将开源 32B 版本。Qwen2.5-Math 支持使用思维链和工具集成推理(TIR)解决中英双语的数学题,是迄今为止最先进的开源数学模型系列。本次开源了 1.5B、7B、72B 三个尺寸和一款数学奖励模型 Qwen2.5-Math-RM。 

Qwen2.5 模型支持高达 128K 的上下文长度,最多可生成 8K 的内容。它们还拥有强大的多语言能力,支持中文、英文、法文、西班牙文、俄文、日文、越南文、阿拉伯文等 29 种以上语言。

在多模态模型领域,备受期待的视觉语言模型 Qwen2-VL-72B 正式开源!Qwen2-VL 具备强大的视觉理解能力,能够识别不同分辨率和长宽比的图片,还可以理解长达 20 分钟以上的视频内容。同时,它还支持自主操作手机和机器人的视觉智能功能,展现了高度灵活的应用场景。 

Qwen2-VL-72B 在权威测评 LMSYS Chatbot Arena Leaderboard 成为全球得分最高的开源视觉理解模型

Qwen-Max 全方位升级

现在,通义官网和通义 APP 的后台模型都已切换为 Qwen-Max,继续为所有用户免费服务。你还可以通过阿里云百炼平台调用 Qwen-Max 的 API,亲自体验它的强大实力。

那么,Qwen-Max 到底有多厉害呢? 

相比上一代模型,它在训练中使用了更多的训练数据、更大的模型规模,并进行了更深入的人类对齐,最终实现了智能水平的飞跃。在 MMLU-Pro、MATH、GSM8K、MBPP、MultiPL-E、LiveCodeBench 等十多个权威基准测试中,Qwen-Max 的表现已经接近 GPT-4o,尤其是在数学能力和代码能力上,甚至超越了 GPT-4o!要知道,数学和代码所代表的推理能力可是大模型智能的核心体现。

更令人兴奋的是,与 2023 年 4 月的初代通义千问大模型相比,Qwen-Max 的理解能力提升了 46%、数学能力提升了 75%、代码能力提升了 102%、抗幻觉能力提升了 35%、指令遵循能力提升了 105%。还有一个更加惊喜的数据,模型与人类偏好的对齐水平实现了质的飞跃,提升了 700% 以上。这意味着 Qwen-Max 不仅更聪明,还更懂你!

THE END !

文章结束,感谢阅读。您的点赞,收藏,评论是我继续更新的动力。大家有推荐的公众号可以评论区留言,共同学习,一起进步。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/146213.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

尚品汇-H5移动端整合系统(五十五)

目录: (1)运行前端页面 (2)启动前端页面 (3)添加搜索分类接口 (4)购物车模块修改 (5)登录模块 (6)订单模块 &#…

【巧用ddddocr破解算术运算验证码的经典示范】

计算型验证码 算术验证码,也叫计算型验证码, 计算型验证码其实是一种特殊的字符型验证码,只不过在它的基础上增加了数字运算。   计算型验证码在将人类视觉和计算机视觉的差异作为区分用户和电脑的依据的同时,还加上了逻辑运算&#xff0c…

基于SpringBoot+Vue的在线酒店预订系统

作者:计算机学姐 开发技术:SpringBoot、SSM、Vue、MySQL、JSP、ElementUI、Python、小程序等,“文末源码”。 专栏推荐:前后端分离项目源码、SpringBoot项目源码、SSM项目源码 系统展示 【2025最新】基于JavaSpringBootVueMySQL的…

人工智能开发实战常用分类算法归纳与解析

内容导读 决策树贝叶斯分类器最近邻分类器支持向量机神经网络 一、决策树 决策树(Decision Tree)是用于决策的一棵树,从根节点出发,通过决策节点对样本的不同特征属性进行划分,按照结果进入不同的分支,最终达到某一叶子节点&am…

计算机毕业设计 基于Python的校园个人闲置物品换购平台 闲置物品交易平台 Python+Django+Vue 前后端分离 附源码 讲解 文档

🍊作者:计算机编程-吉哥 🍊简介:专业从事JavaWeb程序开发,微信小程序开发,定制化项目、 源码、代码讲解、文档撰写、ppt制作。做自己喜欢的事,生活就是快乐的。 🍊心愿:点…

深耕电通二十年,崔光荣升电通中国首席执行官

电通今日宣布,任命拥有二十年深厚电通工作经验的杰出行业领袖崔光(Guang Cui)为电通中国首席执行官,该任命自2024年9月27日起生效。崔光自2004年加入电通以来,从策略规划岗位逐步成长为公司的核心领导者,这也是他职业生涯中的第9次…

篮球运动场景物体检测系统源码分享

篮球运动场景物体检测检测系统源码分享 [一条龙教学YOLOV8标注好的数据集一键训练_70全套改进创新点发刊_Web前端展示] 1.研究背景与意义 项目参考AAAI Association for the Advancement of Artificial Intelligence 项目来源AACV Association for the Advancement of Comp…

Linux基础---13三剑客及正则表达式

一.划水阶段 首先我们先来一个三剑客与正则表达式混合使用的简单示例,大致了解是个啥玩意儿。下面我来演示一下如何查询登录失败的ip地址及次数。 1.首先,进入到 /var/log目录下 cd /var/log效果如下 2.最后,输入如下指令即可查看&#xf…

OpenGL渲染管线(Rendering Pipeline)介绍

渲染管线 计算机图形学中,计算机图形管线(渲染管线 或简称 图形管线、流水线)是一个概念模型,它描述了t图像系统将 3D场景渲染到2D屏幕所需执行的一系列步骤。渲染管线大的可以分为三个阶段。 (一)应用阶段…

[UTCTF2020]sstv

用goldwave和010editor打开均未发现线索, 网上搜索sstv,豆包回答如下: 慢扫描电视(Slow Scan Television,简称 SSTV)是一种通过无线电传输和接收静态图像的技术。 一、工作原理 SSTV 通过将图像逐行扫描并…

【GMNER】Grounded Multimodal Named Entity Recognition on Social Media

Grounded Multimodal Named Entity Recognition on Social Media 动机解决方法特征抽取多模态索引设计索引生成框架EncoderDecoder 实体定位、实体-类型-区域三元组重建 出处:ACL2023 论文链接:https://aclanthology.org/2023.acl-long.508.pdf code链接…

[Linux] Linux操作系统 进程的状态

标题:[Linux] Linux操作系统 进程的状态 个人主页:水墨不写bug (图片来源于网络) 目录 一、前置概念的理解 1.并行和并发 2.时间片 3.进程间具有独立性 4.等待的本质 正文开始: 在校的时候,你一定学过《…

10 张手绘图详解Java 优先级队列PriorityQueue

PriorityQueue 是 Java 中的一个基于优先级堆的优先队列实现,它能够在 O(log n) 的时间复杂度内实现元素的插入和删除操作,并且能够自动维护队列中元素的优先级顺序。 通俗来说,PriorityQueue 就是一个队列,但是它不是先进先出的…

【速成Redis】04 Redis 概念扫盲:事务、持久化、主从复制、哨兵模式

前言: 前三篇如下: 【速成Redis】01 Redis简介及windows上如何安装redis-CSDN博客 【速成Redis】02 Redis 五大基本数据类型常用命令-CSDN博客 【速成Redis】03 Redis 五大高级数据结构介绍及其常用命令 | 消息队列、地理空间、HyperLogLog、BitMap、…

带你0到1之QT编程:十五、探索QSplitter和QDockWidget的简单应用技巧

此为QT编程的第十五谈!关注我,带你快速学习QT编程的学习路线! 每一篇的技术点都是很很重要!很重要!很重要!但不冗余! 我们通常采取总-分-总和生活化的讲解方式来阐述一个知识点! …

系统架构设计师 - 案例特训专题 - 软件工程篇

案例特训专题 - 软件工程篇 软件工程篇需求分析 ★★★★结构化需求分析 SA数据流图答题技巧 面向对象设计 ★★UML 图概况用例图类图与对象图顺序图通信图状态图活动图定时图构件图包图部署图 大家好呀!我是小笙,本章我主要分享系统架构设计师 - 案例特…

【刷题—双指针】复写0、三数之和、四数之和

目录 一、复写0二、三数之和三、四数之和 一、复写0 题目: 注意:题目要求是原数组上复写 思路: 一、确定最后一个复写的位置。定义两个变量cur等于0,dest等于-1,让cur去遍历数组。如果cur指向的元素是0,…

【玉米田】

题目 代码 #include <bits/stdc.h> using namespace std; typedef long long LL;const int mod 1e8; const int M 1 << 12; LL f[13][M]; int g[13]; vector<int> state; vector<int> p[M]; int n, m; bool check(int x) {return !(x & x <&…

【Linux课程学习】make/Makefile:Linux项目自动化构建工具

&#x1f381;个人主页&#xff1a;我们的五年 &#x1f50d;系列专栏&#xff1a;Linux课程学习 &#x1f337;追光的人&#xff0c;终会万丈光芒 &#x1f389;欢迎大家点赞&#x1f44d;评论&#x1f4dd;收藏⭐文章 &#x1f349;一.make/Makefile的理解&#xff1a; …

基于SpringBoot+Vue+MySQL的国产动漫网站

系统展示 用户前台界面 管理员后台界面 系统背景 随着国内动漫产业的蓬勃发展和互联网技术的快速进步&#xff0c;动漫爱好者们对高质量、个性化的国产动漫内容需求日益增长。然而&#xff0c;市场上现有的动漫平台大多以国外动漫为主&#xff0c;对国产动漫的推广和展示存在不…