阿里史上最大规模开源发布,超GPT-4o 、Llama-3.1!

今天凌晨,阿里巴巴官宣了史上最大规模的开源发布,推出了基础模型Qwen2.5、专用于编码Qwen2.5-Coder和数学的Qwen2.5-Math。

这三大类模型一共有10多个版本,包括0.5B、1.5B、3B、7B、14B、32B和72B,适用于个人、企业以及移动端、PC等不同人群不同业务场景的模型。

如果不想进行繁琐的部署,阿里还开放了旗舰模型Qwen-Plus 和 Qwen-Turbo的API,帮助你快速开发或集成生成式AI功能。

图片

开源地址:https://huggingface.co/collections/Qwen/qwen25-66e81a666513e518adb90d9e

Github:https://github.com/QwenLM/Qwen2.5?tab=readme-ov-file

在线demo:https://huggingface.co/spaces/Qwen/Qwen2.5

API地址:https://help.aliyun.com/zh/model-studio/developer-reference/what-is-qwen-llm

下面「AIGC开放社区」详细为大家介绍这些模型的性能特点以及测试结果。

Qwen2.5系列性能测试

本次阿里开源的最大版本指令微调模型Qwen2.5-72B在MMLU-Pro

MMLU-redux、GPQA、MATH、GSM8K、HumanEval、MBPP等全球知名基准测试平台的测试结果显示。

虽然Qwen2.5只有720亿参数,但在多个基准测试中击败了Meta拥有4050亿参数的最新开源Llama-3.1指令微调模型;全面超过了Mistral最新开源的Large-V2指令微调模型,成为目前最强大参数的开源模型之一。

图片

即便是没有进行指令微调的基础模型,其性能同样超过Llama-3-405B。

图片

阿里开放API的旗舰模型Qwen-Plus,其性能可以媲美闭源模型GPT4-o 和Claude-3.5-Sonnet。

图片

此外,Qwen2.5系列首次引入了140 亿和320亿两种新参数模型,Qwen2.5-14B 和 Qwen2.5-32B。

指令微调模型的性能则超过了谷歌的Gemma2-27B、微软的Phi-3.5-MoE-Instruct,与闭源模型GPT-4o mini相比,只有三项测试略低其他基准测试全部超过

图片

自阿里发布CodeQwen1.5 以来,吸引了大量用户通过该模型完成各种编程任务,包括调试、回答编程相关的问题以及提供代码建议。

本次发布的Qwen2.5-Coder-7B指令微调版本,在众多测试基准中,击败了那些知名且有较大参数的模型。

图片

前不久阿里首次发布了数学模型Qwen2-Math,本次发布的Qwen2.5-Math 在更大规模的高质量数学数据上进行了预训练,包括由 Qwen2-Math 生成的合成数据。同时增加了对中文的支持,并通过CoT、PoT和 TIR的能力来加强其推理能力。

其中,Qwen2.5-Math-72B的整体性能超越了Qwen2-Math-72B指令微调和著名闭源模型GPT4-o。

图片

其实从上面这些测试数据不难看出,即便是参数很小的模型,在质量数据和架构的帮助下,同样可以击败高参数模型,这在能耗和环境部署方面拥有相当大的优势。而阿里本次发布的Qwen2.5系列将小参数模型的性能发挥到了极致。

Qwen2.5系列简单介绍

Qwen2.5系列支持中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文等超过29种主流语言。与 Qwen2类似,Qwen2.5语言模型支持高达 128K tokens,并能生成最多 8K tokens的内容。

与Qwen-2相比,Qwen2.5系列的预训练数据大幅度增长达到了惊人的18万亿tokens,超过了Meta最新开源Llama-3.1的15万亿,成为目前训练数据最多的开源模型。

知识能力显著增强,Qwen2.5在 MMLU 基准测试中,与 Qwen2-7/72B 相比从70.3提高到74.2,从84.2提高到86.1 。Qwen2.5 在 GPQA/MMLU-Pro/MMLU-redux/ARC-c 基准测试上也有显着改进。

图片

Qwen2.5能够生成更符合人类偏好的响应,与Qwen2-72B-Instruct相比,Qwen2.5-72B-Instruct的Arena-Hard分数从48.1显着提高到81.2 ,MT-Bench分数从9.12提高到9.35 。

数学能力获得增强,在融合了Qwen2-math的技术后,Qwen2.5的数学能力也得到了快速提升。在MATH基准上,Qwen2.5-7B/72B-Instruct的得分从Qwen2-7B/72B-Instruct的52.9/69.0提高到75.5/83.1。

此外,Qwen2.5在指令跟踪、生成长文本(从1k增加到超过8K标记)、理解结构化数据(例如表格)以及生成结构化输出(尤其是JSON)方面实现了显着改进。同时对系统提示的多样性更具弹性,增强了聊天机器人的角色扮演实施和条件设置。

来源 | 顶级程序员

开源1

大模型40

阿里巴巴1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/145545.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

数字化转型的策略与执行路径

企业在明确数字化转型的目标并评估自身数字化能力之后,必须前瞻性地识别出实现这些目标所需的关键数字化能力。基于这些能力,企业应制定出一套数字化转型战略,确立短期和中长期的转型目标,确保数字技术投资带来价值,而…

vulhub搭建漏洞环境docker-compose up -d命令执行报错以及解决方法汇总

在利用vulhub靶场搭建环境进行漏洞复现时,我们通常要使用这一步命令: docker-compose up -d 但是经常报错,今天我们来说几个常见的报错以及解决方法: 1.报错提示: ERROR: Couldnt connect to Docker daemon at httpdoc…

MySQL_图形管理工具简介、下载及安装(超详细)

课 程 推 荐我 的 个 人 主 页:👉👉 失心疯的个人主页 👈👈入 门 教 程 推 荐 :👉👉 Python零基础入门教程合集 👈👈虚 拟 环 境 搭 建 :&#x1…

如何确保Java程序分发后不被篡改?使用JNI对Java程序进行安全校验

前言 众所周知,Java/Kotlin编译后会编译成smali,使用Jadx这类的反编译工具或者Hook工具就能很轻松的把我们的软件安全校验给破解了。 为了防止这种情况发生,我们一般会将核心代码使用C编写,然后使用JNI技术,使用Java…

对接全国点餐api接口有哪些具体步骤

与第三方餐饮服务提供商进行接口对接可以按照以下步骤进行: 一、前期准备 1.明确需求: 确定你的业务目标和对接口的具体需求。例如,你是希望通过接口获取餐厅信息、菜品列表、价格、库存情况,还是实现订单提交、支付处理、配送…

WAN广域网技术--PPP和PPPoE

广域网基础概述 广域网(Wide Area Network,WAN)是一种覆盖广泛地区的计算机网络,它连接不同地理位置的计算机、服务器和设备。广域网通常用于连接不同城市、州或国家之间的网络,它通过互联网服务提供商(ISP…

中泰免签,准备去泰国旅游了吗?《泰语翻译通》app支持文本翻译和语音识别翻译,解放双手对着说话就能翻译。

泰国是很多中国游客的热门选择,现在去泰国旅游更方便了,因为泰国对中国免签了。如果你打算去泰国,那么下载一个好用的泰语翻译软件是很有必要的。 简单好用的翻译工具 《泰语翻译通》App就是为泰国旅游设计的,它翻译准确&#x…

pg198-jesd204-phy阅读笔记

简介 介绍 JESD204 PHY IP核实现了JESD204的物理接口,简化在发送和接收核心之间共享串行收发器信息通道。此内核一般不单独使用,只能与JESD204或JESD204C内核结合使用(目前不太懂这句话,因为我只看到与TX、RX IP核结合使用&#…

声网SDK脚本运行错误

文章目录 运行步骤无法运行.bat电脑出现警告--更改执行策略若无出现-更新power shell搜索最新版本的 PowerShell安装新版本 仍无法解决-手动下载第三方库 2024-9-9运行步骤 无法运行.bat 电脑出现警告–更改执行策略 若无出现-更新power shell 搜索最新版本的 PowerShell 在…

Java面试篇基础部分-Java线程生命周期

线程的生命周期分别为 新建(New)、就绪(Runnable)、运行(Running)、阻塞(Blocked)和死亡(Dead)这五种状态。   在系统运行过程中有线程不断地被创建,而旧的线程在执行完毕之后被清理,线程通过排队的方式获取共享资源或者锁的时候被阻塞,所以运行中的线程就会在…

让医院更智慧,让决策更容易

依托数字孪生技术,赋能智慧医院,对使用者和决策者带来了众多的优势。数字孪生技术是将物理实体与数字模型相结合,实现实时监测、仿真预测和智能决策的一种先进技术。在智慧医院中应用数字孪生技术,不仅可以提升医疗服务的质量和效…

气势如神助!未来三年最好的投资:找适合自己的稳定的路——早读(逆天打工人爬取热门微信文章解读)

势如破竹!!!冲 引言Python 代码第一篇 洞见 未来三年最好的投资:好好上班第二篇 趋势结尾 偷换概念,贝多芬失聪是后来的事了,从小失聪还能当音乐家怕不是觉醒松果体了 但体会这个意思,玩味一下即…

开放式耳机和入耳式耳机哪个好?2024优质开放式蓝牙耳机推荐

首先,开放式耳机与传统的入耳式耳机相比,最大的特点在于其的舒适性和对听力的保护。因为无需入耳,所以能够有效地减少长时间佩戴导致的耳朵疲劳,同时也避免了直接对耳膜的压迫。但是当然也会有问题出现,开放式耳机别人…

pprof简单使用

1. 什么是 pprof? pprof 是 Go 语言内置的性能分析工具。它能够帮助开发者收集 CPU、内存、goroutine 等资源的使用情况,生成性能报告并提供可视化功能。pprof 提供了全面的性能分析能力,是排查性能瓶颈、优化代码的利器。 2. pprof 使用场…

力扣309-买卖股票的最佳时机含冷冻期(Java详细题解)

题目链接:309. 买卖股票的最佳时机含冷冻期 - 力扣(LeetCode) 前情提要: 本题是由122. 买卖股票的最佳时机 II - 力扣(LeetCode)变形而来,122是可以买卖多次股票没有冷冻期,该题还…

重修设计模式-结构型-组合模式

重修设计模式-结构型-组合模式 Compose objects into tree structure to represent part-whole hierarchies.Composite lets client treat individual objects and compositions of objects uniformly. 将一组对象组织成树形结构,来表示一种“部分 - 整体”的层次结…

携手阿里云CEN:共创SD-WAN融合广域网

在9月19日举行的阿里云云栖大会上,犀思云作为SD-WAN领域的杰出代表及阿里云的SD-WAN重要合作伙伴,携手阿里云共同推出了创新的企业上云方案——Fusion WAN智连阿里云解决方案。这一创新方案不仅彰显了犀思云在SD-WAN技术领域的深厚积累,更体现…

骨传导耳机哪款好?精选2024五款高性能品牌推荐!

随着骨传导耳机越来越受欢迎,不仅运动健身的朋友人手一副,很多上班族和学生党也开始使用骨传导耳机。然而,由于很多人对骨传导耳机的了解还不够深入,所以在选购中经常会入手一些不专业的产品,这些劣质产品不仅音质效果…

Windows版本下Redis安装与使用---详解

目录 1、下载Redis压缩包 2、解压到文件夹 3、启动Redis服务 4、打开Redis客户端进行连接 5、使用一些基础操作来测试 6、Redis常用的服务指令 7、C#项目使用redis 8、C#中使用StackExchange.Redis库操作Redis 9、执行 Redis 命令 10、常见报错和相关指令 1、下载Redi…

容器内的Nodejs应用如何获取宿主机的基础信息-系统、内存、cpu、启动时间,以及一个df -h的坑

在现代应用部署时中,Docker容器化技术被广泛应用。Node.js应用在容器中运行时,有时需要获取宿主机的基础信息,如系统信息、内存使用情况、磁盘空间和启动时间等。本文将介绍如何在Docker容器内的Node.js应用中获取这些信息,以及可…