司南 OpenCompass 九月大语言模型评测榜单启动召集,欢迎新合作厂商申请评测

主要概览

司南 OpenCompass 大语言模型官方自建榜单(9 月榜)评测拟定于 10 月上旬发布,现诚挚邀请新加入的合作方参与评测。本次评测围绕强化能力维度,全面覆盖语言、推理、知识、代码、数学、指令跟随、智能体等七大关键领域,进一步细化评测颗粒度,确保模型能力的精准衡量,并提供客观、全面的评测结果,为评估当前技术水平、牵引产品研发、支撑行业应用提供抓手。诚挚欢迎新加入的模型厂商、组织机构申请参与评测,共同推动大模型技术的发展与创新。

评测维度

司南 OpenCompass 大语言模型官方自建评测榜单,综合评估商业 API 模型和开源模型在 语言、推理、知识、代码、数学、指令跟随、智能体七大能力维度,这七个维度可以被进一步细分为包括自然语言处理、理工科知识、常识推理、数值计算能力、代码续写、算法面试、高等数学、通用工具调用等十余项细分任务,力图对行业开源模型和商业 API 模型进行全面评测分析。

评测模型类型

开源模型

开源模型参与榜单评测,请提供 Hugging Face 或 ModelScope 公开模型权重仓库链接

已提供商业化服务,可访问的 API 模型

  • API 模型参与评测,提供 API 网址链接,并写明模型版本

  • 若为 API 模型,请务必提前向 OpenCompass 提交 PullRequest,加入贵司 API 的实现,可以参考类似实现 https://github.com/open-compass/opencompass/tree/main/configs/api_examples

申请方法

新加入的模型厂商、组织机构可在 9 月 25 日 前写邮件至 opencompass@pjlab.org.cn 申请评测。请在邮件内附上下述信息,以便我们尽快与您对接。邮件内容需包括:

  • 申请单位信息

  • 模型简介

  • 联系人和所属部门

  • 联系方式

  • 模型类型

  • 该模型类型对应需要提供的信息

    (详见:评测模型类型)

*已经提供对外服务且参与过司南评测的模型,司南后续更新榜单时默认对最新版本模型进行评测。

注意事项

  1. 大语言模型官方自建榜评测榜单将于 2024 年 10 月上旬发布 2024 年 9 月榜单

  2. 新模型厂商若想参与该月榜单评测,可在当月25日前申请加入司南 OpenCompass 月度评测榜单

  3. 加入司南 OpenCompass 评测的结果默认公开;已经提供对外服务且参与过评测的模型,后续更新榜单时默认进行评测

  4. 仅支持开源或对外提供 API 服务商业化模型(内部迭代研发模型暂不支持评测)

联系我们

更多信息可参考:

司南 OpenCompass 榜单建设及发布规则(https://opencompass.org.cn/rule)

申请本次评测参与或有任何疑问,请联系:opencompass@pjlab.org.cn

OpenCompass 司南评测体系主要包括以下三大模块,欢迎大家使用。

1. 评测工具链体系 CompassKit,不仅提供完整的开源可复现评测代码,更提供了丰富的模型支持和高效的分布式评测策略。

开源地址:

https://github.com/open-compass

2. 高质量评测基准社区 CompassHub,面向大模型能力评测开源开放的基准社区,提供海量的面向不同能力维度和行业场景的评测基准。

社区地址:

https://hub.opencompass.org.cn/home

3. 权威评测榜单 CompassRank,作为 OpenCompass 中各类榜单的承载平台,CompassRank 不受任何商业利益干扰,保持中立性。

榜单地址:

https://rank.opencompass.org.cn/home

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/145712.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

ThreaLocal

1.概述 ThreadLoca称线程局部变量,用于在线程中保存数据,保存的数据仅属于当前线程(即对其他线程而言,该变量是当前线程独有的变量) threadLocal利用Thread中的ThreadLocalMap来进行数据存储 2.常用方法 存储数据至当前线程ThreadLocalMap中…

Unity引擎绘制多边形属性图

大家好,我是阿赵   在制作游戏的时候,经常会遇到需要绘制多边形属性图的需求,比如这种效果: 可以根据需要的属性的数量变化多边形的边数,然后每一个顶点从中心点开始到多边形的顶点的长度代表了该属性的强度&#xf…

谈对象第二弹: C++类和对象(中)

文章目录 一、类的默认成员函数二、构造函数三、析构函数四、拷贝构造函数五、运算符重载5.1运算符重载5.2赋值运算符重载5.3实现日期类<<、>>重载检查、获取天数关系运算符重载算数、赋值运算符重载Date.hDate.cpp 六、取地址运算符重载6.1const成员函数6.2取地址…

docker部署excalidraw画图工具

0&#xff09;效果 0.1&#xff09;实时协作 0.2&#xff09;导出格式 1&#xff09;docker安装 docker脚本 bash <(curl -sSL https://cdn.jsdelivr.net/gh/SuperManito/LinuxMirrorsmain/DockerInstallation.sh)docker-compose脚本 curl -L "https://github.com/…

Dynaform 5.9.4简体中文版百度云下载(含教程)

如大家所了解的&#xff0c;Dynaform是一种基于有限元分析&#xff08;FEA&#xff09;技术的计算机辅助工程&#xff08;CAE&#xff09;软件&#xff0c;常常用于模拟和优化各种工业应用中的结构和流体问题。 目前常用的版本为Dynaform 5.9.4&#xff0c;可以模拟机械结构、…

第314题|参考!如何做到【一题多解】|武忠祥老师每日一题

解析&#xff1a; 画出图像&#xff1a; 观察选项可知&#xff1a;选项A和选项B是相反选项&#xff0c;因此答案只能在AB当中。 因此本题我们只需要算出和的大小即可。 方法一&#xff1a;直接相减然后判断结果的正负。 分析题目给的条件&#xff1a;f(x)单调减少&#xff0…

肥胖成因:饮食之外,消耗吸收慢是关键因素

肥胖问题一直被现代社会所关注&#xff0c;不可否认&#xff0c;饮食是影响胖瘦的重要因素之一。高热量、高油脂的食物摄入过多&#xff0c;也确实会导致热量油脂过剩&#xff0c;堆积储存进身体内进而养肥身体。可在正常情况中&#xff0c;就算是消耗吸收率一般的人&#xff0…

828华为云征文 | 在Huawei Cloud EulerOS系统中安装Docker的详细步骤与常见问题解决

前言 Docker是一种轻量级的容器技术&#xff0c;广泛用于应用程序的开发、部署和运维。在华为云的欧拉&#xff08;Huawei Cloud EulerOS&#xff09;系统上安装和运行Docker&#xff0c;虽然与CentOS有相似之处&#xff0c;但在具体实现过程中&#xff0c;可能会遇到一些系统…

进程状态的优先级

1.进程的状态&#xff08;所有系统&#xff09; 因为是对于所有系统的&#xff0c;所以描述会很抽象。 补充知识&#xff1a; 并行和并发 并行&#xff1a;多个进程再多个cpu下分别同时运行并发&#xff1a;多个进程在一个cpu下采取进程切换的方式&#xff0c;在一段时间内&…

echarts实现地图下钻并解决海南群岛显示缩略图

一、准备工作 1、echarts版本&#xff1a; ^5.5.1 2、去掉海南数据的json文件 二、获取删除过后的json文件 1、DataV.GeoAtlas地理小工具系列 (aliyun.com) 在网站输入这个复制的&#xff0c;新建一个json文件粘贴进去。 接下来需要删除两个地方&#xff0c;不要删错&…

左手研发,右手销量,比亚迪舍弃了什么?

早买早享受&#xff0c;晚买享折扣&#xff0c;是近一年来汽车消费市场的真实写照。 A级家轿价格下探至6、7万元&#xff1b;曾经20万起步的主流B级车&#xff0c;如今只要12万元就能入手&#xff1b;即使是BBA等豪华品牌&#xff0c;也开始降价促销换销量。买车更便宜了&…

【最优化】一维最优化方法:华罗庚黄金分割优选法

一、意义 华先生提倡用数学实际服务国民经济发展&#xff0c;受限于当时计算能力有限&#xff0c;华先生总结经验&#xff0c;提出黄金分割优选法&#xff0c;能够用最少的试验次数找出最优解。 二、主要内容 ①应用范围&#xff1a;一维单峰函数 ②算法步骤&#xff1a; ③详…

Qt/C++ TCP调试助手V1.1 新增图像传输与接收功能(附发布版下载链接)

发布版本链接 通过百度网盘分享的文件&#xff1a;TCP调试助手V1.zip&#xff08;含客户端与服务器&#xff09; 链接&#xff1a;https://pan.baidu.com/s/14LTRPChPhYdwp_s6KeyBiA?pwdcedu 提取码&#xff1a;cedu 基于Qt/C实现了一款功能丰富的TCP服务器与客户端调试助手…

【已解决】华为AR100-S路由器 恢复出厂后,找不到5G wifi的设置

前两帖讨论了华为AR100-S路由器&#xff1a; 一是用电脑浏览器访问web管理界面报错的解决&#xff0c;详情点这里&#xff01; https://blog.csdn.net/weixin_62598385/article/details/142215136 再就是如何回复出厂&#xff0c;也即如何复位&#xff0c; 详情点这里&#xff…

微服务保护详细笔记(一):雪崩问题--Sentinel

目录 1.雪崩问题 1.1.雪崩问题产生原因&#xff1a; 1.2.雪崩问题解决方案 1.2.1.请求限流 1.1.2.线程隔离 1.1.3.服务熔断 1.3.微服务保护技术对比 1.4.Sentinel 1.4.1.介绍与安装 1.4.2.微服务整合 1.雪崩问题 1.1.雪崩问题产生原因&#xff1a; 比如查询购物车的…

SEO之页面优化(二—描述标签)

初创企业搭建网站的朋友看1号文章&#xff1b;想学习云计算&#xff0c;怎么入门看2号文章谢谢支持&#xff1a; 1、我给不会敲代码又想搭建网站的人建议 2、“新手上云”能够为你开启探索云世界的第一步 博客&#xff1a;阿幸SEO~探索搜索排名之道 2、描述标签 描述标签是H…

Tomcat CVE-2017-12615漏洞复现

1.开启环境 cd /vulhub/tomcat/CVE-2017-12615 docker-compose up -d 一键启动环境 2.在首页进行抓包 修改为put方式提交 Tomcat允许适用put方法上传任意文件类型&#xff0c;但不允许jsp后缀文件上传&#xff0c;因此我们需要配合 windows的解析漏洞. 使用put /shell.jsp…

LocalDateTime,OffsetDateTime和ZonedDateTime(上)

图片来源&#xff1a;https://www.cnblogs.com/yourbatman/p/14324575.html 一. LocalDate和LocalTime LocalDate&#xff1a;代表不含时区信息的日期&#xff0c;它只能表示年、月、日。它适用于记录一个日子&#xff0c;比如生日、纪念日、或者任何只需要日期而不需要具体时…

前端框架大比拼:React、Angular、Vue、Svelte、Ember,哪个才是你的终极选择!

前端开发框架在现代Web开发中扮演着至关重要的角色。它们不仅提高了开发效率&#xff0c;还改善了代码的可维护性和扩展性。以下是一些流行的前端框架及其对比&#xff0c;帮助你选择最适合你项目需求的框架。 1. React 优点: 生态系统丰富&#xff1a; React 拥有庞大的社区…

【SpringCloud】注册中心的其他实现 - Nacos

目录 注册中心的其他实现-NacosNacos简介Nacos安装下载安装包Windows解压修改单机模式启动Nacos常见问题 Linux准备安装包单机模式启动常见问题 Nacos快速上手服务注册/服务发现引入Spring Cloud Alibaba依赖引入Nacos 依赖引入Load Balance依赖 配置Nacos地址远程调用启动服务…