大模型榜单汇总整理

大型语言模型(LLM)评估榜单提供了对不同模型性能的标准化比较,涵盖了从通用能力到特定领域应用的多个方面。这些榜单专注于评估模型在特定领域的应用能力,有助于开发者了解模型的优势和局限性,推动语言模型的发展和优化。

通用大模型榜单

1.🤗 Open LLM Leaderboard

Hugging Face 旨在展示和比较不同大型语言模型(LLMs)的性能,特别是那些可以公开访问的模型。模型将根据一系列标准进行评估,包括但不限于准确性、效率、可解释性和公平性。
在 6 个关键基准上评估模型,这是一个统一的框架,用于在大量不同的评估任务上测试生成语言模型。

  • MMLU-Pro 是 MMLU 数据集的精炼版本。
  • GPQA是一个极其困难的知识数据集,其中的问题是由各自领域的领域专家(生物学、物理、化学等博士级别)设计的,外行人很难回答,但对于专家来说(相对)容易回答。
  • MuSR 是一个非常有趣的新数据集,由算法生成的长度约为 1K 字的复杂问题组成。
  • MATH是从多个来源收集的高中水平竞赛问题的汇编,其格式一致地使用 Latex 表示方程,使用 Asymptote 表示图形。
  • IFEval是一个相当有趣的数据集,它测试模型清晰遵循明确指令的能力,例如“包含关键字 x”或“使用格式 y”。
  • BBH 是 BigBench数据集中 23 个具有挑战性的任务的子集,这些任务 1) 使用客观指标,2) 很困难,作为语言模型进行测量,最初并未超越人类基线,3)包含足够的样本,具有统计显着性。
    在这里插入图片描述

2.FlagEval

相关介绍paper:FewCLUE: A Chinese Few-shot Learning Evaluation Benchmark
FlagEval由智源研究院将联合多个高校团队打造,是一种采用“能力一任务一指标"三维评测框架的大模型评测平台,旨在提供全面、细致的评测结果。该平台已提供了30多种能力、5种任务和4大类指标,共600多个维度的全面评测,任务维度包括22个主客观评测数据集和84433道题目。
FlagEval(天秤)创新构建了“能力-任务-指标”三维评测框架,细粒度刻画基础模型的认知能力边界,可视化呈现评测结果。目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具,并对广泛的语言基础模型、跨模态基础模型实现了评测。在这里插入图片描述

3.OpenCompass

OpenCompass;是由上海人工智能实验室(上海AI实验室)于2023年8月正式推出的大模型开放评测体系,该算法库的主要评估目标是大型语言模型。以大语言模型为例,介绍具体的评估模型类型。
基础模型:通常通过自监督方式对海量文本数据进行训练而获得(例如OpenAI的GPT-3、Meta的LLaMA)。这些模型通常具有强大的文本延续功能。
聊天模型:通常建立在基础模型的基础上,并通过指令微调或人类偏好调整进行完善(例如,OpenAI 的 ChatGPT、上海人工智能实验室的 Scholar Pu Tongue)。这些模型可以理解人类指令并具有很强的会话能力。
OpenCompass从通用人工智能的角度出发,融合前沿学术进展和行业最佳实践,提出适合实际应用的评估体系。 OpenCompass的能力维度涵盖通用能力和特殊功能。在这里插入图片描述

4.SuperCLUE

中文通用大模型综合性测评基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准。
它主要要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型哪些相对效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。
SuperCLUE,是中文语言理解测评基准(CLUE)在通用人工智能时代的进一步发展。
目前包括三大基准:OPEN多轮开放式基准、OPT三大能力客观题基准、琅琊榜匿名对战基准。它按照月度进行更新。
在这里插入图片描述

5.C-Eval

相关介绍paper:C-Eval: A Multi-Level Multi-Discipline Chinese Evaluation Suite for Foundation Models
C-Eval 是一个全面的中文基础模型评估套件。它包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。
榜单分成2个:
(1) 公开访问的模型 – 这些模型有公开权重或者API,用户可以自行检查验证它们的效果;
(2) 受限访问的模型: 这些模型暂时没有对公众开放。在这里插入图片描述

6.MMLU

相关介绍paper:Measuring Massive Multitask Language Understanding
MMLU 由Dan Hendrycks和一组研究人员于 2020 年发布。
MMLU 以庞大的多任务测试集为基础,其中包含来自各个知识分支的多项选择题。
测试横跨人文、社会科学、硬科学等重要领域;总共57个任务。
这 57 项任务总共分布在 15,908 个问题上,这些问题被分为几个镜头开发集、一个验证集和一个测试集。

  • 少样本开发集每个主题有 5 个问题。
  • 验证集可用于选择超参数,由 1540 个问题组成。
  • 测试集有 14079 个问题。 每个科目至少包含100 个测试示例
    在这里插入图片描述

7.Chatbot Arena

相关论文paper:Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference
Chatbot Arena 是一个开源平台,用于通过人类偏好评估人工智能,由加州大学伯克利分校SkyLab和LMSYS的研究人员开发。该平台拥有超过 1,000,000 名用户投票,使用 Bradley-Terry 模型生成实时排行榜,对最佳人工智能聊天机器人进行排名。
在这里插入图片描述

8.HELM

相关论文paper:Holistic Evaluation of Language Models
HELM大语言模型评价模型是斯坦福的基础模型研究中心发布的来提高语言模型的透明度。
采用多指标方法:在可能的情况下,为 16 个核心场景中的每一个测量 7 个指标(准确性、校准、鲁棒性、公平性、偏差、毒性和效率)。还根据26个目标场景进行7个有针对性的评估,以分析特定方面(例如推理、虚假信息)。

医学大模型榜单

1.PubMedQA

paper:PubMedQA: A Dataset for Biomedical Research Question Answering
PubMedQA 有 1k 个专家标记、61.2k 个未标记和 211.3k 个人工生成的 QA 实例。在这里插入图片描述

2.MedBench

MedBench致力于打造一个科学、公平且严谨的中文医疗大模型评测体系及开放平台。我们基于医学权威标准,不断更新维护高质量的医学数据集,全方位多维度量化模型在各个医学维度的能力。MedBench提出了五大评测维度:医学语言理解、医学语言生成、医学知识问答、复杂医学推理、医疗安全和伦理。

  • 医学语言理解:MedBench涵盖了医学信息抽取、医学术语标准化以及医学文本分类等测试
  • 医学语言生成:面向医院侧的医疗应用,MedBench设立了医学语言生成测试,包含短对话电子病历生成和长对话电子病历生成任务
  • 医学知识问答:面向患者侧的大模型医疗应用,设立医学知识问答评测,包括医学考试、医学咨询、专科问答、导诊和轻问诊等任务的测试
  • 复杂医学推理:面向医院侧的医疗应用,平台设立了复杂医学推理测试,覆盖了临床问诊、医学诊断和治疗方案等任务
  • 医疗安全和伦理:MedBench也为大模型应用时的医疗安全和伦理能力设置了相应测试,涵盖医学伦理考题和药物禁忌等任务在这里插入图片描述

法律大模型榜单:

LawBench

LawBench 将法律认知细分为三个认知维度,涵盖 20 项法律任务:

  • 法律知识记忆:大型语言模型能否在其参数中记忆必要的法律概念、术语、文章和事实。
  • 法律知识理解:大语言模型能否理解法律文本中的实体、事件和关系,从而理解法律文本的含义和内涵。
  • 法律知识应用:大型语言模型能否正确利用其法律知识,对其进行推理以解决下游应用中的实际法律任务。
    每项法律任务包含 500 个问题。分数是模型在20 种不同任务类型中获得的平均值
    在这里插入图片描述

金融大模型榜单:

CFBenchmark

"书生•济世"金融评测基准(CFBenchmark)主要包含以下几方面
金融自然语言处理:主要关注模型对金融文本的理解和生成能力,包含三个方面的任务:金融实体识 别、金融文本分类和金融内容生成

  • 金融场景计算:侧重于模型在特定金融场景下的计算和推理能力,如风险评估和投资组合优化,包含三个子任务:金融数据检查、金融数值提取和金融指标计算
  • 金融分析与解读任务:检验模型在理解复杂金融报告、预测市场趋势和辅助决策制定方面的能力,关注了大模型对宏观经济、具体行业、公司公告和金融事件的深入解读,以及对股票行情、基金经营、行业板块和大盘行情的详细分析
  • 金融合规检查:评估模型潜在的合规风险,如生成内容的隐私性、内容安全性、金融合规性等能力,探索模型在面对可能触及敏感或风险内容时的反应,是否会拒绝回答某些问题,从而确保在金融服务过程中的安全性和合规性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/148572.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

前端html+css+js 基础总结

​​​HTML 行级元素 标签分为行级元素与块级元素 行级元素占据区域由其显示内容决定&#xff0c;如span&#xff0c;img(图片)&#xff0c;<a></a>基本格式: <a href"链接" target"_blank"></a>用于跳转到其他网站&#xff0c…

镭射限高防外破预警装置-线路防外破可视化监控,安全尽在掌握中

镭射限高防外破预警装置-线路防外破可视化监控&#xff0c;安全尽在掌握中 在城市化浪潮的汹涌推进中&#xff0c;电力如同现代社会的生命之脉&#xff0c;其安全稳定运行直接关系到每一个人的生活质量和社会的整体发展。然而&#xff0c;随着建设的加速&#xff0c;电力设施通…

论文写作中的常见错误及规避策略

写论文&#xff0c;这个让无数学生闻风丧胆的挑战&#xff0c;可真是让人头大。 不管是初出茅庐的本科毕业论文&#xff0c;还是折腾得人头发都少了的硕士、博士论文&#xff0c;写作过程中的各种翻车场景简直就是论文写作的日常。 别慌&#xff0c;今天我就来当大家的论文救…

基于Python+SQLServer实现(界面)书店销售管理管理子系统

书店销售管理管理子系统 一、设 计 总 说 明 现在社会随着计算机技术迅速发展与技术的逐渐成熟&#xff0c;信息技术已经使人们的生活发生深刻的变化。生活中的各种服务系统也使人们在生活中的联系日常销售活动方式发生了很大的变化&#xff0c;让效率较低的手工操作成为过去…

vue3/Element-Plus/路由的使用

我们来实现一个简单的二级路由 1.准备主页和要配置的组件 主页面 <template><!-- 加载配置路由 --><RouterView></RouterView> </template><style scoped></style>组件1 <template><div>考试组件</div> </t…

【k8s】:DevOps 模式详解

1.什么是DevOps模式&#xff1f; DevOps 是当下非常火爆的一个概念&#xff0c;受到了很多互联网巨头的推崇。那么什么是 DevOps&#xff1f;它的全称是&#xff1a;集成开发与运维。至于它到底是干什么用的&#xff0c;为什么现在这么火爆&#xff0c;还得从源头说起。 1.1 …

vue3 vxe-grid 通过数据库返回的列信息,生成columns,并且其中有一列是img类型,进行slots的格式化处理。

1、一般我们写死的列信息的时候&#xff0c;会这样定义&#xff1a; 2、然后我们在template里面&#xff0c;这样这样写slots格式化部分&#xff1a; 这样表格中就会展示出一张图片&#xff0c;并且&#xff0c;我们点击了可以查看大图。 3、那么我们从数据库中返回的列&#…

二维矩阵的行、列、斜线特征(二维数组)

1. 行特征 二维 n*m 矩阵&#xff0c;用 x[i][j] 表示第 i 行第 j 列的元素。同一行的元素的 i 值是相同的。 例如&#xff0c;上图中绿色格子的数组元素分别是 x[4][1]&#xff0c;x[4][2]&#xff0c;x[4][3]&#xff0c;x[4][4]&#xff0c;x[4][5]&#xff0c;x[4][6]。 …

IDEA明明模块和环境变量配置的是JDK8但是显示别的版本解决方案

IDEA明明模块和环境变量配置的是JDK8但是显示别的版本解决方案 我目前系统中存在JDK8&#xff0c;JDK11,JDK17等多个版本&#xff0c;方便开发使用&#xff0c;但是有些时候也是比较烦人的&#xff0c;因为不同版本的JDK包有所区别。 需要注意的几个地方。方便自己排查一下。

UML——统一建模语言

序言&#xff1a; 是统一建模语言的简称&#xff0c;它是一种由一整套图表组成的标准化建模语言。UML用于帮助系统开发人员阐明&#xff0c;展示&#xff0c;构建和记录软件系统的产出。UML代表了一系列在大型而复杂系统建模中被证明是成功的做法&#xff0c;是开发面向对象软件…

信息安全工程师(14)网络攻击常见技术方法

前言 网络攻击的常见技术方法多种多样&#xff0c;这些方法旨在未经授权地访问、破坏或窃取目标系统的信息。 1. 侦察与信息收集 开放源情报收集&#xff1a;利用搜索引擎、社交媒体等公开渠道获取目标的基本信息。扫描技术&#xff1a;包括端口扫描、服务扫描等&#xff0c;以…

UE学习篇ContentExample解读-----------Blueprint_Mouse_Interaction

文章目录 总览描述&#xff08;Blueprint_Mouse_Interaction&#xff09;阅览解析1、PlayerControler分析2、拖拽球蓝图分析&#xff1a;3、移动的立方体分析&#xff1a; 新概念总结致谢&#xff1a; 总览描述&#xff08;Blueprint_Mouse_Interaction&#xff09; 打开关卡后…

腾讯云负载均衡ssl漏洞(CVE-201602183)解决

绿盟漏洞扫描腾讯云应用&#xff0c;提示有1个高危、1个中危。 看IP是应用服务器前端的负载均衡。 漏洞详细信息如下&#xff1a; 根据腾讯云文档&#xff0c;可以通过设置负载均衡加密算法设置&#xff0c;来缓解漏洞风险。 登录 负载均衡控制台&#xff0c;在左侧导航栏单击…

一篇讲完HTML核心内容

一、HTML 1、 HTML概念 网页&#xff0c;是网站中的一个页面&#xff0c;通常是网页是构成网站的基本元素&#xff0c;是承载各种网站应用的平台。通俗的说&#xff0c;网站就是由网页组成的。通常我们看到的网页都是以htm或html后缀结尾的文件&#xff0c;俗称 HTML文件。 2、…

力扣 困难 154.寻找旋转排序数组中的最小值 II

文章目录 题目介绍题解 题目介绍 题解 题源&#xff1a; 153.寻找旋转排序数组中的最小值 在此基础上&#xff0c;进行二分之前&#xff0c;单独处理一下左指针和最后一个数相同的情况就好了。 class Solution {public int findMin(int[] nums) {int left 0, right nums.le…

pytorch学习笔记二:用pytorch神经网络模型做气温预测、分类任务构建和分类网络构建、卷积神经网络原理介绍

文章目录 一、搭建pytorch神经网络进行气温预测1&#xff09;基础搭建2&#xff09;实际操作标识特征和标签3&#xff09;构建成标准化的预处理数据&#xff08;做标准化收敛速度更快&#xff09; 二、按照建模顺序构建完成网络架构1&#xff09;np.array格式的标签(y)和特征(x…

CORE Kestrel Web、InProcess、OutOfProcess、启动配置、

Kestrel 服务 ASP.NET Core是一个跨平台框架。 这意味着它支持在不同类型的操作系统&#xff08;例如Windows&#xff0c;Linux或Mac&#xff09;上开发和运行应用程序。 Kestrel是ASP.NET Core应用程序的跨平台Web服务器。 这意味着该服务器支持ASP.NET Core支持的所有平台和…

Spring MVC 基本配置步骤 总结

1.简介 本文记录Spring MVC基本项目拉起配置步骤。 2.步骤 在pom.xml中导入依赖&#xff1a; <dependency><groupId>org.springframework</groupId><artifactId>spring-webmvc</artifactId><version>6.0.6</version><scope>…

RTSP学习

RTSP基本原理 实时流传输协议(RTSP:RealTimeStreaming Protocol1)是一种网络传输协议,旨在发送低延迟流。 该协议由RealNetworks,Netscape和哥伦比亚大学的专家在1996年开发。它定义了应如何打包流中的数据以进行传输。 类似一个控制命令的协议play teardown 负责音视频的数据…

验收测试:从需求到交付的全程把控!

在软件开发过程中&#xff0c;验收测试是一个至关重要的环节。它不仅是对软件质量的把关&#xff0c;也是对整个项目周期的全程把控。从需求分析到最终的软件交付&#xff0c;验收测试都需要严格进行&#xff0c;以确保软件能够符合预期的质量和性能要求。 一、需求分析阶段 在…