智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

近日,智源研究院推出全球首个中文大模型辩论平台FlagEval Debate,旨在通过引入模型辩论这一竞争机制对大语言模型能力评估提供新的度量标尺。该平台是智源模型对战评测服务FlagEval大模型角斗场的延展,将有助于甄别大语言模型的能力差异。

FlagEval Debate官网:https://flageval.baai.org/#/debate

大模型对战被广泛认为是能够公平且有效的反应用户喜好倾向的一种大模型评估方式。但现有的大模型对战普遍存在如下几个问题:

  1. 1 大部分模型对战胜率趋于平局,无法有效区分模型之间的差异;

  2. 2 测试内容完全依赖用户,需要大量用户参与投票才能保证评测结果的准确性和稳定性;

  3. 3 在现有的对战方式下,模型之间缺乏交互,无法反映模型之间的协作性和交互性。

为了优化以上问题,智源研究院尝试使用大模型辩论的形式对大模型进行评估。辩论是一项通过逻辑推理、语言表达和现实论据来论证己方观点、驳斥对方观点、说服中立第三方的语言类智力活动和综合性表达游戏,具备明确的竞技性,能够体现人的逻辑思维、语言组织、信息分析与处理能力,以及在对立观点中寻找平衡与突破的能力。模型辩论能够展现大模型在信息理解、知识整合、逻辑推理、语言生成和对话能力,同时,还能测试其在复杂语境中信息的处理深度和迁移应变能力,反映其学习与推理的进步水平。

在对大模型辩论的技术路径与对战结果有效性进行初步分析之后,智源研究院发现通过辩论这种交互性对战形式,能够凸显模型之间的差距,并可基于少量的数据样本计算模型有效排名,故推出基于众测的中文大模型辩论平台FlagEval Debate。

大模型辩论平台FlagEval Debate,支持两个模型分别以正反方身份围绕辩题开展辩论。辩题由FlagEval Debate从辩题库中随机抽取,辩题库主要由热搜话题改编、FlagEval评测专家以及顶级辩论专家命制的辩题构成。为提高用户体验,更好地触达大众及专业评审,所有用户均可在FlagEval Debate平台对每场辩论进行评判。目前Flageval Debate已上线海外主流闭源以及众多开源模型。

每场模型辩论由正方先发表意见,反方后发表意见,正反双方共发表5轮意见,FlagEval Debate平台页面同时展示双方每轮对话的观点,然后由人类用户判断哪方获胜。为了有效避免正反方位置带来的偏差,每一辩题下两个模型均会各做一次正方一次反方。当模型正反方身份互换后,将再次按照正反方顺序进行相同数量的轮次对话。每个大模型会与其他模型进行多场辩论,最终根据获胜的积分计算模型排名。

模型辩论对战将采取开放性众测和专家评测两种方式,其中专家评审团由专业辩论赛的选手和评委组成(包括世界冠军团队),开放性众测观众可自由鉴赏和投票。

开放性众测观众报名链接:https://jwolpxeehx.feishu.cn/share/base/form/shrcnanu35NqOKaefVMUJKv6JYg

大模型辩论的对战赛程以及规划如下图所示。初步实验表明,参与辩论的大模型经过prompt调优后表现会有很大的提升,欢迎各模型厂商扫描图中二维码或发送邮件至flageval@baai.ac.cn报名参与模型辩论评测,智源将提供免费的模型辩论调试服务。

未来,智源研究院将持续探索模型辩论的技术路径与应用价值,坚持科学、权威、公正、开放四大原则,不断完善FlagEval大模型评测体系,为大模型评测生态提供新的洞察与思考。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1551436.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

vector中push_back和emplace_back的区别

push_back 在引入右值引用,转移构造函数,转移复制运算符之前,通常使用push_back()向容器中加入一个右值元素(临时对象)的时候,首先会调用构造函数构造这个临时对象,然后需要调用拷贝构造函数将…

Redis入门第一步:认识Redis与快速安装配置

认识Redis与快速安装配置🍃 Redis是什么🐲 1.Redis的背景🎍 Redis(Remote Dictionary Server)译为"远程字典服务",它是一款基于内存实现的键值型 NoSQL 数据库, 通常也被称为数据结…

pytorch线性/非线性回归拟合

一、线性回归 1. 导入依赖库 import numpy as np import matplotlib.pyplot as plt import torch from torch import nn, optim from torch.autograd import Variable numpy:用来构建数据matplotlib.pyplot: 将构建好的数据可视化torch.nn&#xff1a…

2024还在拼多多赚钱的,无不满足这几个条件

拼多多只是我棋盘上的一小步,整个棋局几人看懂了? 如果我说我做拼多多,其实是另有目的,拼多多只是我棋局里的一小步,你们信吗?认真看文章,后面会为大家揭秘! 先来客观公正的回答下…

Queued Synchronous Peripheral Interface (QSPI)

文章目录 1. 介绍2. Feature List3. 概述3.1 QSPI框图3.2 操作模式3.3 三线模式3.4 时钟极性和时钟相位 4. Master模式4.1 状态机4.2 采样点4.3 波特率4.4 通信模式4.4.1 短数据模式4.4.2 长数据模式4.4.3 短连续模式4.4.4 长连续模式4.4.5 单配置多帧模式4.4.6 XXL模式4.4.7 M…

选择国企eHR人事管理系统的时候,应该注意什么?

近年来,中国正步入高速发展的黄金时期,国有企业(国企)在追求效率和管理水平提升方面迈出了重要步伐。为了进一步实现数字化、流程化和科学化管理,越来越多的国企选择引进eHR(电子人力资源管理)系…

【Diffusion分割】MedSegDiff-v2:Diffusion模型进行医学图像分割

MedSegDiff-V2: Diffusion-Based Medical Image Segmentation with Transformer 摘要: 最近的研究揭示了 DPM 在医学图像分析领域的实用性,医学图像分割模型在各种任务中表现出的出色性能就证明了这一点。尽管这些模型最初是以 UNet 架构为基础的&…

opencv实战项目(三十):使用傅里叶变换进行图像边缘检测

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 一,什么是傅立叶变换?二,图像处理中的傅立叶变换:三,傅里叶变换进行边缘检测: 一&#xff0c…

13个大V出文需要准确把握的重要因素

推文作为全球最大的社交平台之一,吸引了很多大V(即具有巨大粉丝团的影响力和的账户)的关注。那些大V常常运用推文发布相关各种各样热点的营销推广信息,以吸引更多人的关注参与。推文的发布时间段是V在宣传推广过程中需要准确把握的…

【真实访问】那些选择土木专业的学生,后来怎么样了?

“你会让孩子报土木专业吗?” 7月15日,澎湃新闻在微博上发起线上调研,截至16日12时,8000多人参与了投票,结果显示近7000人选择“不会,天坑专业”。短短几年时间,土木工程专业的报考从“香饽饽”…

CAN总线的错误类型

前言 CAN总线的错误类型主要包括:位错误、填充错误、格式错误、ACK错误和CRC错误。这里一定要做好CAN总线的错误类型、错误帧类型、节点状态之间的区别。 错误类型是帧传输出错的原因类型;错误帧类型(主动错误帧、被动错误帧)是帧…

基于IntraWeb的数据表格的多选实现

基于IntraWeb的数据表格的多选实现 既可以单条操作,也可以多选操作。 delphi源代码。 BS开发Web网站开发,不需要安装服务器,Apache和IIS都不需要,自带企业级服务器。 运行exe服务器就架好了,直接打开手机浏览器或者…

Zombie Slaughter 写实30个僵尸丧尸带动画角色模型

包含30个操纵的僵尸(15个男性和15个女性角色)+动画 所有僵尸都有分离的身体部位,以获得更好的射击/砍杀体验:) PBR材质包含4种纹理(基色、法线、粗糙度、AO),分辨率为4096x4096。 动画包括: -闲置 -步行 - 走回去 - 向右转 - 向左转 -担心 -尖叫 - 走路惹 -快跑 -阿格罗…

人工智能与伦理:如何确保AI应用中的隐私保护

引言 随着人工智能技术的飞速发展,AI已经渗透到我们生活的各个领域,从智能助手到个性化推荐系统,再到医疗诊断和金融服务,人工智能正在为我们带来前所未有的便利。然而,伴随着AI的广泛应用,隐私保护问题日益…

优选驾考系统小程序的设计

管理员账户功能包括:系统首页,个人中心,驾校管理,驾考文章管理,驾照类型管理,报名入口管理,学员报名管理,练车预约管理,考试场地管理 微信端账号功能包括:系统…

加油卡APP系统:省时、优惠、安心!

在汽车加油的刚需下,如何更加优惠的“加油”成为了大众关心的重点,而以优惠为主的加油卡系统也成为了大众的主要选择。 加油卡系统是汽车加油线上的服务系统,拥有全国各地的加油站权限,能够让车主在手机上进行充值,同…

VMware虚拟机连接公网,和WindTerm

一、项目名称 vmware虚拟机连接公网和windterm 二、项目背景 需求1:windows物理机,安装了vmware虚拟机,需要访问公网资源,比如云服务商的yum仓库,国内镜像加速站的容器镜像,http/https资源。 需求2&#xf…

【git】git分支之谜-十分钟给你讲透彻

这里写自定义目录标题 引子分支的直观模型在 git 中,分支是完整的提交记录分支用commit ID存储人们的直觉通常并没有那么错rebase 使用“直观”的分支概念merge也使用“直观”的分支概念github pull request 也使用直观的想法直觉很好,但它也有一些局限性…

前端编程艺术(1)---HTML

目录 1.HTML 2.注释 3.标题标签 4.段落标签 5.换行与水平分隔线 6.文本格式化标签 7.图像标签和属性 8.超链接 8.列表标签 9.表格标签 10.表单标签 11.HTML5 1.HTML HTML(HyperText Markup Language,超文本标记语言)是一种用于创建…

【JAVA开源】基于Vue和SpringBoot的新闻推荐系统

本文项目编号 T 056 ,文末自助获取源码 \color{red}{T056,文末自助获取源码} T056,文末自助获取源码 目录 一、系统介绍二、演示录屏三、启动教程四、功能截图五、文案资料5.1 选题背景5.2 国内外研究现状5.3 可行性分析 六、核心代码6.1 查…