大模型评测技术研讨会暨国际标准IEEE P3419第二次工作组会议成功召开

7月12日,由北京智源人工智能研究院主办的大模型评测技术研讨会暨国际标准IEEE P3419第二次工作组会议在智源大厦举办,来自百度、信通院、移动、联通、电信、浪潮、南方电网、南瑞、清华、北航等互联网大厂、科研机构、运营商、知名高校以及海外的50余位专家参加了此次会议。

智源研究院副院长兼总工程师林咏华出席会议并致辞。林咏华表示:“大模型评测工作是推动大模型产业发展的风向标。当前大模型评测工作仍然需要进一步准确反映大模型的真实能力,满足产业实际需求并促进大模型的技术发展”。

大模型评测技术研讨会上,智源研究院智能评测组负责人杨熙分享了报告《大语言模型的幻觉检测》。

杨熙指出,目前大语言模型容易产生幻觉,生成的内容可能与既定知识相冲突或不忠实于原始来源。现有的幻觉基准测试主要关注句子或段落级别的幻觉检测,忽略了对话级别的评估、幻觉定位和理由解释,也主要针对事实性幻觉,而低估了忠实性幻觉,常常依赖于劳动密集型或非专业化的评估者。

为了解决上述问题,智源研究院联合北京大学提出了幻觉检查数据集HalluDial,该数据集是全球第一个全面的大规模自动对话级别幻觉评估基准,且涵盖了自发性和诱导性幻觉情景,覆盖了事实性和忠实性幻觉。此外,还引入了一个专门的大语言检测模型HalluJudge,首次支持幻觉定位 & 解释。目前全球最大对话场景的大模型幻觉检测数据集HalluDial以及首个支持幻觉定位 & 解释的大语言检测模型HalluJudge均已在Github上开源。

HalluDial以及HalluJudge的开源链接:https://github.com/FlagOpen/HalluDial

百度文心一言评估产品负责人吕雪莹、中国移动研究院 AI标准化研究员聂锦燃、中国信通院人工智能研究所业务主管韩旭分别分享了大模型评估方法体系与实践。

在IEEE P3419工作组主席林咏华和秘书王晓敏的主持下,国际标准IEEE P3419第二次工作组会议顺利召开,参会专家积极讨论了国际标准《大语言模型评测》的目的、范围、评测框架、能力维度,以及未来IEEE P3419工作组的工作安排以及发展规划。

本次会议为大模型评测技术厂商提供了一个开放的交流平台,通过各大厂商专家的专题分享报告以及会上交流,使参会者更深入了解了当前大模型评测技术框架、进展以及挑战,推进了大模型评测技术发展以及产业落地。未来,智源研究院将继续积极参与大模型评测技术国家以及国际标准的制定工作,与成员单位共同推进大模型评测标准工作的蓬勃发展。

IEEE P3419人工智能大模型评估工作组于2023年成立,是IEEE计算机学会/人工智能标准委员会下设成立的专注于大模型评估标准化研究的工作组,由智源研究院林咏华副院长担任工作组主席,目前已启动一项国际标准《大语言模型评测》(Standard for Large Language Model Evaluation)的编制工作。为保证该项标准的广泛代表性和科学适应性,现邀请国内外相关企业、高校、科研机构等单位加入该工作组共同参与国际标准编制工作(有意向者可联系工作人员:liuying@baai.ac.cn)。

了解智源评测更多细节,请浏览官网FlagEval

智源评估第一期 .pdf ->第一期智源评估技术报告​​​​​​​Docsicon-default.png?t=N7T8https://jwolpxeehx.feishu.cn/file/SunjbO86VoNb4HxL5XTcCZkvntg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/1483858.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Android:创建自定义View

点击查看创建自定义view官网文档 一、简介 设计良好的自定义视图与任何其他精心设计的类一样。它通过一个简单的接口封装一组特定的功能,高效使用 CPU 和内存,诸如此类。除了是一个精心设计的类之外,自定义视图还必须执行以下操作&#xff1…

vue echarts 柱状图表,点击柱子,路由代参数(X轴坐标)跳转

一 myChart.on(click, (params) > {if (params.componentType series && params.dataIndex ! undefined) {const months this.month_htqd[params.dataIndex]; // 获取点击柱状图的 X 轴坐标值alert(点击了柱状图,值为: ${months});// 根据点击的柱状图…

哪种SSL证书可以快速签发保护http安全访问?

用户访问网站,经常会遇到访问http网页时,提示网站不安全或者不是私密连接的提示,因为http是使用明文传输,数据传输中可能被篡改,数据不被保护,通常需要SSL证书来给数据加密。 SSL证书的签发速度&#xff0…

自动化测试中如何应对网页弹窗的挑战!

在自动化测试中,网页弹窗的出现常常成为测试流程中的一个难点。无论是警告框、确认框、提示框,还是更复杂的模态对话框,都可能中断测试脚本的正常执行,导致测试结果的不确定性。本文将探讨几种有效的方法来应对网页弹窗的挑战&…

Postgresql-12.5 安装及配置 -银河麒麟V10服务器版本

Postgresql-12.5 安装及配置 环境基于银河麒麟V10 服务器版本操作 此安装步骤Linux操作系统几乎通用 下载数据库安装包 链接:https://pan.baidu.com/s/1wt4Yjwv79W-fCd4tlMC4-w 提取码:0117 1.下载依赖 可以用系统自带的依赖库下载 yum install -…

基于PHP+MYSQL开发制作的趣味测试网站源码

基于PHPMYSQL开发制作的趣味测试网站源码。可在后台提前设置好缘分, 自己手动在数据库里修改数据,数据库里有就会优先查询数据库的信息, 没设置的话第一次查询缘分都是非常好的 95-99,第二次查就比较差 , 所以如果要…

什么是SQL锁

SQL锁是数据库系统中的一个重要概念,主要用于保证多用户环境下的数据库完整性和一致性。在多用户并发访问数据库时,通过加锁的方式防止其他事务访问指定的资源,从而控制并发的访问,确保数据的完整性和一致性。 SQL锁可以分为以下…

msyql (8.4,9.0) caching_sha2_password 转换 mysql_native_password用户认证

mysql 前言 caching_sha2_password 主要特性 用于增强用户账户密码的存储和验证安全性。这种插件利用 SHA-256 散列算法的变体来存储和验证密码 安全的密码散列: caching_sha2_password 使用基于 SHA-256 的算法来生成密码的散列值。这意味着即使数据库被未授权访…

地图项目涉及知识点总结

序:最近做了一个在地图上标记点的项目,用户要求是在地图上显示百万量级的标记点,并且地图仍要可用(能拖拽,能缩放)。调研了不少方法和方案,最终实现了相对流畅的地图系统,加载耗时用…

spring-boot 整合 redisson 实现延时队列(文末有彩蛋)

应用场景 通常在一些需要经历一段时间或者到达某个指定时间节点才会执行的功能,比如以下这些场景: 订单超时提醒收货自动确认会议提醒代办事项提醒 为什么使用延时队列 对于数据量小且实时性要求不高的需求来说,最简单的方法就是定时扫描数据…

【IEEE出版】第四届能源工程与电力系统国际学术会议(EEPS 2024)

第四届能源工程与电力系统国际学术会议(EEPS 2024) 2024 4th International Conference on Energy Engineering and Power Systems 重要信息 大会官网:www.iceeps.com 大会时间:2024年8月9-11日 大会…

S7-1200PLC使用西门子报文 111 和 FB38002(Easy_SINA_Pos)实现V90 PN总线伺服定位控制

1、博途1200/1500 PLC V90 PN通信 博途1200/1500PLC V90 PN通信控制 (FB284功能块)_fb284功能块文档说明-CSDN博客文章浏览阅读7k次。先简单说下如何获取FB284,一般有2种方法,Startdrive软件可以操作大部分西门子的驱动器,建议安装调试方便,缺点就是软件太大。_fb284功能…

安装anaconda后jupyter notebook打不开 闪退

首先,通过清华源安装了最新的anaconda(安装在了D盘) 尝试打开jupyter,发现小黑框1s后自己关了,根本不打开浏览器 之后尝试按照这个做了一遍https://blog.csdn.net/gary101818/article/details/123560304还是不行。。…

Jmeter性能测试(九)

一、Jmeter性能测试需要特别注意的地方 1、参数化 2、请求参数 3、BeanShell 预处理程序更新jmeter请求参数 4、接口中不可重复的随机数处理 5、线程组设置 6、总结 二、参数化 1、参数化配置,多个参数用英文逗号隔开 2、wallet参数化文件,不要写表头,多个参数用英文逗号…

二叉树的前、中、后序遍历(递归法、迭代法)leetcode144/94/145

leetcode144、二叉树的前序遍历 给你二叉树的根节点 root ,返回它节点值的 前序 遍历。 示例 1: 输入:root [1,null,2,3] 输出:[1,2,3] 示例 2: 输入:root [] 输出:[] 示例 3:…

鸿蒙开发入门——ArkTS语法简介(万字简介)

ArkTS 作为鸿蒙开发的编程语言,我们先来一图看看这个语言,我们可以看到ArkTS是在TS(TypeScript)的基础上改造的,而TS又是在JS(JavaSript)上改造的,一句话总结就是ArkTS是TS的超集&a…

新版本 idea 创建不了 spring boot 2 【没有jkd8选项】

创建新项目 将地址换成如下 https://start.aliyun.com/

HackQuest介绍 web3 学习平台

HackQuest 官网地址: https://www.hackquest.io/zh HackQuest是一个专注于Web3技术教育的在线学习平台,旨在帮助全球开发者掌握区块链、加密货币和去中心化应用(DApps)领域的最新技能。该平台汇聚了超过14000名活跃开发者&#…

C学习(数据结构)-->单链表习题

目录 一、环形链表 题一:环形链表 思路: 思考一:为什么? 思考二:快指针一次走3步、4步、......n步,能否相遇 step1: step2: 代码: 题二: 环形链表 I…

区块链技术在溯源领域的应用

区块链技术具有去中心化、不可篡改、可追溯等特点,使其在溯源领域具有广阔的应用前景。具体而言,区块链技术可以应用于以下几个方面。北京木奇移动技术有限公司,专业的软件外包开发公司,欢迎交流合作。 1. 产品溯源 产品溯源是指…