DAHL:利用由跨越 29 个类别的 8,573 个问题组成的基准数据集,评估大型语言模型在生物医学领域长篇回答的事实准确性。

2024-11-14,由首尔国立大学创建的DAHL数据集,为评估大型语言模型(LLMs)在生物医学领域长文本生成中的幻觉问题提供了一个重要的工具,这对于提高模型的准确性和可靠性具有重要意义。

数据集地址:DAHL|生物医学数据集|模型评估数据集

一、研究背景:

随着大型语言模型(LLMs)在自然语言理解和生成领域的迅速发展,它们在生物医学、法律和金融等专业领域的应用日益增多。然而,这些模型在生成文本时可能会出现“幻觉”现象,即生成包含不准确或有偏见信息的响应,这在对事实精确度要求极高的领域中尤其危险。

目前遇到困难和挑战:

1、幻觉问题:LLMs生成的幻觉响应可能导致虚假信息的传播,引发伦理问题和严重后果。

2、专业领域挑战:在生物医学等领域,对事实精确度的要求极高,幻觉问题的风险更大。

3、评估和缓解方法:现有的评估方法多依赖于多项选择题任务或人工标注,成本高且耗时。

数据集地址:DAHL|生物医学数据集|模型评估数据集

二、让我们一起来看一下DAHL数据集

DAHL是一个专为评估生物医学领域LLMs长文本生成中幻觉问题而设计的基准数据集和自动化评估系统。

DAHL数据集包含8573个问题,涵盖29个类别,基于PubMed Central(PMC)的生物医学研究论文精心策划而成。该数据集通过将LLMs的响应分解为代表单个信息单元的原子单位,计算这些原子单位的平均事实准确性,从而产生DAHL分数。

数据集构建:

涉及从PMC中选取研究论文,生成可能的考试问题,并通过过滤过程保留可以独立回答的问题。

数据集特点:

1、覆盖广泛的生物医学领域,包含多个类别。

2、自动化的数据集构建过程,易于扩展到其他领域。

3、通过原子单位级别的事实精确度评估,提供更深入的幻觉评估。

DAHL数据集可以用于评估LLMs在生物医学领域长文本生成中的事实准确性,通过计算响应中原子单位的平均事实准确性来得出DAHL分数。

基准测试 :

通过与不同模型的实验,发现较大的模型倾向于较少的幻觉,但超过70-80亿参数的模型规模,进一步扩展并不显著提高事实准确性。

DAHL 基准数据集构建过程。

DAHL 基准数据集的分类分布。

自动幻觉评估管道。

生成的响应及其两个版本的细分单元示例,一个来自 Splitter 模型,另一个来自人工注释。Splitter 通过将响应拆分为包含有关实体的一条信息或信息之间关系的单元来实现全面评估。

DAHL 分数和每个测试模型生成的响应(字符串)的平均长度。Gpt-4o 的表现优于所有,其次是 Qwen-2、Gemma-2、Llama-3、Llama-3.1、Dolly-v2、Mistral-Nemo-Base-2407 和 MPT。Qwen-2 的 DAHL 分数为 72B 参数,开源模型中得分最高的模型,以及 gpt-4o 的分数,标记为粗体。

在 0.1 到 1.0 的温度范围内评估了 Llama-3.1-8b、Gemma-2-9b、Qwen-2-8b 和 Mistral-Nemo-Base-2407(120 亿个参数)的 DAHL 评分。每个模型的最佳温度在 0.1 到 0.3 的范围内,随着温度的升高,DAHL 分数略有线性下降。

三、让我们一起展望DAHL数据集的应用场景:

比如,我是一名医生。

我每天的工作之一就是撰写临床报告。这通常是一个既耗时又需要高度集中精力的任务。

今天一个刚做完心脏手术的病人,我需要查看手术记录、病理报告和术后监测数据。然后,我需要将这些信息整合成一份报告,描述手术过程、发现的问题以及术后的恢复情况。这个过程可能会花费他几个小时,因为我需要确保报告中的每一个细节都是准确无误的。

现在有来DAHL数据集训练的智能系统

智能系统能够自动从电子健康记录中提取病人的所有相关信息,并开始生成初步的临床报告。

1、数据提取:

智能系统首先从电子健康记录中提取病人的医疗信息,包括手术记录、病理报告和术后监测数据。

2、报告生成:

智能系统利用DAHL数据集训练出的模型,将这些信息整合成一份初步的临床报告。这个过程中,系统会确保报告中的每一个信息单元都是准确无误的。

3、事实验证:

智能系统会使用DAHL评分系统对报告中的每个信息单元进行事实验证,确保报告的准确性。比如,系统会检查“病人的心脏瓣膜修复手术成功”这一信息是否与手术记录相符。

4、报告优化:

经过事实验证后,系统会将验证无误的信息单元重新整合成一份完整的临床报告,并对其进行优化,使其更加清晰易懂。

最后,我会收到这份由智能系统生成的报告,并进行快速审核。通过智能系统,我撰写临床报告的时间大大缩短,我可以将更多的时间和精力投入到病人的诊断和治疗中。同时,报告的准确性和质量也得到了显著提升,这对于提高医疗服务的质量和病人的满意度至关重要。

更多开源数据集,请打开:遇见数据集

DAHL|生物医学数据集|模型评估数据集DAHL是由首尔国立大学精心策划的生物医学领域长篇文本生成幻觉评估基准数据集。该数据集包含8,573个问题,涵盖29个类别,来源于PubMed Central的生物医学研究论文。数据集的创建过程包括自动生成问题和人工筛选,确保问题的高质量和独立可答性。DAHL旨在评估大型语言模型在生物医学领域...icon-default.png?t=O83Ahttps://www.selectdataset.com/dataset/c5c259c5a72a9fcc8e4826916d9249c1

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/17505.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

递归算法专题

题目&#xff1a; 方法一&#xff1a;不讲武德法&#xff0c;注意&#xff1a;面试不能用&#xff01;&#xff01; 代码&#xff1a; public void hanota(List<Integer> A, List<Integer> B, List<Integer> C) {//不讲伍德方法for(int x : A) C.add(x); …

验证双随机矩阵(doubly stochastic matrix) 满足C(P)=C(P^T)

验证双随机矩阵(doubly stochastic matrix) 满足C( P P P)C(P T ^T T) 双随机矩阵&#xff1a; 在数学中&#xff0c;一个双随机矩阵&#xff08;doubly stochastic matrix&#xff09;是一个满足以下条件的矩阵&#xff1a; 非负矩阵&#xff1a;矩阵中的每个元素都是非负的…

海外媒体发稿:中东地区阿拉伯邮报Arab Post新闻媒体宣发

​今天&#xff0c;我们要特别聚焦于中东地区的知名新闻媒体——阿拉伯邮报&#xff08;Arab Post&#xff09;&#xff0c;探讨其在海内外媒体宣发领域的重要性和影响力。 阿拉伯邮报作为一家备受关注的新闻媒体&#xff0c;涵盖了新闻、政治、娱乐和观点等多个领域&#xff…

Mysql-DQL语句

文章目录 DQL 语句简单查询查询表所有数据查询指定列 别名查询清除重复值查询结果参与运算 &#x1f3e1;作者主页&#xff1a;点击&#xff01; &#x1f916;Mysql专栏&#xff1a;点击&#xff01; ⏰️创作时间&#xff1a;2024年11月16日11点39分 DQL 语句 DQL 语句数据…

ERP软件市场展望:2025年的规模与趋势深度解析-亿发

随着数字化转型的深入&#xff0c;ERP软件市场正迎来新一轮的增长。预计到2025年&#xff0c;全球ERP软件市场规模将持续扩大&#xff0c;中国市场也将保持强劲的增长势头。 市场规模增长 根据市场研究报告&#xff0c;全球ERP软件市场在2019年已超过3,000亿美元&#xff0c;预…

推荐15个2024最新精选wordpress模板

以下是推荐的15个2024年最新精选WordPress模板&#xff0c;轻量级且SEO优化良好&#xff0c;适合需要高性能网站的用户。中文wordpress模板适合搭建企业官网使用。英文wordpress模板&#xff0c;适合B2C网站搭建&#xff0c;功能强大且兼容性好&#xff0c;是许多专业外贸网站的…

LLMs 损失函数篇

LLMs 损失函数篇 一、介绍一下 KL 散度 KL&#xff08;Kullback-Leibler&#xff09;散度衡量了两个概率分布之间的差异。公式为&#xff1a; D K L ( P ∥ Q ) ∑ P ( x ) log ⁡ P ( x ) Q ( x ) D_{KL}(P \| Q) \sum P(x) \log \frac{P(x)}{Q(x)} DKL​(P∥Q)∑P(x)logQ…

智慧社区管理系统提升物业服务效率与居民生活质量

内容概要 智慧社区管理系统正变得越来越重要&#xff0c;它为现代物业管理提供了全新的视角和方法。通过结合先进的技术&#xff0c;这套系统帮助物业公司优化其服务流程&#xff0c;使服务效率得到显著提升。想象一下&#xff0c;业主只需在手机上轻轻一点&#xff0c;就能完…

共享门店模式:创新零售的新篇章

​在消费升级和数字化转型的双重浪潮下&#xff0c;传统零售业正面临前所未有的挑战与机遇。其中&#xff0c;共享门店模式作为一种创新的商业模式&#xff0c;正逐渐成为实体店铺应对电商冲击、提升运营效率和市场竞争力的重要途径。本文将深入解析共享门店模式的内涵、优势、…

基于SpringBoot的旅游网站(程序+数据库+报告)

基于SpringBoot的旅游网站&#xff0c;系统包含两种角色&#xff1a;管理员、用户,系统分为前台和后台两大模块&#xff0c;主要功能如下。 【前台】&#xff1a; - 首页&#xff1a;展示旅游网站的核心内容&#xff0c;包括推荐的旅游线路、最新的旅游资讯等。 - 旅游线路&am…

shell编程--永久环境变量和字符串显位

环境变量 echo $HOME 在终端输出后会显示家目录有个root变量 我们会提出个疑问为什么平时我们在终端输入sl 或者which等等命令会输出一些内容呢&#xff0c;这是因为这些命令都有对应的环境变量。 我们查看一下环境变量 在终端输入&#xff1a; echo $PATH 我们看一下输出…

element ui 搜索框中搜索关键字标红展示

示例如图 el-select上绑定remote-method属性 <el-select v-model"checkForm.type" filterable remote reserve-keyword :remote-method"remoteMethod" :loading"loading"><el-option v-for"item in options" :key"ite…

华为Mate 70临近上市:代理IP与抢购攻略

随着科技的飞速发展&#xff0c;智能手机已经成为我们日常生活中不可或缺的一部分。而在众多智能手机品牌中&#xff0c;华为一直以其卓越的技术和创新力引领着行业的发展。近日&#xff0c;华为Mate 70系列手机的发布会正式定档在11月26日&#xff0c;这一消息引发了众多科技爱…

《Java核心技术 卷I》用户界面中首选项API

首选项API 在桌面程序中&#xff0c;通常都会存储用户首选项&#xff0c;如用户最后处理的文件、窗口的最后位置等。 利用Properties类可以很容易的加载和保存程序的配置信息&#xff0c;但有以下缺点&#xff1a; 有些操作系统没有主目录概念&#xff0c;很难为匹配文件找到…

win10海量文件拷贝的方法

文章目录 win10海量文件拷贝的方法概述笔记备注拷贝失败的情况记录杀毒软件拦截 是否要开启"发生错误继续"的选项还是不要开启"完美校验"可以勾选"错误时继续"选项"完美校验"太占用时间了备注日志是混合编码的总结END win10海量文件拷…

Linux——环境基础开发工具使用1

目录 1.软件包管理器 1.1 操作生态系统 1.2 yum具体操作 2.编辑器Vim 2.1 vim初识 2.2 vim的基本概念 2.3 vim的基本操作 2.3.1 命令模式 2.3.2 插入模式 2.3.3 底行模式 2.3.4 补充 3.编译器gcc/g 3.1 背景知识 3.1.1 预处理&#xff08;进行宏替换/去注释/…

自定义菜单栏实现点击添加按钮打开渲染进程的Dialog.vue模态框

实现思路&#xff1a;渲染进程页面初始化后就通知主进程&#xff0c;然后把event事件保存在该js文件外&#xff0c;当点击添加时因为是在其他位置&#xff0c;所以才要这样使用。然后点击添加后由主进程主动向渲染进程传递参数通知要做的操作。 代码如下&#xff1a; // 第一步…

[vulnhub] Chronos: 1

https://www.vulnhub.com/entry/chronos-1,735/ ps&#xff1a;该靶机需要在hosts文件添加chronos.local记录&#xff0c;在官方地址上没有写 主机发现端口扫描 使用nmap扫描网段类存活主机 因为靶机是我最后添加的&#xff0c;所以靶机IP是7 &#xff0c;kali是10 nmap -sP 1…

基于SSM的餐饮管理系统的设计与实现

【Java】基于SSM的餐饮管理系统的设计与实现 点击以下链接获取源码&#xff1a; https://download.csdn.net/download/qq_64505944/90001206?spm1001.2014.3001.5503 2、技术框架&#xff1a;Jdk1.8&#xff0c;SSM&#xff0c;Tomcat&#xff0c;Mysql5&#xff0c;Jsp 3、压…

数据结构之集合框架

文章目录 1.什么是集合框架2. 集合框架的重要性&#xff08;了解&#xff09;3. 背后涉及到的数据结构以及算法3.1 什么是数据结构3.2 相关Java知识3.3 什么是算法 1.什么是集合框架 Java 集合框架 Java Collection Framework &#xff0c;又被称为容器 container &#xff0c…