含284个数据集,覆盖18项临床任务,上海AI Lab等发布多模态医疗基准GMAI-MMBench

「有这样一台智能医疗设备,患者只需躺在智能医疗设备上便可完成从扫描、诊断、治疗、修复的全过程,实现健康的重启」。这是 2013 年上映的科幻电影「极乐空间」中的一个情节。

在这里插入图片描述

电影《极乐空间》场景

如今,随着人工智能技术的飞速发展,科幻电影中展示的医疗场景将有望成为现实。面向医疗领域,大型视觉语言模型 (LVLMs) 能够处理成像、文本甚至生理信号等多种数据类型,如 DeepSeek-VL、GPT-4V、Claude3-Opus、 LLaVA-Med、MedDr、DeepDR-LLM 等,在疾病诊断和治疗中彰显出巨大的发展潜力。

然而,在 LVLMs 真正投入到临床实践之前,还需要建立基准测试进行模型的有效性评估。但目前的基准测试通常基于特定的学术文献,且主要集中在单一领域,缺乏不同的感知粒度,因此难以全面地评估 LVLMs 在真实临床场景中的有效性和表现。

针对于此,上海人工智能实验室联合华盛顿大学、莫纳什大学、华东师范大学等多家科研单位提出了 GMAI-MMBench 基准。GMAI-MMBench 由来自全球的 284 个下游任务数据集构建而成,涵盖 38 种医学影像模态、18 项临床相关任务、18 个科室以及视觉问题解答 (VQA) 格式的 4 种感知粒度,具有完善的数据结构分类和多感知粒度。

相关研究以「GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI」为题,入选 NeurIPS 2024 Dataset Benchmark,并在 arXiv 发表预印本。‍

在这里插入图片描述

论文地址:
https://arxiv.org/abs/2408.03361v7

HyperAI超神经官网现已上线「GMAI-MMBench 医疗多模态评估基准数据集」,一键即可下载!

数据集下载地址:
https://go.hyper.ai/IJfFB

GMAI-MMBench :迄今为止最全面的且开源的通用医疗 AI 基准

GMAI-MMBench 的整体构建过程可以分为 3 个主要步骤:

首先,研究人员从全球公开数据集和医院数据中搜索了数百个数据集,经过筛选、统一图像格式和标准化标签表达后,保留了 284 个高质量标签的数据集。

值得一提的是,这 284 个数据集涵盖了 2D 检测、2D 分类和 2D/3D 分割等多种医学影像任务,并由专业医生标注,确保了医学影像任务的多样性以及高度的临床相关性和准确性。

在这里插入图片描述

GMAI-MMBench 概览

紧接着,研究人员将所有标签分类为 18 个临床 VQA 任务和 18 个临床科室,使其可以全面评估 LVLMs 在各个方面的优劣,方便模型开发者和有特定需求的用户。

具体来说,研究人员设计了一个名为词汇树 (lexical tree) 结构的分类系统,将所有病例分为 18 项临床 VQA 任务、18 个科室、38 种模态等。「临床 VQA 任务」、「科室」、「模态」是可用于检索所需评估病例的词汇。例如,肿瘤科可以选择与肿瘤学相关的病例来评估 LVLMs 在肿瘤学任务中的表现,从而极大地提高了针对特定需求的灵活性和易用性。

最后,研究人员根据每个标签对应的问题和选项池生成了问答对。每个问题必须包含图像模态、任务提示和对应的标注粒度信息。最终的基准通过额外的验证和人工筛选获得。

在这里插入图片描述

GMAI-MMBench 示例图

50 个模型评估,谁能在 GMAI-MMBench 基准测试中更胜一筹

为了进一步推动 AI 在医疗领域的临床应用,研究人员在 GMAI-MMBench 上评估了 44 个开源的 LVLMs(其中包括 38 个通用模型和 6 个医学特定模型),以及商用闭源 LVLMs,如 GPT-4o、GPT-4V、Claude3-Opus、Gemini 1.0、Gemini 1.5 和 Qwen-VL-Max。

在这里插入图片描述

参与评估的 50个 LVLMs 架构一览

结果发现,当前的 LVLMs 中仍有 5 大不足之处,具体如下:

  • 临床应用仍有进步空间:即使是性能最优的模型 GPT-4o,虽达到了临床实际应用的要求,但准确率也仅为 53.96%,这表明当前的 LVLMs 在处理医学专业问题方面存在不足,仍有巨大进步空间。

  • 开源模型与商业模型的对比:MedDr 和 DeepSeek-VL-7B 等开源 LVLM 的准确率约为 44%,在某些任务上优于商业模型 Claude3-Opus 和 Qwen-VL-Max,并且与 Gemini 1.5 和 GPT-4V 的表现相当。然而,与表现最佳的 GPT-4o 相比,仍具有明显的性能差距。

  • 大多数医学专用模型难以达到通用 LVLMs 的一般性能水平(约 30% 的准确率),但 MedDr 除外,其准确率达到 43.69%。

  • 大多数 LVLMs 在不同的临床 VQA 任务、科室和感知粒度上表现不均衡。特别是在不同感知粒度的实验中,框选层级 (box-level) 的注释准确率始终最低,甚至低于图像层级的注释。

  • 导致性能瓶颈的主要因素包括感知错误(如图像内容识别错误)、缺乏医学领域知识、无关的回答内容以及由于安全协议拒绝回答问题。

综上,这些评估结果表明,当前 LVLMs 在医疗应用中的性能还有很大提升空间,需要进一步优化以满足实际临床需求。

集聚医学开源数据集,助力智慧医疗纵深发展

在医疗领域,高质量的开源数据集已经成为推动医疗研究和临床实践进步的重要驱动力。为此,HyperAI超神经为大家精选了部分医学相关的数据集,简要介绍如下:

PubMedVision 大规模医学 VQA 数据集

PubMedVision 是一个大规模且高质量的医疗多模态数据集,由深圳市大数据研究院、香港中文大学和 National Health Data Institute 的研究团队于 2024 年创建,包含 130 万个医学 VQA 样本。

为了提高图文数据的对齐度,研究团队采用视觉大模型 (GPT-4V) 对图片进行重新描述,并构建了 10 个场景的对话,将图文数据改写为问答形式,增强了医疗视觉知识的学习。

直接使用:https://go.hyper.ai/XpXGV

MMedC 大规模多语言医疗语料库

MMedC 是一个由上海交通大学人工智能学院智慧医疗团队于 2024 年构建的多语言医疗语料库,它包含了约 255 亿个 tokens,涵盖了 6 种主要语言:英语、中文、日语、法语、俄语和西班牙语。

研究团队还开源了多语言医疗基座模型 MMed-Llama 3,该模型在多项基准测试中表现卓越,显著超越了现有的开源模型,特别适用于医学垂直领域的定制微调。

直接使用:https://go.hyper.ai/5toKr

MedCalc-Bench 医疗计算数据集

MedCalc-Bench 是一个专门用于评估大语言模型 (LLMs) 在医疗计算能力方面的数据集,由美国国立卫生研究院国家医学图书馆和弗吉尼亚大学等 9 个机构于 2024 年共同发布,这个数据集包含了 10,055 个训练实例和 1,047 个测试实例,涵盖了 55 种不同的计算任务。

直接使用:https://go.hyper.ai/9BEmh

OmniMedVQA 大规模医学 VQA 评测数据集

OmniMedVQA 是一个专注于医疗领域的大型视觉问答 (Visual Question Answering, VQA) 评测数据集。这个数据集由香港大学与上海人工智能实验室于 2024 年联合推出,包含 118,010 张不同的图片,涵盖 12 种不同的模态,涉及超过 20 个人体不同的器官和部位,且所有图像都来自真实的医疗场景,旨在为医学多模态大模型的发展提供评测基准。

直接使用:https://go.hyper.ai/VB0oH

MedMNIST 医疗图像数据集

MedMNIST 由上海交通大学于 2020 年 10 月 28 日发布,是一个包含 10 个医学公开数据集的集合,共计包含 45 万张 28*28 的医疗多模态图片数据,涵盖了不同的数据模式,可用于解决医学图像分析相关问题。

直接使用:https://go.hyper.ai/pdxR0
以上就是 HyperAI超神经本期为大家推荐的数据集,如果大家看到优质的数据集资源,也欢迎留言或投稿告诉我们哦!

更多高质量数据集下载:
https://go.hyper.ai/u2nwo

参考资料:

https://mp.weixin.qq.com/s/vMWNQ-sIABocgScnrMW0GA

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/20183.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

Java-04

目录 Redis如何实现延时队列 延时队列的组成 生产消息 消费消息 实现细节 Redis集群 Integer.compare(a[1], b[1]))与a[1] - b[1]) 设计模式​编辑 算法 Redis如何实现延时队列 使用 sortedset ,拿时间戳作为 score ,消息内容作为 key 调用 zad…

【C++】— 掌握STL vector 类:“Vector简介:动态数组的高效应用”

文章目录 1.vector的介绍和使用1.1vector的介绍1.2 vector的特点1.3vector的使用1.3.1vector的定义1.3.2vector iterator的使用1.3.3vector 的空间增长问题1.3.4 vector 的增删查改1.3.5vector 迭代器失效问题 1.vector的介绍和使用 1.1vector的介绍 vector是一个顺序容器&am…

CSS3中的伸缩盒模型(弹性盒子、弹性布局)之伸缩容器、伸缩项目、主轴方向、主轴换行方式、复合属性flex-flow

简介: 1.伸缩盒模型简介 2.伸缩容器、伸缩项目 3-4.主轴方向 5.主轴换行方式 6.复合属性flex-flow 7.主轴的对齐方式

互联网数字化商品管理浪潮思考:从信息化到精准运营

目录 一、商品数字化转型面临的现状分析 (一)运营方向分析 (二)商品归类分析 二、商品数字化管理建设分析 三、基础建设——商品信息数字化 (一)商品信息质量数字化的目的 (二&#xff0…

STL关联式容器之RB-tree(红黑树)

AVL-tree之外,另一个颇具历史并被广泛运用的平衡二叉搜索树是RB-tree(红黑树)。所谓RB-tree,不仅是一颗二叉搜索树,而且必须满足一下规则: 1:每个节点不是红色就是黑色 2:根节点为…

电脑系统重装小白教程

​对于很多电脑用户来说,系统出现故障或者需要清理时,重装系统是一项不可避免的操作。但是,对于没有技术基础的小白用户而言,重装系统可能会显得复杂且困难。本文将为您提供一份简洁易懂的电脑系统重装教程,帮助您顺利…

使用Ollama和Open WebUI管理本地开源大模型

Open WebUI和Ollama介绍 Open WebUI 是一个功能丰富且用户友好的自托管 Web 用户界面(WebUI),它被设计用于与大型语言模型(LLMs)进行交互,特别是那些由 Ollama 或与 OpenAI API 兼容的服务所支持的模型。O…

Nmap识别MongoDB 6.0指纹

Nmap识别MongoDB 6.0指纹 朋友反馈一个问题,说使用Nmap扫描MongoDB服务时对于6.0以上的版本默认无法识别到服务版本信息。 如上图所示,对应的VERSION信息是空的,在提示信息中可以看到,官方推荐将指纹信息上传以帮助更新服务指纹&…

向量搜索工具之 Milvus vs. Elastic

在当今数据驱动的世界中,向量数据库因其在处理大规模非结构化数据方面的卓越能力而变得越来越重要。随着数据量的爆炸性增长,如何确保这些数据库在存储和检索数十亿数据点时仍能保持高性能,成为了一个关键挑战。 Milvus和Elasticsearch都是管…

Java中日志采集框架-JUL、Slf4j、Log4j、Logstash

1. 日志采集 日志采集是指在软件系统、网络设备、服务器或其他IT基础设施中自动收集日志文件和事件信息的过程。这些日志通常包含了时间戳、事件类型、源和目标信息、错误代码、用户操作记录等关键数据。日志采集的目的是为了监控系统运行状态、分析系统性能、审计用户行为、故…

每日学习记录003:(C++)unique_ptr和shared_ptr

每日学习记录003:(C)unique_ptr和shared_ptr 在C中,unique_ptr和shared_ptr都是智能指针,它们为动态内存管理提供了更安全、更方便的方式。 一、unique_ptr的特点 (一)独占所有权 unique_pt…

免费实用的图片加水印工具

高度自定义的图片加水印工具 因工作需要和朋友的需求,我基于canvas开发了这款图片加水印工具。 地址:https://potatotools.top/toolsEntrance/pic/ImageWatermark.vue.html 功能亮点 尺寸定制 ,轻松调整水印宽高,精准适配每张图…

数字化工厂 MES 成功之艰:深度剖析与探究

系统集成的复杂性 多源异构系统对接难题 在数字化工厂的建设进程中,MES(制造执行系统)处于核心枢纽地位,需与众多不同来源、不同架构的系统进行集成。企业内部往往早已部署了诸如企业资源计划(ERP)系统、…

kimi 大模型 API 接口实现大模型对话 - python 实现

kimi API接口实现大模型对话 - python 实现,具体代码如下: 注意:api_key 需要kimi官网注册后创建。 from openai import OpenAI if __name__ __main__:client OpenAI(api_key "sk-***********", # $MOONSHOT_API_KEY 官网注册…

服务器被隔离导致无法登录

现象描述 云服务器可能会因安全违规(内容或行为违规)或因 DDoS 攻击被封堵隔离,被隔离的云服务器在控制台显示为 “BANNING” 状态。 云服务器被隔离可能由于该台服务器违反了当前法律法规的要求。您可以通过以下方式查看该台服务器是否处于…

PaddleNLP的环境配置:

PaddleNLP的环境配置: conda create -n paddle—test python3.9conda activate paddle—testpython -m pip install paddlepaddle-gpu2.6.1.post112 -f https://www.paddlepaddle.org.cn/whl/windows/mkl/avx/stable.html(paddle—test) (venv) PS D:\work\论文写…

物联网研究实训室建设方案

一、引言 随着物联网技术的快速发展,其在各个行业的应用越来越广泛,对物联网专业人才的需求也日益增加。为满足这一需求,建设一个符合现代化教学需求的物联网研究实训室,对于提高学生的实践能力和创新能力具有重要意义。本方案旨…

javaweb学习——Day2

JS对象 1、array 定义: var namenew Array(元素列表); var name[元素列表] 访问: name[索引]值 array的属性和方法 length属性,获取数组长度 foreach():遍历数组元素 x.forEach(element > { console.log(element); }); push():…

实战精选|如何使用 OpenVINO™ 在 ElectronJS 中创建桌面应用程序

点击蓝字 关注我们,让开发变得更有趣 作者 | Mikołaj Roszczyk 华沙理工大学物联网工程师 翻译 | 武卓 英特尔 AI 软件布道师 排版 | 吴紫琴 OpenVINO™ 最近,我完成了一个 demo 演示,展示了 OpenVINO™ 在 Node.js 框架中的强大功能。得益于与 Electr…

PyCharm的类型警告: Expected type ‘SupportsWrite[bytes]‘, got ‘BinaryIO‘ instead

记录时使用的PyCharm版本: PyCharm 2024.3 (Professional Edition) Build #PY-243.21565.199, built on November 13, 2024 问题描述 当在PyCharm里使用pickle保存文件, 比如以下代码这样: with open(meta_save_path, wb) as f:pickle.dump(meta, f)会发现PyCharm对此发出类型…