当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(四十八)

请添加图片描述

PhD: A ChatGPT-Prompted Visual hallucination Evaluation Dataset

➡️ 论文标题:PhD: A ChatGPT-Prompted Visual hallucination Evaluation Dataset
➡️ 论文作者:Jiazhen Liu, Yuhan Fu, Ruobing Xie, Runquan Xie, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Xirong Li
➡️ 研究机构: 中国人民大学、腾讯机器学习平台部
➡️ 问题背景:多模态大语言模型(MLLMs)在处理各种计算机视觉任务时表现出色,但它们也容易产生视觉幻觉,即对给定视觉内容生成错误的解释。随着MLLMs在不同场景中的应用日益广泛,对其视觉幻觉进行全面评估变得至关重要。
➡️ 研究动机:现有的视觉幻觉评估(VHE)基准虽然有价值,但在幻觉项目(hitems)的选择上存在不足,且随着模型的快速进化,这些基准的性能很快达到饱和。因此,研究团队开发了一个新的VHE数据集,旨在更深入地分析MLLMs的视觉幻觉原因,并提供一个更全面、更具挑战性的评估工具。
➡️ 方法简介:研究团队提出了一个基于ChatGPT辅助的半自动化管道,构建了一个名为PhD的视觉幻觉评估数据集。PhD数据集包含14,648张日常图像、750张反常识(CCS)图像和102,564个VQA三元组,涵盖了从低级到中级的五种视觉识别任务。PhD数据集通过四个评估模式(PhD-base、PhD-iac、PhD-icc和PhD-ccs)来评估MLLMs在不同条件下的表现。
➡️ 实验设计:研究团队在10个开源MLLMs和GPT-4o上进行了广泛的评估,包括总体评估、模式导向评估、任务导向评估和模型导向评估。评估结果不仅揭示了不同模型之间的性能差异,还为特定MLLM的开发者提供了改进模型的指导。

ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models

➡️ 论文标题:ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models
➡️ 论文作者:Siyuan Huang, Iaroslav Ponomarenko, Zhengkai Jiang, Xiaoqi Li, Xiaobin Hu, Peng Gao, Hongsheng Li, Hao Dong
➡️ 研究机构: Shanghai AI Laboratory, Peking University, Shanghai Jiao Tong University, MMLab, CUHK, UCAS, TUM
➡️ 问题背景:尽管多模态大语言模型(MLLMs)在理解自然语言指令和执行任务方面取得了显著进展,但在机器人操作任务中,由于缺乏特定的机器人知识,这些模型的表现仍然有限。传统的MLLMs通常在通用的图像-文本对上进行训练,导致它们在理解物体的操作可能性(affordances)和物理特性方面存在不足。
➡️ 研究动机:为了弥补现有MLLMs在机器人操作任务中的不足,研究团队提出了ManipVQA框架,通过视觉问答(VQA)格式将操作中心的知识注入MLLMs中。该框架旨在增强模型在工具检测、操作可能性识别和物理概念理解方面的能力,从而提高机器人在执行复杂任务时的性能。
➡️ 方法简介:研究团队构建了一个综合的视觉-语言数据集,通过合并现有的数据集并扩展操作可能性的定位任务,以ChatGPT生成的复杂和上下文丰富的操作任务为补充。该数据集涵盖了广泛的挑战,包括物体检测、操作可能性和物理概念预测。此外,研究团队采用了一种细调策略,通过统一的VQA格式和投影层,将机器人特定的知识与MLLMs的视觉推理能力相结合,同时保留了模型原有的视觉推理能力。
➡️ 实验设计:实验在多个公开数据集上进行,包括HANDAL、PACO、RefCOCO和Visual Genome等。实验设计了不同的任务,如物体检测、操作可能性检测、物理概念理解等,以全面评估ManipVQA在不同任务中的表现。实验结果表明,ManipVQA在机器人模拟器和各种视觉任务基准测试中表现出色,显著提高了模型在操作任务中的性能。
➡️ 主要贡献:研究团队提出了一个创新的框架ManipVQA,通过VQA格式将操作中心的知识注入MLLMs中,解决了现有方法的不足。此外,研究团队公开了数据集、代码和模型,以促进相关领域的研究和发展。

MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control

➡️ 论文标题:MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control
➡️ 论文作者:Enshen Zhou, Yiran Qin, Zhenfei Yin, Yuzhou Huang, Ruimao Zhang, Lu Sheng, Yu Qiao, Jing Shao
➡️ 研究机构: Shanghai Artificial Intelligence Laboratory、Beihang University、The Chinese University of Hong Kong, Shenzhen (CUHK-Shenzhen)、The University of Sydney
➡️ 问题背景:当前的通用智能体(Generalist Agents)在执行开放世界任务时,虽然能够理解并执行一些指令,但在理解和执行抽象和顺序的自然语言指令时仍存在困难。这些困难主要体现在:1) 抽象的文本指令难以直接转化为低级别的控制信号;2) 顺序指令的执行需要考虑当前状态并分解为多个阶段逐步完成,而现有的方法往往无法有效实现这一点。
➡️ 研究动机:为了克服上述问题,研究团队提出了一种新的机制——Chain-of-Imagination (CoI),旨在通过多轮自我交互,使智能体能够逐步想象并执行指令,从而更稳定地完成任务。研究团队希望通过这一机制,增强预训练决策模型的情境感知推理能力,使其能够更稳定地跟随人类指令生成动作。
➡️ 方法简介:研究团队提出了MineDreamer,一个在Minecraft模拟器上构建的开放性智能体。MineDreamer基于多模态大语言模型(MLLMs)和扩散模型,通过Chain-of-Imagination机制,将文本指令逐步转化为更精确的视觉提示,指导智能体生成低级别的控制动作。具体来说,MineDreamer包含三个模块:1) Imaginator,一个增强的扩散模型,能够生成包含物理规则和环境理解的想象;2) Prompt Generator,将未来的想象转化为潜在的视觉提示;3) PolicyNet,一个预训练的决策模型,使用潜在提示指导动作预测。
➡️ 实验设计:研究团队在Minecraft环境中进行了广泛的实验,评估了MineDreamer在执行单步和多步指令时的性能。实验设计了不同的任务,如“砍树”、“收集木材”等,以验证MineDreamer在不同条件下的表现。实验结果表明,MineDreamer能够稳定地执行指令,显著优于现有的通用智能体基线,性能几乎翻倍。此外,对智能体的想象能力进行了定性分析,展示了其在开放世界中的泛化和理解能力。

DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM

➡️ 论文标题:DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM
➡️ 论文作者:Yixuan Wu, Yizhou Wang, Shixiang Tang, Wenhao Wu, Tong He, Wanli Ouyang, Philip Torr, Jian Wu
➡️ 研究机构: Zhejiang University、Shanghai AI Lab、The Chinese University of Hong Kong、The University of Sydney、University of Oxford
➡️ 问题背景:尽管多模态大语言模型(MLLMs)在理解人类语言和解决实际问题方面表现出色,但它们在检测任务中的潜力尚未得到充分挖掘。特别是在处理复杂对象检测任务时,如检测高度遮挡、旋转或小尺寸的对象,MLLMs往往表现不佳,这限制了它们在现实世界中的应用,如缺陷检测和运动分析。
➡️ 研究动机:为了增强MLLMs的检测能力,研究团队提出了一种新的提示范式——DetToolChain,旨在通过一系列检测提示工具和多模态链式思维(Det-CoT)来释放MLLMs的零样本检测能力。这种方法不仅提高了检测任务的准确性,还减少了对大规模训练数据的依赖。
➡️ 方法简介:研究团队设计了一套全面的检测提示工具,包括视觉处理提示和检测推理提示。视觉处理提示通过图像分割、放大、叠加尺子和指南针等手段,增强MLLMs对图像细节的可见性和空间参考的准确性。检测推理提示则帮助MLLMs诊断检测结果,推理下一步应使用的视觉处理提示,确保检测结果的准确性和一致性。
➡️ 实验设计:研究团队在多个公开数据集上进行了实验,包括MS COCO、RefCOCO和D-cube等,涵盖了开放词汇检测、描述对象检测、零样本引用表达理解等任务。实验结果表明,使用DetToolChain的GPT-4V在多个检测任务上显著优于现有方法,特别是在MS COCO Novel class set上的AP50指标提高了21.5%,在RefCOCO val set上的准确率提高了24.23%。

mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding

➡️ 论文标题:mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding
➡️ 论文作者:Anwen Hu, Haiyang Xu, Jiabo Ye, Ming Yan, Liang Zhang, Bo Zhang, Chen Li, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
➡️ 研究机构: 阿里巴巴集团、中国人民大学
➡️ 问题背景:现有的多模态大语言模型(MLLMs)在处理视觉文档理解任务时,虽然具备文本识别能力,但缺乏对文本丰富图像的结构理解能力。这些模型在处理文档、网页、表格和图表等图像时面临挑战,主要因为视觉编码器和视觉到文本模块(V2T)在训练时主要基于通用图像-文本对,未针对文本和结构信息进行优化。
➡️ 研究动机:为了提高MLLMs在文本丰富图像上的视觉文档理解能力,研究团队提出了统一结构学习(Unified Structure Learning)的概念,旨在通过结构感知解析任务和多粒度文本定位任务,增强模型对文本内容和布局信息的理解。此外,研究还强调了结构信息在视觉文档理解中的重要性,并设计了H-Reducer模块来更好地保持高分辨率图像中的空间信息。
➡️ 方法简介:研究团队设计了一个简单有效的视觉到文本模块H-Reducer,该模块通过卷积操作合并水平相邻的视觉特征,既减少了视觉特征的数量,又保持了相对位置关系。此外,团队构建了一个全面的训练集DocStruct4M,包含结构感知的文本序列和多粒度的文本-边界框对,以支持统一结构学习。最后,为了触发MLLMs在视觉文档理解中的推理能力,团队还构建了一个高质量的指令调优数据集DocReason25K。
➡️ 实验设计:DocOwl 1.5模型在10个视觉文档理解基准测试中进行了评估,包括文档解析、表格解析、图表解析、自然图像解析等任务。实验设计了多种任务,如结构感知解析任务和多粒度文本定位任务,以全面评估模型在不同任务中的表现。实验结果表明,DocOwl 1.5在多个任务上取得了显著的性能提升,特别是在5个任务中,相比类似规模的模型,性能提高了超过10个百分点。

http://www.xdnf.cn/news/213589.html

相关文章:

  • 使用Docker操作MySQL
  • 从零搭建体育比分网站:技术选型与API调用实战(附完整源码)
  • Java中final关键字的作用?
  • Jupyter notebook快捷键
  • 【运维】掌控系统脉搏:用 Python 和 psutil打造高效运维监控工具
  • Qt的WindowFlags窗口怎么选?
  • 第六章 QT基础:7、Qt中多线程的使用
  • Knife4j 接口文档添加登录验证流程分析
  • 天能资管(SkyAi):全球布局,领航资管新纪元
  • 单片机-89C51部分:9、串行口通讯
  • TTL、RS-232 和 RS-485 串行通信电平标准区别解析
  • 【C语言练习】010. 理解函数参数的传递方式
  • 深度解析Qwen3:性能实测对标Gemini 2.5 Pro?开源大模型新标杆的部署挑战与机遇
  • 牛客周赛 Round 91
  • k8s 学习记录 (六)_Pod 污点和容忍性详解
  • 日常开发小Tips:后端返回带颜色的字段给前端
  • 数据结构:实验7.3Huffman树与Huffman编码
  • 【18】爬虫神器 Pyppeteer 的使用
  • 信息科技伦理与道德3-4:面临挑战
  • 宾馆一次性拖鞋很重要,扬州卓韵酒店用品详细介绍其材质与卫生标准
  • 论文导读 - 基于特征融合的电子鼻多任务深度学习模型研究
  • 【无基础】小白解决Docker pull时报错:https://registry-1.docker.io/v2/
  • Html 2
  • verl - 火山引擎大语言模型强化学习训练库
  • Wi-SUN与LoRa和NB-IoT通信技术的对比
  • AI+零售:智能推荐、无人店与供应链管理的未来
  • 基于STM32、HAL库的DS28E15P安全验证及加密芯片驱动程序设计
  • Kafka 消息可靠性深度解析:大流量与小流量场景下的设计哲学
  • [逆向工程]如何理解小端序?逆向工程中的字节序陷阱与实战解析
  • 搜索引擎中的检索模型(布尔模型、向量空间模型、概率模型、语言模型)