当前位置：首页 > news >正文

多模态大语言模型arxiv论文略读（四十八）

news 2025/4/30 6:54:31

请添加图片描述

PhD: A ChatGPT-Prompted Visual hallucination Evaluation Dataset

➡️ 论文标题：PhD: A ChatGPT-Prompted Visual hallucination Evaluation Dataset
➡️ 论文作者：Jiazhen Liu, Yuhan Fu, Ruobing Xie, Runquan Xie, Xingwu Sun, Fengzong Lian, Zhanhui Kang, Xirong Li
➡️ 研究机构: 中国人民大学、腾讯机器学习平台部
➡️ 问题背景：多模态大语言模型（MLLMs）在处理各种计算机视觉任务时表现出色，但它们也容易产生视觉幻觉，即对给定视觉内容生成错误的解释。随着MLLMs在不同场景中的应用日益广泛，对其视觉幻觉进行全面评估变得至关重要。
➡️ 研究动机：现有的视觉幻觉评估（VHE）基准虽然有价值，但在幻觉项目（hitems）的选择上存在不足，且随着模型的快速进化，这些基准的性能很快达到饱和。因此，研究团队开发了一个新的VHE数据集，旨在更深入地分析MLLMs的视觉幻觉原因，并提供一个更全面、更具挑战性的评估工具。
➡️ 方法简介：研究团队提出了一个基于ChatGPT辅助的半自动化管道，构建了一个名为PhD的视觉幻觉评估数据集。PhD数据集包含14,648张日常图像、750张反常识（CCS）图像和102,564个VQA三元组，涵盖了从低级到中级的五种视觉识别任务。PhD数据集通过四个评估模式（PhD-base、PhD-iac、PhD-icc和PhD-ccs）来评估MLLMs在不同条件下的表现。
➡️ 实验设计：研究团队在10个开源MLLMs和GPT-4o上进行了广泛的评估，包括总体评估、模式导向评估、任务导向评估和模型导向评估。评估结果不仅揭示了不同模型之间的性能差异，还为特定MLLM的开发者提供了改进模型的指导。

ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models

➡️ 论文标题：ManipVQA: Injecting Robotic Affordance and Physically Grounded Information into Multi-Modal Large Language Models
➡️ 论文作者：Siyuan Huang, Iaroslav Ponomarenko, Zhengkai Jiang, Xiaoqi Li, Xiaobin Hu, Peng Gao, Hongsheng Li, Hao Dong
➡️ 研究机构: Shanghai AI Laboratory, Peking University, Shanghai Jiao Tong University, MMLab, CUHK, UCAS, TUM
➡️ 问题背景：尽管多模态大语言模型（MLLMs）在理解自然语言指令和执行任务方面取得了显著进展，但在机器人操作任务中，由于缺乏特定的机器人知识，这些模型的表现仍然有限。传统的MLLMs通常在通用的图像-文本对上进行训练，导致它们在理解物体的操作可能性（affordances）和物理特性方面存在不足。
➡️ 研究动机：为了弥补现有MLLMs在机器人操作任务中的不足，研究团队提出了ManipVQA框架，通过视觉问答（VQA）格式将操作中心的知识注入MLLMs中。该框架旨在增强模型在工具检测、操作可能性识别和物理概念理解方面的能力，从而提高机器人在执行复杂任务时的性能。
➡️ 方法简介：研究团队构建了一个综合的视觉-语言数据集，通过合并现有的数据集并扩展操作可能性的定位任务，以ChatGPT生成的复杂和上下文丰富的操作任务为补充。该数据集涵盖了广泛的挑战，包括物体检测、操作可能性和物理概念预测。此外，研究团队采用了一种细调策略，通过统一的VQA格式和投影层，将机器人特定的知识与MLLMs的视觉推理能力相结合，同时保留了模型原有的视觉推理能力。
➡️ 实验设计：实验在多个公开数据集上进行，包括HANDAL、PACO、RefCOCO和Visual Genome等。实验设计了不同的任务，如物体检测、操作可能性检测、物理概念理解等，以全面评估ManipVQA在不同任务中的表现。实验结果表明，ManipVQA在机器人模拟器和各种视觉任务基准测试中表现出色，显著提高了模型在操作任务中的性能。
➡️ 主要贡献：研究团队提出了一个创新的框架ManipVQA，通过VQA格式将操作中心的知识注入MLLMs中，解决了现有方法的不足。此外，研究团队公开了数据集、代码和模型，以促进相关领域的研究和发展。

MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control

➡️ 论文标题：MineDreamer: Learning to Follow Instructions via Chain-of-Imagination for Simulated-World Control
➡️ 论文作者：Enshen Zhou, Yiran Qin, Zhenfei Yin, Yuzhou Huang, Ruimao Zhang, Lu Sheng, Yu Qiao, Jing Shao
➡️ 研究机构: Shanghai Artificial Intelligence Laboratory、Beihang University、The Chinese University of Hong Kong, Shenzhen (CUHK-Shenzhen)、The University of Sydney
➡️ 问题背景：当前的通用智能体（Generalist Agents）在执行开放世界任务时，虽然能够理解并执行一些指令，但在理解和执行抽象和顺序的自然语言指令时仍存在困难。这些困难主要体现在：1) 抽象的文本指令难以直接转化为低级别的控制信号；2) 顺序指令的执行需要考虑当前状态并分解为多个阶段逐步完成，而现有的方法往往无法有效实现这一点。
➡️ 研究动机：为了克服上述问题，研究团队提出了一种新的机制——Chain-of-Imagination (CoI)，旨在通过多轮自我交互，使智能体能够逐步想象并执行指令，从而更稳定地完成任务。研究团队希望通过这一机制，增强预训练决策模型的情境感知推理能力，使其能够更稳定地跟随人类指令生成动作。
➡️ 方法简介：研究团队提出了MineDreamer，一个在Minecraft模拟器上构建的开放性智能体。MineDreamer基于多模态大语言模型（MLLMs）和扩散模型，通过Chain-of-Imagination机制，将文本指令逐步转化为更精确的视觉提示，指导智能体生成低级别的控制动作。具体来说，MineDreamer包含三个模块：1) Imaginator，一个增强的扩散模型，能够生成包含物理规则和环境理解的想象；2) Prompt Generator，将未来的想象转化为潜在的视觉提示；3) PolicyNet，一个预训练的决策模型，使用潜在提示指导动作预测。
➡️ 实验设计：研究团队在Minecraft环境中进行了广泛的实验，评估了MineDreamer在执行单步和多步指令时的性能。实验设计了不同的任务，如“砍树”、“收集木材”等，以验证MineDreamer在不同条件下的表现。实验结果表明，MineDreamer能够稳定地执行指令，显著优于现有的通用智能体基线，性能几乎翻倍。此外，对智能体的想象能力进行了定性分析，展示了其在开放世界中的泛化和理解能力。

DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM

➡️ 论文标题：DetToolChain: A New Prompting Paradigm to Unleash Detection Ability of MLLM
➡️ 论文作者：Yixuan Wu, Yizhou Wang, Shixiang Tang, Wenhao Wu, Tong He, Wanli Ouyang, Philip Torr, Jian Wu
➡️ 研究机构: Zhejiang University、Shanghai AI Lab、The Chinese University of Hong Kong、The University of Sydney、University of Oxford
➡️ 问题背景：尽管多模态大语言模型（MLLMs）在理解人类语言和解决实际问题方面表现出色，但它们在检测任务中的潜力尚未得到充分挖掘。特别是在处理复杂对象检测任务时，如检测高度遮挡、旋转或小尺寸的对象，MLLMs往往表现不佳，这限制了它们在现实世界中的应用，如缺陷检测和运动分析。
➡️ 研究动机：为了增强MLLMs的检测能力，研究团队提出了一种新的提示范式——DetToolChain，旨在通过一系列检测提示工具和多模态链式思维（Det-CoT）来释放MLLMs的零样本检测能力。这种方法不仅提高了检测任务的准确性，还减少了对大规模训练数据的依赖。
➡️ 方法简介：研究团队设计了一套全面的检测提示工具，包括视觉处理提示和检测推理提示。视觉处理提示通过图像分割、放大、叠加尺子和指南针等手段，增强MLLMs对图像细节的可见性和空间参考的准确性。检测推理提示则帮助MLLMs诊断检测结果，推理下一步应使用的视觉处理提示，确保检测结果的准确性和一致性。
➡️ 实验设计：研究团队在多个公开数据集上进行了实验，包括MS COCO、RefCOCO和D-cube等，涵盖了开放词汇检测、描述对象检测、零样本引用表达理解等任务。实验结果表明，使用DetToolChain的GPT-4V在多个检测任务上显著优于现有方法，特别是在MS COCO Novel class set上的AP50指标提高了21.5%，在RefCOCO val set上的准确率提高了24.23%。

mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding

➡️ 论文标题：mPLUG-DocOwl 1.5: Unified Structure Learning for OCR-free Document Understanding
➡️ 论文作者：Anwen Hu, Haiyang Xu, Jiabo Ye, Ming Yan, Liang Zhang, Bo Zhang, Chen Li, Ji Zhang, Qin Jin, Fei Huang, Jingren Zhou
➡️ 研究机构: 阿里巴巴集团、中国人民大学
➡️ 问题背景：现有的多模态大语言模型（MLLMs）在处理视觉文档理解任务时，虽然具备文本识别能力，但缺乏对文本丰富图像的结构理解能力。这些模型在处理文档、网页、表格和图表等图像时面临挑战，主要因为视觉编码器和视觉到文本模块（V2T）在训练时主要基于通用图像-文本对，未针对文本和结构信息进行优化。
➡️ 研究动机：为了提高MLLMs在文本丰富图像上的视觉文档理解能力，研究团队提出了统一结构学习（Unified Structure Learning）的概念，旨在通过结构感知解析任务和多粒度文本定位任务，增强模型对文本内容和布局信息的理解。此外，研究还强调了结构信息在视觉文档理解中的重要性，并设计了H-Reducer模块来更好地保持高分辨率图像中的空间信息。
➡️ 方法简介：研究团队设计了一个简单有效的视觉到文本模块H-Reducer，该模块通过卷积操作合并水平相邻的视觉特征，既减少了视觉特征的数量，又保持了相对位置关系。此外，团队构建了一个全面的训练集DocStruct4M，包含结构感知的文本序列和多粒度的文本-边界框对，以支持统一结构学习。最后，为了触发MLLMs在视觉文档理解中的推理能力，团队还构建了一个高质量的指令调优数据集DocReason25K。
➡️ 实验设计：DocOwl 1.5模型在10个视觉文档理解基准测试中进行了评估，包括文档解析、表格解析、图表解析、自然图像解析等任务。实验设计了多种任务，如结构感知解析任务和多粒度文本定位任务，以全面评估模型在不同任务中的表现。实验结果表明，DocOwl 1.5在多个任务上取得了显著的性能提升，特别是在5个任务中，相比类似规模的模型，性能提高了超过10个百分点。

查看全文

http://www.xdnf.cn/news/213589.html