MMBench-Video:上海 AI Lab 联合多所高校推出长视频理解基准测试工具,全面评估 LVLMs 视频理解的能力

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. MMBench-Video 是一种用于评估大型视觉语言模型在视频理解能力上的基准测试。
  2. 该基准测试包含 600 个 YouTube 视频片段,覆盖 16 个类别,每个视频时长从 30 秒到 6 分钟不等。
  3. MMBench-Video 提供高质量的问答对,用 GPT-4 进行自动化评估,提高准确性。

正文(附运行示例)

MMBench-Video 是什么

在这里插入图片描述

MMBench-Video 是浙江大学、上海人工智能实验室、上海交通大学和香港中文大学联合推出的一种长视频多题问答基准测试。它能全面评估大型视觉语言模型(LVLMs)在视频理解方面的能力,用包含丰富视频内容和细粒度能力评估的长视频,弥补现有基准测试在时序理解和复杂任务处理方面的不足。MMBench-Video 包含约 600 个 YouTube 视频片段,覆盖 16 个类别,每个视频时长从 30 秒到 6 分钟不等,配有由志愿者编写的高质量问答对。基准测试用 GPT-4 进行自动化评估,提高准确性,与人类判断保持一致。MMBench-Video 的推出为研究人员提供了强大的工具,评估和改进视频语言模型的能力。

MMBench-Video 的主要功能

  • 视频理解评估:MMBench-Video 用于评估大型视觉语言模型(LVLMs)在理解长视频内容方面的能力。
  • 多场景覆盖:包含 16 个主要类别的视频内容,涵盖广泛的主题和场景。
  • 细粒度能力评估:用 26 个细粒度的能力维度,对模型的视频理解能力进行详尽评估。
  • 高质量数据集:视频片段和问答对均由志愿者精心编写和标注,确保数据质量。
  • 自动化评估:用 GPT-4 进行自动化的评估,提高评估的效率和准确性。

MMBench-Video 的技术原理

  • 长视频内容:MMBench-Video 包含从 YouTube 采集的多个长视频片段,视频片段比传统短视频更能测试模型的时序理解能力。
  • 人工标注:问题和答案对均由人类志愿者编写和标注,确保高质量和减少偏差。
  • 能力分类体系:构建三层级的视频理解能力分类体系,包括感知和推理两大类,及更细分的 26 个能力维度。
  • 时序推理挑战:设计需要时序推理能力的问题,评估模型对视频内容时间维度的理解。
  • 自动化评估:语言模型(如 GPT-4)自动化评估模型输出与标准答案之间的语义相似度,评估模型的性能。
  • 多模型比较:支持对多个 LVLMs 进行评分和比较,确定在视频理解任务上的优势和不足。

如何运行 MMBench-Video

  1. 安装依赖
pip install git+https://github.com/open-compass/VLMEvalKit.git
  1. 下载数据集
python -m vlmeval.download --dataset MMBench-Video
  1. 运行评估
from vlmeval.config import supported_VLM
from vlmeval.benchmark import run_benchmark# 选择模型
model = supported_VLM['your_model_name']()# 运行基准测试
results = run_benchmark(model, 'MMBench-Video')# 打印结果
print(results)

资源

  1. 项目官网:https://mmbench-video.github.io/
  2. GitHub 仓库:https://github.com/open-compass/VLMEvalKit
  3. HuggingFace 模型库:https://huggingface.co/datasets/opencompass/MMBench-Video
  4. arXiv 技术论文:https://arxiv.org/pdf/2406.14515

❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/3718.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

高频电子线路---调角频谱与频宽

目录 调角频谱(FM单频调制) 带宽 调频方法 直接调频方法与电路 变容二极管 如何提升频偏? 1. 增大调制信号的幅度(增大调制深度) 2. 提高调制信号的频率 3. 提高调制深度(调制指数) 4. 增加发射功率 5. 使用特殊的调制…

摘要、数字签名、对称加密、非对称加密综合应用示例以及技术原理说明

图:介绍了数字信封的安全传输过程 关键术语 散列:Hash(哈希),一般翻译做散列、杂凑,是把任意长度的输入(数据信息)通过散列算法变换成固定长度的输出,该输出就是散列值…

java学习3---面向对象

一、设计对象并使用 1.类和对象 类是共同特征的描述;对象是真实存在的具体实例。 2.类的几个补充注意事项 二、封装 对象代表什么,就得封装对应的数据,并提供数据对应的行为。 封装告诉我们如何正确的设计对象 三、this关键字 this可以区…

Maven

Maven 命令方式构建项目 mvn compile:编译项目,生成target文件(不编译测试代码) mvn package:打包项目,生成jar或war文件(不指定默认jar包) mvn clean:清理编译或打包后…

leetcode 173.二叉搜索树迭代器

1.题目要求: 2.题目代码: /*** Definition for a binary tree node.* struct TreeNode {* int val;* TreeNode *left;* TreeNode *right;* TreeNode() : val(0), left(nullptr), right(nullptr) {}* TreeNode(int x) : val(x), left(nullptr), right(nu…

vue插件清除 所有console.log()

一、作用 1、提升性能console.log() 语句会消耗一定的性能,尤其是在频繁调用的情况下。在生产环境中移除这些语句可以提高应用的运行效率。 2、减少信息泄露console.log() 可以输出敏感信息(如用户数据、API 响应等)。在生产环境中&#xf…

Day102漏洞发现-漏扫项目篇Poc开发Yaml语法插件一键生成匹配结果交互提取

知识点: 1、Nuclei-Poc开发-环境配置&编写流程 2、Nuclei-Poc开发-Yaml语法&匹配提取 3、Nuclei-Poc开发-BurpSuite一键生成插件 Nuclei-Poc开发-环境配置&编写流程 1、开发环境:VscodeYaml插件 Visual Studio Code - Code Editing. R…

【IEEE出版】第六届国际科技创新学术交流大会暨信息技术与计算机应用学术会议(ITCA 2024,12月06-08)

第六届国际科技创新学术交流大会暨信息技术与计算机应用学术会议(ITCA 2024) 2024 6th International Conference on Information Technology and Computer Application 会议官网:itca2024.iaecst.org 会议时间:2024年12月06-08日 截稿时…

聊一聊Spring中的@Scheduled注解

一、样例 1.1 demo代码 package com.lazy.snail;import org.springframework.stereotype.Component; import org.springframework.scheduling.annotation.Scheduled;/*** ClassName MyTask* Description TODO* Author lazysnail* Date 2024/10/29 17:56* Version 1.0*/ Compo…

如何高效集成每刻与金蝶云星空的报销单数据

每刻报销单集成到金蝶云星空的技术实现 在企业日常运营中,费用报销和付款申请是两个至关重要的环节。为了提升数据处理效率和准确性,我们采用了轻易云数据集成平台,将每刻系统中的报销单数据无缝对接到金蝶云星空的付款申请单中。本案例将详…

使用量化分析微信小程序工具“梦想兔企业智能风险分析助手”日常操作日记-3-预制菜-惠发食品(603536)

使用量化分析微信小程序工具“梦想兔企业智能风险分析助手”日常操作日记-预制菜。 直接看截图: 1.第一步: 查看产业链,选择查看“中国预制菜行业”,政策支持,热点 查看预制菜产业链 这里我选择了中游-生产商 到行业…

Elasticsearch:如何把 OpenAI 的代码修改为 Azure OpenAI

我们知道除了 OpenAI 提供数据嵌入及 Chat Completion 功能之外,Azure 也提供 OpenAI 类似的服务。这两个都是经常需要的平台。在我们的 Elasticsearh labs 里有很多代码是使用 OpenAI 来完成的,那么我们该如何把它们修改为使用 Azure 所提供的 OpenAI 呢…

软件体系结构

第一章 构件 具有某种功能的 可复用的软件结构单元,为组装服务,可部署,具有规范的接口规约和显式的语境依赖 构件模型 构件模型是对构件本质特征的抽象描述,可以把它想象成一个类的组合,它封装了多个类,并具有一个或多个服务而提供了简单…

基于AI深度学习的中医针灸实训室腹针穴位智能辅助定位系统开发

在中医针灸的传统治疗中,穴位取穴的精确度对于治疗效果至关重要。然而,传统的定位方法,如体表标志法、骨度折量法和指寸法,由于观察角度、个体差异(如人体姿态和皮肤纹理)以及环境因素的干扰,往…

华硕推出Intel Xeon 6/ Gaudi 3服务器 加速企业AI布局!

(10月23日,台北讯) 华硕服务器新品接力强势助攻,今再推出多款搭载Intel Xeon 6处理器的服务器,包括:多节点的ASUS RS920Q-E12,其兼容适用HPC运算的Intel Xeon 6900系列处理器;以及ASUS RS720Q-E12、RS720-E…

[MySQL#11] 索引底层(2) | B+树 | 索引的CURD | 全文索引

目录 1.B树的特点 索引结构 复盘 其他数据结构的对比 B树与B树总结 聚簇索引与非聚簇索引 辅助索引 2. 索引操作 主键索引 1. 创建主键索引 第一种方式 第二种方式 第三种方式 2. 查询索引 第一种方法 第二种方法 第三种方法 3. 删除索引 删除主键索引 删除…

人工智能基础-opencv-图像处理篇

一.图像预处理 图像翻转 cv2.flip 是 OpenCV 库中的一个函数,用于翻转图像。翻转可以是水平翻转、垂直翻转或同时水平和垂直翻转。这个函数接受两个参数:要翻转的图像和一个指定翻转类型的标志。 img cv2.imread(../images/car2.png) #翻转 0&#xf…

【机器学习】嘿马机器学习(科学计算库)第4篇:Matplotlib,学习目标【附代码文档】

本教程的知识点为:机器学习(常用科学计算库的使用)基础定位 机器学习概述 机器学习概述 1.5 机器学习算法分类 1 监督学习 机器学习概述 1.7 Azure机器学习模型搭建实验 Azure平台简介 Matplotlib 3.2 基础绘图功能 — 以折线图为例 1 完善原…

平衡二叉树(递归)

给定一个二叉树,判断它是否是 平衡二叉树.平衡二叉树 是指该树所有节点的左右子树的深度相差不超过 1。 示例 1: 输入:root [3,9,20,null,null,15,7] 输出:true示例 2: 输入:root [1,2,2,3,3,null,null,4…

Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)

案例背景 虽然在效果上,传统的逻辑回归模型通常不如现代的机器学习模型,但在风控领域,解释性至关重要。逻辑回归的解释性是这些“黑箱”模型所无法比拟的,因此,研究传统的评分卡模型依然是有意义的。 传统的评分卡模型…