360多模态及文档理解大模型技术亮相全球机器学习技术大会,共探AI技术新前沿...

北京,2024年11月15日 —— 在人工智能技术飞速发展的今天,全球技术生态正经历着深刻的变革。2024全球机器学习技术大会(北京站)于11月14-15日在北京举行,汇聚了顶尖的AI专家、学者和行业实践者,共同探讨机器学习的最新进展和未来趋势。在此次会议中,360人工智能研究院的两位资深专家冷大炜和刘焕勇,分别就“多模态大模型LMM与细粒度开放世界目标检测”和“文档理解及知识图谱增强大模型应用实践”发表了深入演讲,展示了360在AI及大模型领域的最新研究成果和技术实力。

360人工智能研究院自2015年成立以来,一直走在AI技术的前沿。研究院下辖的视觉引擎和认知引擎两个研发团队,在AI相关比赛中屡获殊荣,并发表顶会、顶刊论文数十篇。在业务落地方面,研究院为360集团提供了智能安全大数据、互联网信息分发、企业数字化、AIoT等全量业务场景支持,服务千万级硬件设备和亿级用户。

ed8e2dc37774709e5ea4f10c5c1695ad.png

冷大炜博士,360人工智能研究院视觉方向负责人,在演讲中重点介绍了360在多模态大模型方向的最新研究成果和进展。当前业界大模型的研发主线已经从单纯的语言大模型升级到多模态大模型,冷大炜博士指出,多模态大模型的scaling law区别于纯语言模型,需要在模型结构、训练方法、数据偏见上分别解决相应的难题,并分享了360在这方面的心得和最新成果,包括360VL多模态大模型以及解决多模态大模型中的遗忘问题的IAA结构等。

冷大炜博士认为,当前多模态大模型的技术发展还远未成熟,面对多模态大模型在当前落地应用中面临的“什么都会什么都不精”的窘境,他进而提出基于多模态大模型实现“细粒度开放世界目标检测”的新研究方向,并分享了研究院在该方向下已经取得的初步成果,“多模态LMM本质上学习到的是文本模态和图像模态的隐式细粒度对齐,360VL在此基础上将细粒度开放世界目标检测做为主打建设能力,这一能力将对办公自动化、机器人具身智能、自动驾驶等领域产生重要影响。”

360VL通过自然语言进行多模态识别能力展示:

36943e1453e5c6932346452628a58cc9.png

c0e87751e5c7a7521847d1a8f4ed0e6c.png

在业务落地方面,360的多模态大模型已经在智能产品、儿童手表、图像标签化、视频监控等多个场景中得到应用。例如,儿童手表通过拍照学英语的功能,可以实时分析照片中的主体位置和形象,提供中英文描述。在视频监控场景下,360智能产品能够准确识别异常物体和人的进入,实现开放世界目标检测。此外,360的AI智能摄像机和视觉云的SaaS平台已经为超过五万家企业提供了数字化解决方案。

0a21cbdea7efd1194dd5b67803232976.png

刘焕勇,360人工智能研究院知识图谱及文档理解方向负责人,此次分享题目为《文档理解及知识图谱增强大模型应用实践》,介绍了面向RAG等场景的文档解析技术、知识图谱(GraphRAG)和RAG优化一线经验,并重点讲述了文档解析版式分析、图表理解等相关研发成果。刘焕勇先详细比较了OCR-pipeline、OCR-free等各技术路线,同时介绍了360在文档解析领域各模块的研发思路,包括版式分析、表格解析、公式解析、流程图、数值图等解析、markdown和目录生成逻辑,以及如何通过RAG多环节优化策略提升大模型在文档场景中的应用效果。

在对外开源方面,开源的轻量化版式分析模型360Layout-Analysis具有细分领域、精细化标注、占用空间小、推理速度快等特点,受到广泛欢迎。

在对外领先性方面,文档理解方向上的研究成果在国际上也具有强劲竞争力。在2024国际模式识别会议(ICPR 2024)人工智能、模式识别和机器学习赛道-“多行数学表达式识别任务”竞赛(ICPR 2024 Competition on Multi-line Mathematical Expressions Recognition)中,360公式识别模型以绝对优势获得冠军!

8f50004a8124fb1751d88118850b0345.png 复杂公式转Latex示例

在业务落地方面,360文档理解整体模块作为“360知识大模型”的一部分,已在ToB产品“360智能文档云”中落地。据悉,在招投标过程中能力相比竞品有较大优势,已获得隧道股份等客户青睐。

高精度表格识别能力展示:右侧为pdf原文,左侧为识别的结果:模型识别出的表格可直接入库。

46f3d7efe2932212ff7bcd57e69163ca.png

360人工智能研究院的专家们在大会上的演讲,不仅展示了360长期在多模态生成及文档理解等AI大模型技术方面的领先地位,并为未来的技术革新和应用实践提供了宝贵的思路和方向。

关于360人工智能研究院:360人工智能研究院成立于2015年,隶属于360集团技术中台,下辖视觉引擎和认知引擎两个研发团队。研究院核心成员和团队多次荣获 AI 相关比赛冠军 / 提名奖项,发表顶会、顶刊论文数十篇。2023 年以来着重攻坚LLM大语言模型、CV 大模型、多模态大模型和知识大模型等前沿领域。在业务落地方面,研究院提供智能安全大数据、互联网信息分发、企业数字化、AIoT、智能汽车等 360 集团全量业务场景支持,并服务于亿级用户。

本文提到的模型开源地址

360VL多模态大模型:

GitHub 地址:https://github.com/360CVGroup/360VL

Huggingface 地址:https://huggingface.co/qihoo360/360VL-70B

360Layout-Analysis版式识别模型:

Github地址:https://github.com/360AILAB-NLP/360LayoutAnalysis;

模型权重-huggingface地址:https://huggingface.co/qihoo360/360LayoutAnalysis

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/17901.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

六自由度双足机器人运动控制

最近迷上了研究机器人,花了很多时间研究机器人的控制和交互。先后开发出来了四足四自自由度,四足八自由度,两足四自由度,两足六自由度机器人,并为他们开发了相应的大模型语音交互。通过努力,既锻炼了动手组…

shell脚本(2)

声明:学习视频来自b站up主 泷羽sec,如涉及侵权马上删除文章 感谢泷羽sec 团队的教学 视频地址:shell编程(2)永久环境变量和字符串显位_哔哩哔哩_bilibili 本文主要讲解临时变量和永久变量以及字符串长度截取操作。 一…

SEW MDX61B 变频器调试说明

SEW MDX61B 变频器调试说明 1、打开MOVITOOLS MotionStudio软件 2、创建新项目(可根据需求更改项目名称及保存路径) 新建完成 3、电机初始化 连接新变频器和新电机时,必须进行电机初始化。电机初始化目的为配对电机参数至变频器,简单说就是让变频器知道需要控制的是什么…

【软件测试】设计测试用例的万能公式

文章目录 概念设计测试用例的万能公式常规思考逆向思维发散性思维万能公式水杯测试弱网测试如何进行弱网测试 安装卸载测试 概念 什么是测试用例? 测试⽤例(Test Case)是为了实施测试⽽向被测试的系统提供的⼀组集合,这组集合包…

泛微OA 请求外部数据源

1 .oa 外部数据源配置好 取数据源名称 引用key 固定写法 datasource.A_nc datasource.数据源名称 getConnection("datasource.A_nc",xf);//A账 2 引用方式 package weaver.interfaces.jphr;import java.io.UnsupportedEncodingException; import java.sql.Conne…

深度学习基础—Bleu得分

引言 机器翻译任务中,通常会需要评价指标来评估机器翻译的好坏。仅通过统计翻译词在标准翻译中出现的次数这种方式很不合理,就需要用到Bleu得分来进行评估。 1.n-gram(N元组) 假设要翻译:Le chat est sur le tapis&am…

794: 最近对问题

解法&#xff1a; #include<bits/stdc.h> using namespace std; const int N1e33; struct P{int x,y; }a[N]; int main(int argc, char** argv) {int t,n;cin>>t;while (t--){cin>>n;for (int i0;i<n;i) cin>>a[i].x>>a[i].y;double dis,mn1…

Vue基础(1)_模板语法、数据绑定

模板语法 Vue模板语法有2大类&#xff1a; 1、插值语法&#xff1b; 功能&#xff1a;用于解析标签体内内容。 写法&#xff1a;{{xxx}}&#xff0c;xxx是js表达式&#xff0c;且可以直接读取到data中的所有属性。 2、指令语法&#xff1a; 功能&#xff1a;用于解析标签(包括…

如何清洗电水壶中的水垢亲自实践

以前看过很多生活小妙招&#xff0c;什么柠檬啊&#xff0c;白醋啊&#xff0c;土豆片啊&#xff0c;都测试过。没有用。因为自来水很硬&#xff0c;钙比较重。 钙覆盖在水壶底部&#xff0c;烧水就滋滋得响&#xff0c;而且效率变低。 昨天买洁厕剂&#xff0c;看到一种除垢…

LC13:滑动窗口

文章目录 1052. 爱生气的书店老板 这个专栏记录自己刷题碰到的有关滑动窗口的题目。 1052. 爱生气的书店老板 题目链接&#xff1a;1052. 爱生气的书店老板 第一感应该是滑动窗口可以解决的&#xff0c;随后思考并写了几个版本&#xff0c;最终版本实现结合滑动窗口一次遍历…

酒店管理系统(源码+文档+部署+讲解)

本文将深入解析“酒店管理系统”的项目&#xff0c;探究其架构、功能以及技术栈&#xff0c;并分享获取完整源码的途径。 系统概述 酒店管理系统是一款为酒店行业设计的全面管理软件&#xff0c;旨在通过集成酒店运营的各个关键环节&#xff0c;提高酒店的管理效率和客户满意…

D3开发的基本框架步骤

D3.js 是一个功能强大的数据可视化库&#xff0c;用于在网页上创建复杂的图表和交互式图形。以下是一个基本的 D3.js 开发框架&#xff0c;包括了常见的步骤和代码示例&#xff0c;帮助你快速入门。 基本框架 引入 D3.js 库设置 SVG 容器加载数据创建比例尺绘制图形添加轴添加…

正则表达式完全指南,总结全面通俗易懂

目录 元字符 连接符 限定符 定位符 修饰符&#xff08;标记&#xff09; 运算符优先级 普通字符集及其替换 零宽断言 正向先行断言 负向先行断言 正向后发断言 负向后发断言 正则表达式在线测试: 正则在线测试工具 元字符 字符描述\d 匹配一个数字字符。等价于 …

对象的初步认识

#对象可组织数据&#xff08;如统计数据的表格&#xff09; 下以表格为例 1.设计一个表格:(None为初始值设定&#xff0c;表示无) class a; ##1None ##2None 2.创建一个表格 变量a 3.对对象的属性进行赋值 变量.##1"##" 变量.##2"##" 4.查询对象中…

Linux驱动开发第1步_了解STM32MP157D

了解STM32MP157D有哪些硬件资源&#xff0c;为以后进行Linux驱动开发做准备。 STM32MP157A/D器件基于高性能双核ArmCortex-A7 32位RISC内核&#xff0c;工作频率高达800 MHz。Cortex-A7处理器&#xff1a;每个CPU具有32kbyte L1指令缓存&#xff0c;每个CPU具有32kbyte L1数据…

w039基于Web足球青训俱乐部管理后台系统开发

&#x1f64a;作者简介&#xff1a;拥有多年开发工作经验&#xff0c;分享技术代码帮助学生学习&#xff0c;独立完成自己的项目或者毕业设计。 代码可以查看文章末尾⬇️联系方式获取&#xff0c;记得注明来意哦~&#x1f339;赠送计算机毕业设计600个选题excel文件&#xff0…

windows C#-编写 C# LINQ 查询(上)

介绍性的语言集成查询 (LINQ) 文档中的大多数查询是使用 LINQ 声明性查询语法编写的。 但是在编译代码时&#xff0c;查询语法必须转换为针对 .NET 公共语言运行时 (CLR) 的方法调用。 这些方法调用会调用标准查询运算符(名称为 Where、Select、GroupBy、Join、Max 和 Average …

c++入门->类的定义以及this详细解析

1.对象的定义 可以在内部定义变量还有函数&#xff0c;而其中的public是声明这里面的东西是共有的&#xff0c;可以调用也可以修改&#xff0c;但是private则是声明这里面的东西是私有的不可以被改变的&#xff0c;但是在类里面共有的是可以使用私有的。 在对象中默认都是私有…

SAP- 不写代码创建报表

创建报表 点击报保存&#xff0c;表Z0708创建完成 关联三张数据库底表 点击返回 点击报保存&#xff0c;表Z0708创建完成 创建报表

从PE结构到LoadLibrary

从PE结构到LoadLibrary PE是Windows平台主流可执行文件格式,.exe , .dll, .sys, .com文件都是PE格式 32位的PE文件称为PE32&#xff0c;64位的称为PE32&#xff0c;PE文件格式在winnt.h头中有着详细的定义&#xff0c;PE文件头包含了一个程序在运行时需要的所有信息&#xff…