函数计算——文档与网页数据提取工具(MinerU)应用实践

1

87d1e38267c40f6227f705c499ddd9b6.gif

引言

在信息爆炸的时代,AI研究者面临着从海量文档中提取高质量数据的挑战。随着大语言模型在各个领域的广泛应用,有效地处理和整合文档信息成为了基础性的任务。这些文档形式多样,包括学术文献、行业报告、会议PPT、课本、说明书及合同单据等,通常以PDF或网页的形式存在,内容复杂且格式不一。

在这样的背景下,如何将这些信息转化为统一、易于分析的格式,尤其是Markdown,显得尤为重要。两个关键挑战主要集中在:

  1. 布局信息分析:如何精准识别和提取不同的文档元素,包括文本、标题、说明、图片、表格和公式。

  2. 组件关系处理:如何理解并处理这些布局组件之间的关系,以确保信息的连贯性和逻辑性。

MinerU是一款功能强大的开源文档与网页数据提取工具,旨在简化AI数据处理流程。它不仅能够将包含图片、表格、公式等多模态内容的PDF文档精准转化为清晰、易于分析的Markdown格式,还可以从网页中快速提取正式内容,剔除广告等干扰信息。此外,MinerU支持将多种格式(如epub、mobi、docx等)批量转换为Markdown,大幅提升数据处理的效率。

代码开源链接:

https://github.com/opendatalab/MinerU/

2

9acd8d109b1578dd9cd5dcaae923be76.gif

技术解析

MinerU 是一款功能强大的文档提取工具,目前由两个主要模块构成,旨在高效处理各种文档格式并提升用户的工作效率。

1. Magic-PDF

Magic-PDF 模块专注于 PDF 文档的提取与转换,能够将复杂的 PDF 内容无缝转换为 Markdown 格式。其核心功能包括:

  • 快速识别 PDF 版面元素:该模块能够智能识别和去除页眉、页脚、脚注等非正文内容,保留文档的结构与格式。这包括对标题、段落、列表等内容的精准保留,确保最终的 Markdown 文档结构清晰且易于阅读。

  • 多模态内容提取:Magic-PDF 能够有效提取 PDF 文档中的图片、表格和公式。无论是学术论文、报告还是其他类型的文档,Magic-PDF 确保转化后的 Markdown 格式不仅准确,还具备良好的可读性和逻辑性。

  • 高效处理复杂文档:针对含有复杂布局和多层次结构的 PDF 文档,Magic-PDF 采用先进的解析算法,能够识别并提取关键内容,确保重要信息不会在转换过程中丢失。无论是科研文献还是业务报告,用户都能轻松获取所需数据。

2. Magic-Doc

Magic-Doc 模块专注于网页和电子书的信息提取,支持处理多种类型的网页内容。其主要功能包括:

  • 广告剔除:该模块能够快速识别并去除广告和其他干扰信息,使用户能够专注于提取正文、评论、歌词及视频文字等关键信息。通过这一功能,用户可以节省大量时间,迅速获取所需内容。

  • 电子书格式转换:Magic-Doc 支持将多达 8 种电子书格式(如 EPUB、MOBI、PPTX、DOCX 等)快速转换为 Markdown。转换过程确保文本与图片的全面适配,使电子书内容以最优格式呈现,便于后续编辑和分享。

  • 优化用户体验:通过简化提取过程,Magic-Doc 为用户提供更便捷的信息获取方式,减少了手动整理的时间和精力。该模块的设计考虑到用户的实际需求,力求在操作简便的同时保证高效性和准确性。

MinerU PDF文档提取流程

由于PDF文档通常包含比网页和电子书更复杂的元素,处理起来更具挑战性和代表性,本文将重点介绍MinerU如何实现高质量的文档数据提取。

b8f33214eb9c78c91d3fdf75ed17f4a5.png

MinerU的PDF文档提取主要由以下四个环节构成:

1. 文档分类预处理
  • 分类识别:MinerU支持对输入的PDF文档进行分类,判断其类型(如文本型PDF、图层型PDF、扫描版PDF等)。

  • 元数据提取:系统在初始阶段提取PDF元数据,检测是否存在乱码,并进行PDF类型识别,为后续处理提供指导。

2. 模型解析与PDF内容提取
  • 布局区块检测:利用高质量的PDF模型解析工具链,准确定位标题、正文、图片、表格、脚注及边注等重要元素。

  • 公式处理:针对科学论文中的公式,系统能精确定位并提取,确保数学表达式的准确性。

  • 光学字符识别(OCR):对于扫描版PDF,使用OCR技术提取准确的文本内容,最终将信息存储为JSON格式。

982c1b409430f4ed70fb5760960169ca.jpeg

PDF内容提取模型(MinerU使用的模型)

  • 布局检测:使用LayoutLMv3模型进行区域检测,确保信息以正确格式呈现。

  • 公式检测:使用YOLOv8进行公式检测,涵盖行内和行间公式,提升提取能力。

  • 公式识别:使用UniMERNet确保公式的准确性和可读性。

  • 光学字符识别:使用PaddleOCR进行文本识别,尤其对扫描版PDF文档至关重要。

3. 管线处理与多种格式输出
  • 后处理:模型处理的数据将输入管线进行后处理,包括确定块级别顺序和删减无用元素。

  • 输出格式:确保输出文档的流畅性和可读性,处理方式包括坐标修复、高IoU处理、图片与表格描述合并等。

  • 中间态转换:文档信息转化为统一的中间态:middle-json,开发者可根据需求自定义输出格式。

4. PDF提取结果质检
  • 质检流程:团队利用由多种类型文档(如论文、教材、试卷和研报)组成的人工标注PDF自测评测集,对整个流程进行检测,以保证提取效果的不断提升。

  • 可视化工具:借助可视化质检工具,团队对PDF提取结果进行人工质检与标注,反馈至模型训练,进一步增强模型能力。

3

38c3a4623e19894b9a7e195d100cdd71.gif

MinerU的优势

  1. 广泛适用性
    MinerU 能够处理多种格式,包括 PDF、网页和电子书,满足学术研究和企业工作中的多样化数据提取需求,广泛适用于不同领域和场景。

  2. 精准高效
    凭借先进的模型,MinerU 能准确识别和提取各种文档元素,能够高效处理复杂布局,确保数据处理的质量与速度。

  3. 良好用户体验
    MinerU 的操作界面简洁明了,自动化流程便于用户使用,用户无需专业技术知识即可轻松上手,极大节省时间和精力。

  4. 开源可扩展
    作为开源工具,MinerU 具备良好的可扩展性和可定制性,开发者可以根据具体需求进行优化改进,为不同领域的应用提供更多可能性。

4

b1ae2917a9eff9effc366664c8e7256b.gif

函数计算应用中心

随着云计算技术的迅速发展,Serverless架构正成为企业提升资源利用效率、加速业务创新的关键技术。通过“无服务器”架构,开发者可以将更多精力投入到业务逻辑中,而无需关注底层基础设施的配置和维护。

然而,Serverless应用的生命周期管理仍然是许多团队面临的挑战。为了解决这些问题,Serverless应用中心应运而生。它提供了集成的开发、部署和运维平台,支持Serverless应用的全生命周期管理,使企业能够更便捷地借助Serverless架构实现快速的业务迭代与创新。

4.1 优势

Serverless应用中心提供了资源管理、应用模板等功能,简化了开发和运维过程,并带来以下关键优势:

  1. 快速一站式部署
    无需复杂的构建、打包过程,通过Serverless应用中心,开发者可以直接将应用一键式部署至云端环境,省时省力。平台提供了灵活的操作方式,帮助开发团队以最小的配置实现快速上线。

  2. 资源集中管理
    在传统Serverless开发中,资源往往分散在不同的云服务中。而Serverless应用中心通过“应用”作为管理的核心单元,使开发者可以在一个平台内集中管理所有资源,从而降低操作复杂性,提升运维效率。

  3. 多样化模板支持,助力业务快速启动
    应用中心提供多场景的业务模板,包括Web开发、人工智能、文本处理等应用,帮助开发者快速创建应用。这些模板遵循最佳实践设计,开发者可直接利用,减少了开发成本并保障了项目质量。

  4. 可视化操作,友好的用户体验
    Serverless应用中心提供直观的控制台界面,使开发者能够通过拖拽和点击快速完成应用配置与部署,降低了学习曲线,无论初学者还是有经验的开发者都可以快速上手。

4.2 功能

Serverless应用中心的核心功能涵盖从模板配置到应用发布的各个环节,形成了高效的闭环,极大地提升了Serverless应用的开发和运维效率。

  • 应用模板和框架支持
    应用中心提供丰富的应用模板,涵盖Web应用、人工智能、文本处理等场景,帮助开发者快速验证原型,并且具备灵活性和可定制性,以适应多种业务需求。

  • 高效的部署与更新机制
    Serverless应用中心支持批量操作,让开发者可以一次性完成多个函数的更新和维护,尤其适合需要频繁迭代的应用。例如,在流媒体应用中,可以通过批量操作实现视频转码和实时推流服务的快速更新。

  • 结构化的应用与函数组织管理
    Serverless应用中心将“应用”作为核心管理单元,使开发者能够更直观地管理多个函数,确保复杂业务场景下的高效运作。借助Serverless应用中心,开发者可以将所有相关资源整合到单一应用中,实现跨函数的统一管理。

4.3 应用与函数的区别

在Serverless架构中,函数和应用是两个核心概念。函数是Serverless架构的基本单元,负责处理独立的业务逻辑,而应用则是多个函数和资源的集合,构成完整的业务模块。两者的不同之处主要体现在以下方面:

15c55c53bb8657666982dc8b9ac40e64.png

4.4 函数计算最佳实践

创建应用

在应用中心页面,可以看到多种场景以及场景化应用。您可以单击任意应用所在卡片上的详情,查看应用详情,然后根据业务情况选择合适的应用。

17e18292e4c4b1e2d0d04bb7a2df6e51.png

  1. 登录函数计算控制台,在左侧导航栏,单击应用中心。

  2. 在应用中心页面,选择通过模板创建应用,在下方模板区域,找到目标应用模板,将光标放到该卡片,然后单击查看详情,可以查看该应用的具体介绍及使用说明。

  3. 单击立即创建。

  4. 在创建应用页面,根据提示填写各配置项。部分应用提供可修改的配置文件,可按应用需求下载配置文件修改后再上传文件。

  5. 单击创建并部署默认环境。

0b0bd671cefcf14b08ae1f1411f32a1c.png

跳转到函数详情页面,等待资源部署完成。

91e54f3fd018e87b454145a0e008fb13.png

  1. 在控制台完成业务功能部署,完成会出现触发器url。通过该地址访问应用。

  2. 点击上传pdf文档,选择转换页数

8d009683fdd6119d8b491169821c0103.png

  1. 点击Convert,转换完成

38744996b551528404788ac37f8c5039.png

  1. 点击markdown rending可查看渲染结果,点击markdown text可查看markdown文本,点击下载链接,可下载zip包

d631d950061f5284df141b78ea387214.png

  1. 如需修改配置,可在函数详情中进行修改。

6a54341c7975a1fcd50f0cd2deaa8b82.png

5

4e98ed7e9388b16a61a86b0460a079af.gif

总结

随着Serverless技术的不断成熟,Serverless应用中心也在持续优化,力求为用户提供更全面的功能和更强的云服务集成能力。展望未来,Serverless应用中心有望在模板管理、资源配置、环境设置以及流水线管理等方面进一步完善。这些改进将助力企业在瞬息万变的市场环境中实现更加敏捷的业务响应和创新驱动的成长,从而提高其竞争力和市场适应能力。通过优化这些关键功能,Serverless应用中心将成为企业数字化转型的重要支撑,帮助企业在快速发展的科技浪潮中把握机遇。

函数计算产品,敬请期待!

更多技术和产品文章,请关注👆

如果您对哪个产品感兴趣,欢迎留言给我们,我们会定向邀文~

360智汇云是以"汇聚数据价值,助力智能未来"为目标的企业应用开放服务平台,融合360丰富的产品、技术力量,为客户提供平台服务。
目前,智汇云提供数据库、中间件、存储、大数据、人工智能、计算、网络、视联物联与通信等多种产品服务以及一站式解决方案,助力客户降本增效,累计服务业务1000+。
智汇云致力于为各行各业的业务及应用提供强有力的产品、技术服务,帮助企业和业务实现更大的商业价值。
官网:https://zyun.360.cn 或搜索“360智汇云”
客服电话:4000052360

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/8826.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

【网络】应用层——HTTP协议

> 作者:დ旧言~ > 座右铭:松树千年终是朽,槿花一日自为荣。 > 目标:了解什么是HTTP协议。 > 毒鸡汤:有些事情,总是不明白,所以我不会坚持。早安! > 专栏选自:网络 &g…

计算生物学与生物信息学漫谈-5-mapping算法

之前的文章我们介绍了参考基因组,也介绍了一些基本概念,具体可以看之前的博客: 计算生物学与生物信息学漫谈-4-参考基因组与Mapping准备_基因组的map-CSDN博客 这次我们讲如何将read map到基因组上所用到的各种算法: 目录 1.1 …

qsqlmysql.lib的编译和使用

文章目录 打开源码 打开源码 打开qt源码安装路径 src相对路径下的文件Src\qtbase\src\plugins\sqldrivers\mysql 比如我是5.9.9版本我的路径就是:D:\Qt5.9.9\5.9.9\Src\qtbase\src\plugins\sqldrivers\mysql 可以看到待编译的mysql驱动文件 使用IDE打开pro文件进…

leetcode 693.交替位二进制数

1.题目要求&#xff1a; 2.题目代码: class Solution { public:bool hasAlternatingBits(int n) {int num n;//设置数组存入二进制位vector<int> array;while(num){array.push_back(num % 2); num num / 2;}//把数组颠倒就能得到此数真正二进制位reverse(array.begin…

IP协议知识点总结

IP协议主要分为三个 1. 地址管理 每个网络上的设备, 要能分配一个唯一的地址 2. 路由选择 小A 给小B 发消息, 具体应该走什么路线 3. 地址管理 IP 地址. 本质上是一个 32 位的整数 通常将, 32 位的整数使用点分十进制来表示, 如 192.168.1.1 一共可以表示 42 亿 9 千万个地址…

【重学 MySQL】八十二、深入探索 CASE 语句的应用

【重学 MySQL】八十二、深入探索 CASE 语句的应用 CASE语句的两种形式CASE语句的应用场景数据分类动态排序条件计算在 SELECT 子句中使用在 WHERE子句中使用在 ORDER BY 子句中使用 注意事项 在MySQL中&#xff0c;CASE 语句提供了一种强大的方式来实现条件分支逻辑&#xff0c…

机器学习1_机器学习定义——MOOC

一、机器学习定义 定义一 1959年Arthur Samuel提出机器学习的定义&#xff1a; Machine Learning is Fields of study that gives computers the ability to learn without being explicitly programmed. 译文&#xff1a;机器学习是这样的领域&#xff0c;它赋予计算机学习的…

充电桩--OCPP 充电通讯协议介绍

一、OCPP协议介绍 OCPP的全称是 Open Charge Point Protocol 即开放充电点协议&#xff0c; 它是免费开放的协议&#xff0c;该协议由位于荷兰的组织 OCA&#xff08;开放充电联盟&#xff09;进行制定。Open Charge Point Protocol (OCPP) 开放充电点协议用于充电站(CS)和任何…

如何制作公司小程序

我是【码云数智】平台的黄导&#xff0c;今天分享&#xff1a;如何制作公司小程序 企业小程序怎么制作&#xff0c;企业小程序制作不仅成为了连接消费者与品牌的桥梁&#xff0c;更是企业数字化转型的重要一环。 01、小程序制作流程 02、微信小程序开发多少钱 03、微信小程…

明道云正式发布国际品牌Nocoly

在2024年明道云伙伴大会上&#xff0c;明道云正式发布了其国际品牌Nocoly以及国际版产品Nocoly HAP。这标志着公司正式开启了海外业务。明道云的海外业务由全资拥有的Nocoly.com Limited经营&#xff0c;该公司注册在香港特别行政区。总部位于上海的明道云已经将围绕HAP超级应用…

如何构建一个可扩展的测试自动化框架?

以下为作者观点&#xff1a; 假设你是测试自动化方面的新手&#xff0c;想参与构建一个框架。在这种情况下&#xff0c;重要的是要了解框架所需的组件&#xff0c;以及它们是如何组合的。思考项目的具体需求和目标&#xff0c;以及可能遇到的困难和挑战。 假如你是一个测试架…

C++builder中的人工智能(11):双曲正切激活函数(ANN函数)?

在这篇文章中&#xff0c;我们将探讨双曲正切函数&#xff08;tanh&#xff09;是什么&#xff0c;以及如何在C中使用这个函数。让我们来回答这些问题。 在AI中激活函数意味着什么&#xff1f; 激活函数&#xff08;phi()&#xff09;&#xff0c;也称为转移函数或阈值函数&a…

基于SSM+VUE宠物医院后台管理系统JAVA|VUE|Springboot计算机毕业设计源代码+数据库+LW文档+开题报告+答辩稿+部署教+代码讲解

源代码数据库LW文档&#xff08;1万字以上&#xff09;开题报告答辩稿 部署教程代码讲解代码时间修改教程 一、开发工具、运行环境、开发技术 开发工具 1、操作系统&#xff1a;Window操作系统 2、开发工具&#xff1a;IntelliJ IDEA或者Eclipse 3、数据库存储&#xff1a…

二、SSM框架制作CRM系统案例

一、搭建框架 1、首先创建下面的目录结构 2、添加相关依赖&#xff1a; <?xml version"1.0" encoding"UTF-8"?> <project xmlns"http://maven.apache.org/POM/4.0.0"xmlns:xsi"http://www.w3.org/2001/XMLSchema-inst…

【GPTs】Email Responder Pro:高效生成专业回复邮件

博客主页&#xff1a; [小ᶻZ࿆] 本文专栏: AIGC | GPTs应用实例 文章目录 &#x1f4af;GPTs指令&#x1f4af;前言&#x1f4af;Email Responder Pro主要功能适用场景优点缺点 &#x1f4af;小结 &#x1f4af;GPTs指令 Email Craft is a specialized assistant for cra…

知识课堂之域名系统中实现动态代理

怎么在域名系统中解析动态ip&#xff0c;这一直是一个需要解决的问题&#xff0c;人们对与网络的稳定连接与灵活运用已经成为生活和工作中不可或缺的一部分&#xff0c;因此这样的问题的解决迫在眉睫。 大家对于动态ip是什么&#xff0c;应该都有所了解了&#xff0c;所谓的动…

【Go语言】| 第1课:Golang安装+环境配置+Goland下载

&#x1f60e; 作者介绍&#xff1a;我是程序员洲洲&#xff0c;一个热爱写作的非著名程序员。CSDN全栈优质领域创作者、华为云博客社区云享专家、阿里云博客社区专家博主。 &#x1f913; 同时欢迎大家关注其他专栏&#xff0c;我将分享Web前后端开发、人工智能、机器学习、深…

程序猿要失业了,一行代码没写,1小时嘴搓了一个图片分割插件(好看又好用)

如题&#xff0c;一行代码没写&#xff0c;使用 AI 编程工具实现了一个浏览器图片分割插件的开发&#xff0c;先看效果吧&#xff08; Chrome商店上架审核中~ &#xff09; 支持点击&#xff0c;拖拽&#xff0c;直接粘贴&#xff0c;还支持预览&#xff0c;次数统计&#xff0…

基于SpringBoot+Vue实现新零售商城系统

作者主页&#xff1a;编程千纸鹤 作者简介&#xff1a;Java领域优质创作者、CSDN博客专家 、CSDN内容合伙人、掘金特邀作者、阿里云博客专家、51CTO特邀作者、多年架构师设计经验、多年校企合作经验&#xff0c;被多个学校常年聘为校外企业导师&#xff0c;指导学生毕业设计并参…