❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦
🚀 快速阅读
- Docling 是一个开源的文档解析工具,支持多种格式的文档解析和转换。
- 支持高级 PDF 理解、OCR 功能,并且易于与其他 AI 工具集成。
- 提供简洁的命令行界面,方便用户快速处理文档。
正文(附运行示例)
Docling 是什么
Docling 是一个开源的文档解析和转换工具,能高效地将多种格式的文档(包括 PDF、DOCX、PPTX、图片和 HTML)解析,导出为 Markdown 或 JSON 格式。Docling 支持高级 PDF 理解、OCR 功能,能与 LlamaIndex 和 LangChain 等工具集成,增强文档的检索和问答能力。Docling 提供一个简洁的命令行界面,方便用户快速处理文档。
Docling 的主要功能
- 多格式支持:Docling 能读取和解析多种流行的文档格式,包括 PDF、DOCX、PPTX、图像、HTML、AsciiDoc 和 Markdown,支持将文档导出为 Markdown 和 JSON 格式。
- 高级 PDF 理解:Docling 具备对 PDF 文档的高级理解能力,包括页面布局、阅读顺序和表格结构的识别。
- 统一文档表示:基于
DoclingDocument
格式,Docling 提供一个统一且富有表现力的文档表示格式,表达文档中的文本、表格、图片等内容,及文档的层次结构。 - OCR 支持:Docling 支持光学字符识别(OCR),能识别扫描 PDF 中的文字,让 Docling 能处理扫描或手写的文档。
- 工具集成:Docling 易于与 LlamaIndex 和 LangChain 等工具集成,为 RAG(Retrieval-Augmented Generation)/QA(Question Answering)应用提供支持。
Docling 的技术原理
- 文档解析:Docling 用专门的解析器读取和解析不同格式的文档,将文档内容转换为内部数据结构。
- 布局和结构识别:对于 PDF 等格式,Docling 基于布局分析技术识别页面上的元素位置和阅读顺序,及表格和文本的结构。
- 内容提取:Docling 从文档中提取文本、表格、图片等元素,转换为统一的
DoclingDocument
格式。 - OCR 技术:对于图像或扫描的 PDF 文档,Docling 用 OCR 技术将图像中的文字转换为机器可读的文本。
- 数据结构和 JSON 指针:
DoclingDocument
用 JSON 指针引用父项和子项,构建文档的层次结构和内容关系。 - 输出格式化:将解析后的数据结构格式化为 Markdown 或 JSON,便于进一步的处理和分析。
如何运行 Docling
首先,安装 Docling:
pip install docling
接下来,使用如下代码示例将文档转换为 Markdown 格式:
from docling.document_converter import DocumentConvertersource = "https://arxiv.org/pdf/2408.09869" # 可以是本地路径或URL
converter = DocumentConverter()
result = converter.convert(source)
print(result.document.export_to_markdown()) # 输出: "## Docling Technical Report[...]"
资源
- 项目官网:https://ds4sd.github.io/docling/
- GitHub 仓库:https://github.com/DS4SD/docling
- arXiv 技术论文:https://arxiv.org/pdf/2408.09869
❤️ 如果你也关注大模型与 AI 的发展现状,且对大模型应用开发非常感兴趣,我会快速跟你分享最新的感兴趣的 AI 应用和热点信息,也会不定期分享自己的想法和开源实例,欢迎关注我哦!
🥦 微信公众号|搜一搜:蚝油菜花 🥦