文档解析与向量化技术加速 RAG 应用落地

在不久前举办的 AICon 全球人工智能开发与应用大会上，合合信息智能创新事业部研发总监，复旦博士常扬从 RAG 应用落地时常见问题与需求（文档解析、检索精度）出发，分享了针对性的高精度、高泛化性、多版面多元素识别支持的文档解析技术方案与整合长文档解析引擎、层级切片技术的向量化 Embedding 模型技术方案，以及开放域多模态信息抽取应用与知识库问答应用等实际场景的产品实践案例。本文为常扬的演讲整理。

在将于 2024 年 10 月 18-19 日举办的 QCon 全球软件开发大会（上海站），Zilliz Senior Product Manager 张粲宇也从自身的 RAG 场景出发，分享了 RAG 的挑战，以及通过采用混合检索技术和其他技巧，最终把准确率提升到 90% 以上的经验。欲了解更多内容，可访问大会官网获悉https://qcon.infoq.cn/2024/shanghai/schedule。

近年来，大模型的崛起为人工智能领域带来了革命性的变化。然而，在实际应用中，我们发现仅依靠大模型自身的知识和上下文并不能完全满足用户的需求。检索增强生成（Retrieval-Augmented Generation， RAG ）应运而生，旨在通过引入外部知识库，解决领域知识缺乏和信息过时的问题。但其本身在产品化落地的过程中面临检索召回率低、生成质量差的问题。

我会从第一性原理出发，分析其核心突破点：文档解析技术 与 向量化技术，看这两个技术如何发展，加速 RAG 应用落地 的。

RAG 的背景与问题

在传统的大模型应用中，模型的知识来源主要是预训练数据和用户提供的上下文。然而，面对专业领域的复杂问题，模型往往难以给出准确、及时的回答。RAG 的核心目标是将外部的领域知识与大模型结合，使其能够生成更准确、更专业的回答。

在这里插入图片描述

LLM（大型语言模型）应用知识的数据来源包括“用户上下文输入和用户意图”、“大模型知识”和“外部文档”。RAG 位于三个知识源的交集处，结合了外部文档、用户输入的上下文、模型的知识进行生成。RCG（Retrieval-Centric Generation）专注于将知识检索与 LLM 的生成分开，把检索知识作为核心来源，而微调（Fine-Tuned LLM）则通过使用外部数据微调模型，提升模型在特定领域的理解能力。

在这里插入图片描述

RAG 的核心流程可以简化为以下三个步骤：

知识库构建（Indexing）：对外部文档进行解析、清洗、向量化，构建高质量的索引。
检索（Retrieval）：根据用户的查询，在向量空间中检索最相关的内容。
生成（Generation）：大模型基于检索结果生成最终的回答。

在这个流程中，知识库构建和检索是关键的技术环节，直接影响最终生成的质量。

在这里插入图片描述

尽管 RAG 有着广阔的应用前景，但在实际落地过程中，我们发现了许多问题。一篇研究论文总结了 RAG 应用中常见的 12 个问题，包括：

在这里插入图片描述

内容缺失：检索结果未能覆盖用户的问题。
不完整回答：生成的内容缺乏细节或关键信息。
性能不足：检索和生成过程耗时过长，无法满足实时性要求。
不可扩展性：面对海量数据时，系统的性能显著下降。

等等这些问题的存在，使得很多 RAG 产品难以从原型（MVP）走向真正满足市场需求的产品（PMF）。

在 AI 产品的开发中，最小可行产品（MVP） 的构建相对容易，但要实现产品市场契合（PMF），真正满足用户需求，却充满挑战。

理解大模型的技术边界：既不要过度高估大模型的能力，也不要忽视其潜力。明确其适用范围和限制。
深入理解业务场景：识别大模型和 RAG 技术最适合的应用领域，确保技术与业务需求的契合。
优先使用最好的模型：在验证方案可行性时，尽可能使用性能最优的模型。如果最佳模型仍无法满足需求，可能需要重新评估方案。
构建产品壁垒：考虑产品的独特价值和竞争优势，而不仅仅是技术实现。确保产品在市场上具有可持续的竞争力。

在这里插入图片描述

从第一性原理出发，要解决上述问题，我们需要回归本质，关注 RAG 流程中的关键环节：

高质量的知识库构建：确保文档解析的准确性，将领域知识准确地转化为文本和向量表示。
精确的检索机制：利用先进的嵌入模型，提高在向量空间中检索相关内容的准确性。

在这里插入图片描述

文档解析技术

在大模型 RAG 应用中，文档解析是一个关键环节。如何将复杂的 PDF 文档准确、高效地转换为大模型能够理解的格式，直接影响到模型的性能和应用效果。下面将深入探讨通用文档解析的挑战与解决方案，重点介绍从 PDF 到 Markdown 的转换过程，以及如何通过物理和逻辑版面分析，实现对各种复杂文档的高质量解析。

从计算机的角度来看，文档主要分为两类：

有标记的文档：如 Word、Markdown、HTML、JSON 等。这些文档具有明确的结构，计算机可以直接解析和理解。
无标记的文档：如图像、 PDF 等。这些文档缺乏结构信息，计算机无法直接理解其内容。

在这里插入图片描述

PDF 是一种常见的文档格式，其本质是一系列显示打印指令的集合，而非结构化的数据格式。例如，一个简单的“ Hello World ” PDF 文件，用文本编辑器打开后会发现大量的排版指令。这使得计算机在解析 PDF 时，难以直接获取其中的结构化信息。

在这里插入图片描述

解析 PDF 的挑战有：

结构缺失：PDF 以视觉呈现为主，缺乏逻辑结构，难以直接提取段落、标题、表格等元素。
复杂排版：多栏布局、跨页内容、嵌入图像和公式等，增加了解析难度。
元素遮挡：印章、手写批注等覆盖在文本上，干扰内容识别。

为了让大模型有效地理解 PDF 中的内容，需要将其转换为一种模型熟悉的格式。Markdown 成为了最佳选择，原因如下：

结构清晰：支持多层标题、粗体、斜体、列表、表格、数学公式等，能够完整地表达 PDF 中的信息。
专注内容：Markdown 关注内容本身，而非排版，符合大模型的训练特点。
模型友好：大模型在训练过程中，接触了大量的 Markdown 语料，对其有良好的理解能力。

Markdown 的优势：

简洁优雅：语法简单，易于编写和阅读。
广泛应用：在技术文档、博客等领域被广泛使用，具备良好的生态环境。
易于转换：可以方便地转换为 HTML、 PDF 等格式，满足多种需求。

在这里插入图片描述

复杂文档布局的解析难点有很多，比如：

法律条文：包含多级标题和列表，需要准确识别层次关系。
扫描书籍：可能存在噪声、阴影，OCR 识别难度大。
学术论文：包含复杂的公式、表格和引用格式。
产品说明书：双行表头、多栏布局，对解析精度要求高。

有以下的典型挑战：

多栏布局双列、三列布局，跨页内容，如何保持正确的阅读顺序？
复杂表格合并单元格、嵌套表格，需要精确解析结构。
公式和图像数学公式、图像与文字混排，要求高精度的识别和定位。
元素遮挡和噪声印章、手写批注、扫描噪声，干扰内容的提取。

现有解析方法具备一定的局限性。基于规则的解析库，典型代表 PDF Miner、Py PDF 、Mu PDF 等。优点对电子版 PDF 的解析效果较好，速度快。缺点是无法处理扫描件和图像型 PDF 以及对复杂布局支持不足，难以准确还原阅读顺序。

基于深度学习的解析库，典型代表 Unstructured、Layout-Parser、PP-StructureV2 等。优点是能处理扫描件，具备一定的版面分析能力。缺点是效率较低，处理大型文档耗时长以及对复杂布局的支持有限，精度有待提高。

基于大模型的解析库，典型代表 GPT- PDF 。优点是具备多模态理解能力，直接处理图像和文本。缺点是计算资源消耗大，实时性差以及受限于大模型的输入长度，对长文档支持不足。

在这里插入图片描述

针对上述挑战，我们提出 TextIn 文档解析技术：

解析更稳：无论何种排版和格式，都能正确提取文档元素，并还原正确的阅读顺序。
识别更准：高精度地识别文本、表格、公式、图像等内容。
性能更优：满足实时性需求，支持大规模文档的快速解析，适用于 RAG （检索增强生成）应用场景。

具备以下功能特性：

全面支持兼容电子版和扫描版 PDF 。
预处理优化文档图像预处理，提高 OCR 精度，减少噪声干扰。
深度分析物理版面分析和逻辑版面分析相结合，准确还原文档结构。
元素识别全面识别段落、标题、表格、公式、页眉页脚等内容。

在这里插入图片描述

我们的解析流程主要分为三个阶段：

1. 文档预处理

拆分文档将多页文档拆分为单页，便于并行处理。

类型识别区分电子版和扫描版，选择适当的处理策略。

2. 版面分析

物理版面分析基于视觉特征，划分页面区域，如段落、列、图像、表格等。

逻辑版面分析基于语义特征，构建文档的目录树，确定元素的层次关系和阅读顺序。

3. 内容重建

元素识别对文本、表格、公式、图像等进行精确识别。

格式转换根据需求生成 Markdown 或 JSON 格式，方便大模型理解或产品呈现。

在这里插入图片描述

物理版面分析逻辑如下：方法选择采用单阶段检测模型，兼顾精度和效率，避免复杂的多阶段流水线。数据处理注重数据的多样性和分布，增强模型的泛化能力。层级结构按照页（Page）→ 区块（Section）→ 列（Column）→ 段落（Paragraph）→ 文本片段（Text Slice）进行解析。阅读顺序还原策略从上到下、从左到右，结合页面布局和元素位置，准确还原阅读顺序。

在这里插入图片描述

逻辑版面分析逻辑如下：模型架构采用 Transformer，利用自注意力机制，捕获元素间的全局关系。父子关系确定标题与其子内容的从属关系，旁系关系识别同级元素之间的顺序关系，目录树构建通过关系预测结果，生成文档的逻辑结构树，方便内容的组织和导航。

在这里插入图片描述

面对多种复杂的文档解析需求，如何客观评估不同解析方法的效果，是一个重要问题。传统的文字和表格评估方法，无法全面衡量复杂布局和结构的解析质量。我们开源了 Markdown Tester，指标定义针对段落、标题、表格、公式、阅读顺序等核心元素，定义了识别率、召回率、F1 值等评价指标。结构评估引入树状编辑距离，评估目录树、表格结构与原文档的相似程度。可视化展示通过雷达图等方式，直观展示各解析方法在不同指标上的表现。

在这里插入图片描述

在实际应用中，解析效率至关重要。特别是在 RAG 场景下，需要对大量文档进行实时解析，要求解析过程既快又准。我们进行了以下优化策略，算法模块优化针对耗时模块，如版面分析和元素识别，优化算法，提高执行效率。并行处理采用分布式集群结构，对文档解析流程进行并行化处理，充分利用计算资源。资源调度智能调度计算任务，平衡负载，减少等待时间。

我们目前实现处理速度实现了对 100 页文档的解析，P90（90% 请求的响应时间）小于 1.5 秒。稳定性在大规模文档解析任务中，保持了高稳定性和低失败率。扩展性系统设计支持水平扩展，能够应对更大的数据量和更高的并发需求。

在这里插入图片描述

向量化技术

在现代自然语言处理任务中，向量化（Vectorization）技术扮演着关键角色，特别是在检索增强生成（ RAG ）模型中。下面将探讨向量化的原理、模型选择以及多尺度训练方法，揭示其在实际应用中的重要性和优化策略。

向量化的核心思想是将大量的文本数据转换为具有方向和数值的向量列表。这种表示方式使计算机能够利用矩阵运算的高效性，快速计算文本之间的语义相似度。在 RAG 模型中，向量化主要用于信息检索，即通过计算用户问题和文档块的向量相似度，找到最相关的文本内容。

在这里插入图片描述

在选择嵌入（Embedding）模型时，许多人可能会在网上查找评价效果较好的模型，或者自行进行评测。然而，在评估之前，建议先查看像 Hugging Face 上 MTEB 和 C-MTEB 评测基准排名，这些指标涵盖了文本分类、聚类、成对分类、重排序、检索等任务，能够大致了解每个模型在不同任务上的表现。

在这里插入图片描述