1. 课程总结和进阶学习
https://c.d2l.ai/stanford-cs329p/
https://paperswithcode.com
https://www.bilibili.com/video/BV1nA41157y4/?vd_source=eb04c9a33e87ceba9c9a2e5f09752ef8
怎么建立知识库
2. QA
20 算法提取的特征和人的不一样,互补
21 很难预测未来
22 可以不同步进行
23 打印device
24 都一样
25 不要有娱乐时间
26 不评价
27 不一定
28 tabula data
tabula data from GPT-4o
Tabula 是一个用于从 PDF 文件中提取表格数据的开源工具。其主要功能是将 PDF 中的表格数据提取成结构化格式(如 CSV、Excel、JSON 或 Pandas DataFrames),以便进行后续分析和处理。Tabula data 指的就是由 Tabula 工具从 PDF 文件中提取出来的数据,通常是以结构化的形式呈现的表格数据。
Tabula 的核心功能
Tabula 的设计理念是将 PDF 中的表格数据转化为可以直接读取和分析的数据格式。PDF 文件通常为固定的布局,不易直接解析,而 Tabula 通过检测表格的行列分隔,准确提取表格的内容。Tabula 的核心功能包括:
- 表格检测:Tabula 可以自动检测 PDF 中的表格结构,分离行列信息。
- 数据提取:通过列、行分隔,将表格内容解析成结构化数据。
- 导出格式:支持将数据保存为 CSV、Excel 等文件格式。
- 区域选择:可以手动选择 PDF 的某一区域,以便精确提取特定部分的数据。
Tabula 的技术原理
Tabula 使用光学字符识别(OCR)和 PDF 布局解析技术,以准确提取 PDF 中的表格内容。其原理包括:
- 文本区域检测:分析 PDF 文件中文本区域的位置,识别出可能包含表格的区域。
- 行列分隔分析:根据 PDF 中的分隔线或空白区域,将文本块划分成行和列。
- 字符识别与拼接:对 PDF 的字符内容进行识别,将各行各列中的内容拼接成完整的数据行。
- 导出数据:将解析出的表格数据以结构化格式输出。
Tabula 的优缺点
优点:
- 自动化程度高:自动检测表格行列,大部分情况下不需要手动调整。
- 开源免费:作为开源工具,用户可以自由使用和二次开发。
- 导出格式多样:支持 CSV、Excel、JSON 等多种格式的导出。
缺点:
- 复杂表格解析有限:Tabula 对于一些包含合并单元格或非标准格式的复杂表格解析较为困难。
- 对图像内容有限:Tabula 主要基于文本识别,若 PDF 表格为扫描件图像,可能无法准确提取。
- 手动调整需求:在一些格式不规整的表格中,可能需要手动选择表格区域。
Tabula 的典型应用场景
- 财务报表分析:快速提取财务报表中的表格内容,方便数据分析。
- 统计报告数据提取:将统计年报或政府报告中的数据提取成表格,便于处理。
- 自动化数据采集:将定期生成的 PDF 数据文件(如报告、清单)自动解析成 CSV,用于数据系统。
- 数据挖掘与整理:将大量 PDF 文件中的表格数据批量整理成结构化数据。
使用 Tabula 的方法
-
安装:
- Tabula 提供了桌面版和 Python 库。桌面版可以在 Tabula 网站下载;Python 库则可通过
pip install tabula-py
安装。
- Tabula 提供了桌面版和 Python 库。桌面版可以在 Tabula 网站下载;Python 库则可通过
-
使用步骤:
- 桌面版:将 PDF 文件导入 Tabula,选择表格区域后导出所需格式。
- Python 代码:导入
tabula-py
库,使用read_pdf()
函数提取表格数据并转化为 Pandas DataFrame。
-
示例代码:
import tabula# 从 PDF 文件中提取数据 df = tabula.read_pdf("file.pdf", pages="all", lattice=True)# 输出为 CSV 文件 tabula.convert_into("file.pdf", "output.csv", output_format="csv", pages="all")
其中,
lattice=True
参数用于处理带有网格线的表格,提高提取准确性。
总结
Tabula data 即是通过 Tabula 工具从 PDF 中提取出来的结构化表格数据。Tabula 通过自动检测 PDF 中的表格结构,将内容转化为可直接分析的格式,适合在财务、统计等需要从 PDF 文件中提取数据的场景下使用。