动手学深度学习73 课程总结和进阶学习

1. 课程总结和进阶学习

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
https://c.d2l.ai/stanford-cs329p/
在这里插入图片描述

https://paperswithcode.com
https://www.bilibili.com/video/BV1nA41157y4/?vd_source=eb04c9a33e87ceba9c9a2e5f09752ef8

怎么建立知识库
在这里插入图片描述
在这里插入图片描述

2. QA

在这里插入图片描述
20 算法提取的特征和人的不一样,互补
21 很难预测未来
22 可以不同步进行
23 打印device
24 都一样
25 不要有娱乐时间
26 不评价
在这里插入图片描述
27 不一定
28 tabula data
在这里插入图片描述

tabula data from GPT-4o

Tabula 是一个用于从 PDF 文件中提取表格数据的开源工具。其主要功能是将 PDF 中的表格数据提取成结构化格式(如 CSV、Excel、JSON 或 Pandas DataFrames),以便进行后续分析和处理。Tabula data 指的就是由 Tabula 工具从 PDF 文件中提取出来的数据,通常是以结构化的形式呈现的表格数据。


Tabula 的核心功能

Tabula 的设计理念是将 PDF 中的表格数据转化为可以直接读取和分析的数据格式。PDF 文件通常为固定的布局,不易直接解析,而 Tabula 通过检测表格的行列分隔,准确提取表格的内容。Tabula 的核心功能包括:

  1. 表格检测:Tabula 可以自动检测 PDF 中的表格结构,分离行列信息。
  2. 数据提取:通过列、行分隔,将表格内容解析成结构化数据。
  3. 导出格式:支持将数据保存为 CSV、Excel 等文件格式。
  4. 区域选择:可以手动选择 PDF 的某一区域,以便精确提取特定部分的数据。

Tabula 的技术原理

Tabula 使用光学字符识别(OCR)和 PDF 布局解析技术,以准确提取 PDF 中的表格内容。其原理包括:

  1. 文本区域检测:分析 PDF 文件中文本区域的位置,识别出可能包含表格的区域。
  2. 行列分隔分析:根据 PDF 中的分隔线或空白区域,将文本块划分成行和列。
  3. 字符识别与拼接:对 PDF 的字符内容进行识别,将各行各列中的内容拼接成完整的数据行。
  4. 导出数据:将解析出的表格数据以结构化格式输出。

Tabula 的优缺点

优点

  • 自动化程度高:自动检测表格行列,大部分情况下不需要手动调整。
  • 开源免费:作为开源工具,用户可以自由使用和二次开发。
  • 导出格式多样:支持 CSV、Excel、JSON 等多种格式的导出。

缺点

  • 复杂表格解析有限:Tabula 对于一些包含合并单元格或非标准格式的复杂表格解析较为困难。
  • 对图像内容有限:Tabula 主要基于文本识别,若 PDF 表格为扫描件图像,可能无法准确提取。
  • 手动调整需求:在一些格式不规整的表格中,可能需要手动选择表格区域。

Tabula 的典型应用场景

  1. 财务报表分析:快速提取财务报表中的表格内容,方便数据分析。
  2. 统计报告数据提取:将统计年报或政府报告中的数据提取成表格,便于处理。
  3. 自动化数据采集:将定期生成的 PDF 数据文件(如报告、清单)自动解析成 CSV,用于数据系统。
  4. 数据挖掘与整理:将大量 PDF 文件中的表格数据批量整理成结构化数据。

使用 Tabula 的方法

  1. 安装

    • Tabula 提供了桌面版和 Python 库。桌面版可以在 Tabula 网站下载;Python 库则可通过 pip install tabula-py 安装。
  2. 使用步骤

    • 桌面版:将 PDF 文件导入 Tabula,选择表格区域后导出所需格式。
    • Python 代码:导入 tabula-py 库,使用 read_pdf() 函数提取表格数据并转化为 Pandas DataFrame。
  3. 示例代码

    import tabula# 从 PDF 文件中提取数据
    df = tabula.read_pdf("file.pdf", pages="all", lattice=True)# 输出为 CSV 文件
    tabula.convert_into("file.pdf", "output.csv", output_format="csv", pages="all")
    

    其中,lattice=True 参数用于处理带有网格线的表格,提高提取准确性。


总结

Tabula data 即是通过 Tabula 工具从 PDF 中提取出来的结构化表格数据。Tabula 通过自动检测 PDF 中的表格结构,将内容转化为可直接分析的格式,适合在财务、统计等需要从 PDF 文件中提取数据的场景下使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/17175.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

UE5材质篇 4 材质表面雨滴打落

materials 101的教程的灵感,特此记录一下 教程里本质上其实是先实验确定了湿滑表面的roughness和specular的值metallic这些,然后根据time来给表面的某些点这几个属性进行变换,主要是roughness和normal的变化 具体的变化是依赖了一张noise&a…

【论文分享】三维景观格局如何影响城市居民的情绪

城市景观对居民情绪的影响是近些年来讨论的热门话题之一,现有的研究主要以遥感影像为数据来源,进行二维图像-数据分析,其量化结果精确度有限。本文引入了三维景观格局的研究模型,通过街景图片及网络发帖信息补充图像及数据来源&am…

[代码+论文+讲解]2024数维杯A题:飞机激光测速中的频率估计问题

一、问题背景 空速是飞机相对于空气的速度,是飞行中需要监测的关键参数。空速与飞行状态如攻角和侧偏角密切相关。如果空速数据异常,很容易导致诸如失速等事故。因此,准确测量空速非常重要。 图1:空速激光测速的示意图 激光测速是一种可行的测…

[刷题]入门3.彩票摇奖

博客主页:算法歌者本篇专栏:[刷题]您的支持,是我的创作动力。 文章目录 1、题目2、基础3、思路4、结果 1、题目 链接:洛谷-P2550-彩票摇奖 2、基础 此题目考察数组、三重循环、自增操作的能力。 3、思路 写代码时候&#xf…

数据在内存中的存储

1:整数在内存中的存储 在前面我们已经在操作符那一章博客中引入了,原反补的概念。 正整数的原,反,补码相同。 负整数的三种码表示不同。 2:大小端字节序和字符序判断 1:什么是大小端 很明显&#xff0…

Java线程池:ThreadPoolExecutor原理解析

一、线程池的基本概念 1.1 线程池的定义 线程池是一组预先创建的线程,这些线程可以重复使用来执行多个任务,避免了频繁创建和销毁线程的开销。线程池的核心思想是通过复用一组工作线程,来处理大量的并发任务,减少系统资源消耗&a…

从0开始学习机器学习--Day26--聚类算法

无监督学习(Unsupervised learning and introduction) 监督学习问题的样本 无监督学习样本 如图,可以看到两者的区别在于无监督学习的样本是没有标签的,换言之就是无监督学习不会赋予主观上的判断,需要算法自己去探寻区别,第二张…

网页直播/点播播放器EasyPlayer.js网页web无插件播放器渲染页面出现倒挂的原因排查

EasyPlayer.js网页web无插件播放器属于一款高效、精炼、稳定且免费的流媒体播放器,可支持多种流媒体协议播放,无须安装任何插件,起播快、延迟低、兼容性强,使用非常便捷。 EasyPlayer.js播放器不仅支持H.264与H.265视频编码格式&a…

P3-3.【结构化程序设计】第三节——知识要点:while语句、do-while语句和for语句

视频: P3-3.【结构化程序设计】第三节——知识要点:while语句、do-while语句和for语句 知识要点:while语句、do-while语句和for语句 目录 一、任务分析 二、必备知识与理论 三、任务实施 一、任务分析 输出某班若干学生的成绩&#xff0…

面试时问到软件开发原则,我emo了

今天去一个小公司面试,面试官是公司的软件总监,眼镜老花到看笔记本电脑困难,用win7的IE打开leetcode网页半天打不开,公司的wifi连接不上,用自己手机热点,却在笔记本电脑上找不到。还是我用自己的手机做热点…

【重生之我要苦学C语言】深入理解指针6

深入理解指针6 sizeof和strlen的对比 sizeof 操作符 整型&#xff1a; #define _CRT_SECURE_NO_WARNINGS #include <stdio.h> int main() {int a 10;printf("%zd\n", sizeof(a));printf("%zd\n", sizeof(int));printf("%zd\n", sizeo…

虚拟展厅赋能线上品牌发布会,打造沉浸式体验

线上品牌发布会与虚拟展厅的结合&#xff0c;为企业提供了一个全新的、高效的品牌展示和营销平台。视创云展巧妙融合了3D导览、720全景沉浸体验、虚拟数字人交互、音视频通话以及个性化的互动功能&#xff0c;打造极具沉浸感的线上虚拟品牌发布会&#xff0c;深度赋能体验经济时…

shell编程(3)脚本参数传递与数学运算

声明!!! 学习视频来自B站UP主泷羽sec&#xff0c;如涉及侵权马上删除文章 视频链接&#xff1a;泷羽sec 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负 # 向脚本程序传参 脚本如下&#xff1a; echo 执行的文件名…

CTF-Crypto-affine

首页看描述 一个数学方程和一个flag&#xff0c;应该就是密文构成 y 17x-8 flag{szzyfimhyzd} e一下题目&#xff0c;字典给了一个线索&#xff0c;仿射&#xff0c;那应该就是仿射密码 e一下原理 简单来说&#xff0c;该加密方式&#xff0c;需要两个秘钥来进行加密和解密&a…

YOLOv8改进,YOLOv8结合DynamicConv(动态卷积),CVPR2024,二次创新C2f结构

摘要 大规模视觉预训练显著提高了大规模视觉模型的性能。现有的低 FLOPs 模型无法从大规模预训练中受益。在本文中,作者提出了一种新的设计原则,称为 ParameterNet,旨在通过最小化FLOPs的增加来增加大规模视觉预训练模型中的参数数量。利用 DynamicConv 动态卷积将额外的参…

【AI数字人整合包及教程】EchoMimic:开启数字人新纪元

在当今数字化转型的浪潮中&#xff0c;人工智能技术正以前所未有的速度重塑我们的生活方式。其中&#xff0c;阿里巴巴旗下蚂蚁集团推出的一款名为EchoMimic的开源AI数字人项目&#xff0c;正在引领一场前所未有的技术革命。本文将深入探讨EchoMimic的技术特点&#xff0c;与其…

linux逻辑卷练习

目录 知识点&#xff1a; 常用命令 题目&#xff1a; 解题&#xff1a; 1&#xff09;分区 2&#xff09;创建物理卷 3&#xff09;创建卷组 4&#xff09;生成逻辑卷 "要带参数 -n" 5&#xff09;扩容 6&#xff09;格式化(添加文件系统) 7&#xff09;挂…

【MySQL】SQL语言

【MySQL】SQL语言 文章目录 【MySQL】SQL语言前言一、SQL的通用语法二、SQL的分类三、SQLDDLDMLDQLDCL 总结 前言 本篇文章将讲到SQL语言&#xff0c;包括SQL的通用语法,SQL的分类,以及SQL语言的DDL,DML,DQL,DCL。 一、SQL的通用语法 在学习具体的SQL语句之前&#xff0c;先来…

51单片机基础04 LCD1602时序;Proteus仿真单片机、总线、网络标号等;

目录 一、LCD显示字符 1、写指令 &#xff08;1&#xff09;、LCD状态配置 &#xff08;2&#xff09;、显示开关与光标 2、写数据 &#xff08;1&#xff09;、设置地址 &#xff08;2&#xff09;、设置数据 3、初始化代码 &#xff08;1&#xff09;、初始化流程 …

性能优化(二):ANR

介绍 ANR全称Application Not Responding&#xff0c;意思就是程序未响应。如果一个应用无法响应用户的输入&#xff0c;系统就会弹出一个ANR对话框&#xff0c;用户可以自行选择继续等待亦或者是停止当前程序。 Android系统会监控程序的响应状况&#xff0c;一旦出现下面情况…