当前位置: 首页 > news >正文

基于tabula对pdf中多个excel进行识别并转换成word中的优化(五)

        优化地方:处理合并的单元格内容。

        1、修改为stream="complex"

        2、增加换行符f"{table_data[i - 1][j]}\n{table_data[i][j]}".strip()

        一、pdf中excel样例

      二、完整代码

import tabula
import numpy as np
from docx import Document
from docx.oxml.ns import qn
from docx.oxml import OxmlElement# print("multitab:", tables)# 创建一个新的Word文档
doc = Document()def get_table_data(df_list):multi_table_data = []# 遍历每个表格for table_index, table in enumerate(df_list):table_data = []# 获取行数和列数rows, cols = table.shapeheading_cells = []for col_num, column_name in enumerate(table.columns):heading_cells.append(column_name)table_data.append(heading_cells)for row_index, row in table.iterrows():table_data.append(row.tolist())multi_table_data.append(table_data)return multi_table_datadef handle_table(multitable_data):multi_table_data = []for table_data in multitable_data:for i in range(len(table_data) - 1, 0, -1):if table_data[i][0] in [None, np.nan, ""] or table_data[i][1] in [None,np.nan,"",]:for j in range(len(table_data[i])):if table_data[i][j] not in [None,np.nan,"",]:  # 只有当单元格不为空时才合并table_data[i - 1][j] = f"{table_data[i - 1][j]}\n{table_data[i][j]}".strip()# 删除当前行del table_data[i]multi_table_data.append(table_data)return multi_table_datadef set_cell_borders(cell, border_color="000000", row_height=None):"""设置单元格的边框颜色:param cell: 单元格对象:param border_color: 边框颜色,默认为黑色"""tc = cell._elementtcPr = tc.get_or_add_tcPr()tcBorders = OxmlElement("w:tcBorders")for border_name in ("top", "left", "bottom", "right"):border = OxmlElement(f"w:{border_name}")border.set(qn("w:val"), "single")border.set(qn("w:sz"), "4")  # 边框大小border.set(qn("w:space"), "0")border.set(qn("w:color"), border_color)tcBorders.append(border)tcPr.append(tcBorders)# 设置内容居中显示for paragraph in cell.paragraphs:for run in paragraph.runs:run.font.size = paragraph.style.font.size  # 保持字体大小一致paragraph.alignment = 1  # 1 表示居中对齐# 设置行高if row_height is not None:tr = cell._element.getparent()  # 获取行元素trPr = tr.get_or_add_trPr()trHeight = OxmlElement("w:trHeight")trHeight.set(qn("w:val"), str(row_height))trPr.append(trHeight)def create_table_and_fill_data(tables_data, output_file):"""在 Word 文档中插入表格并填充数据:param data: 表格数据:param output_file: 输出文件路径"""# 创建一个新的 Word 文档doc = Document()for row_index, data in enumerate(tables_data):# 添加一个标题sssdoc.add_heading("测试信息表" + str(row_index), level=1)# 创建表格table = doc.add_table(rows=len(data), cols=len(data[0]))# 填充表格数据for row_index, row_data in enumerate(data):for col_index, cell_text in enumerate(row_data):cell = table.cell(row_index, col_index)cell.text = str(cell_text)set_cell_borders(cell, border_color="FF0000", row_height=300)# 设置表格边框颜色# 保存 Word 文档doc.save(output_file)# pdf_file = "multitab.pdf"
pdf_file = "excelcell.pdf"
output_file = "order0429multitab.docx"  # 输出的 Word 文件路径
# 读取PDF文件中的所有表格
tables = tabula.read_pdf(pdf_file, pages="all", multiple_tables=True, stream="complex")
multi_table_data = get_table_data(tables)
print("table_data:", multi_table_data)new_multi_table_data = handle_table(multi_table_data)# 替换 nan 值为空字符串
_new_multi_table_data = [[["" if isinstance(item, float) and np.isnan(item) else item for item in row]for row in table]for table in new_multi_table_data
]print("new_multi_table_data:", _new_multi_table_data)
create_table_and_fill_data(_new_multi_table_data, output_file)

三、效果展示

        

http://www.xdnf.cn/news/208927.html

相关文章:

  • Go语言之路————接口、泛型
  • SpringMVC再复习1
  • MODSIM选型指南:汽车与航空航天企业如何选择仿真平台
  • 极客天成参与”AI助力智慧城市构建”主题演讲暨招商引智专题推介活动
  • 哈希表笔记(一 )
  • 【东枫电子】AI-RAN:利用人工智能驱动的计算基础设施变革 RAN
  • 后端部署:Flask + pymysql + MySQL迁移到服务器(以Linux为例)
  • Android Framework常见问题
  • 包装类的缓存机制
  • SELinux 从理论到实践:深入解析与实战指南
  • 算法题(137):丢手绢
  • 在yolo中Ultralytics是什么意思呢?超越分析的智能
  • 篮球足球体育球员综合资讯网站模板
  • git学习之git常用命令
  • MySQL 在 CentOS 7 环境下的安装教程
  • Go 语言中的 `recover()` 函数详解
  • 快速了解Go+微服务(概念和一个例子)
  • CA添加删除辅小区信令流程
  • 联邦学习与安全多方计算的结合是隐私保护机器学习领域
  • Android启动应用时屏蔽RecyclerView滑动,延时后再允许滑动,Kotlin
  • 华为云IoT平台与MicroPython实战:从MQTT协议到物联网设备开发
  • 4、RabbitMQ的七种工作模式介绍
  • CSS--图片链接水平居中展示的方法
  • Rust Ubuntu下编译生成环境win程序踩坑指南
  • 《Origin画百图》之带颜色映射的3维散点图
  • 局部和整体的关系
  • elementui里的el-tabs的内置样式修改失效?
  • Error: error:0308010C:digital envelope routines::unsupported 高版本node启动低版本项目运行报错
  • OpenCV 图形API(71)图像与通道拼接函数-----从图像(GMat)中裁剪出一个矩形区域的操作函数 crop()
  • 一文简单记录打通K8s+Kibana流程如何启动(Windows下的Docker版本)