当前位置: 首页 > news >正文

Python数据处理:文件的自动化重命名与整合

Python数据处理:文件的自动化重命名与整合

本文将介绍如何使用Python自动化处理财务报表文件,实现从个体公司到行业维度的数据整合。

需求

在实际工作中,我们通常会收集到多家公司的财务报表,文件命名格式为"公司名称_报表类型.csv",例如"某软件有限公司_资产负债表.csv"。当需要进行行业分析时,我们希望将同类型的报表整合,重命名为"行业_报表类型.csv"的格式。手动操作不仅耗时,还容易出错,因此自动化处理成为必然选择。

解决方案

以下是一个Python脚本,可以自动扫描指定文件夹中的CSV财务报表文件,并按照报表类型进行重命名:

import os
import pandas as pd
import re# 指定文件夹路径
folder_path = r"D:\123"# 检查文件夹是否存在
if not os.path.exists(folder_path):print(f"文件夹 {folder_path} 不存在")exit(1)# 获取文件夹中的所有文件
files = os.listdir(folder_path)# 定义文件类型和对应的新命名模式
file_types = {"资产负债表": "行业_资产负债表.csv","利润表": "行业_利润表.csv","现金流量表": "行业_现金流量表.csv"
}# 处理文件
processed_count = 0
for file in files:if file.endswith(".csv"):# 查找匹配的文件类型for file_type in file_types:if file_type in file:# 找到匹配的文件类型old_path = os.path.join(folder_path, file)new_path = os.path.join(folder_path, file_types[file_type])# 如果目标文件已存在,先删除if os.path.exists(new_path):os.remove(new_path)# 重命名文件os.rename(old_path, new_path)print(f"已将 {file} 重命名为 {file_types[file_type]}")processed_count += 1breakprint(f"处理完成,共重命名 {processed_count} 个文件")

代码解析

1. 环境准备

首先导入必要的库:os用于文件操作,pandas用于数据处理,re用于正则表达式匹配(虽然在当前代码中未使用,但在更复杂的匹配场景中很有用)。

2. 文件夹路径设置

指定要处理的文件夹路径,并验证其是否存在。这是一个基本的错误处理机制,确保在文件夹不存在时及时终止程序。

3. 文件类型定义

创建一个字典,将原始报表类型映射到目标文件名。这样设计使代码更具扩展性,如果日后需要处理更多类型的报表,只需在字典中添加对应映射即可。

4. 文件处理循环

遍历文件夹中的所有文件,对每个CSV文件进行处理:

  • 检查文件名是否包含我们关注的报表类型
  • 构建原路径和新路径
  • 如果目标文件已存在,先删除它(避免命名冲突)
  • 重命名文件
  • 输出处理结果并计数

5. 结果统计

最后输出处理的文件总数,方便用户了解操作结果。

在这里插入图片描述

http://www.xdnf.cn/news/210169.html

相关文章:

  • JavaWeb:后端web基础(TomcatServletHTTP)
  • 当跨网文件传输遇上医疗级安全筛查
  • <c++>使用detectMultiScale的时候出现opencv.dll冲突
  • Docker容器资源控制--CGroup
  • 公路风险落图,道路点任意经纬度里程求解
  • 2. python协程/异步编程详解
  • 【软考-高级】【信息系统项目管理师】【论文基础】沟通管理过程输入输出及工具技术的使用方法
  • python的turtle库实现四叶草
  • Reactor框架介绍
  • Java应用8(I/O)
  • 【含文档+PPT+源码】基于SSM的电影数据挖掘与分析可视化系统设计与实现
  • Nginx 核心功能笔记
  • PyQt6基础_QThreadPool
  • 62.微服务保姆教程 (五) Seata--微服务分布式事务组件
  • 基于arduino的温湿度传感器应用
  • Apache Flink的架构设计与运行流程说明
  • Lua 第14部分 数据结构
  • 洛谷 B3644:【模板】拓扑排序 / 家谱树 ← 邻接表
  • linux修改环境变量
  • JMM中的内存屏障
  • 【电子战数字孪生系统】新一代雷达目标与干扰模拟器技术白皮书
  • 数字中国浪潮下:Coremail AI赋能邮件办公,筑牢安全防线引领转型
  • Dia-1.6B 在 Windows 系统下的成功部署及多人情景对话克隆实践
  • SSR vs SSG:前端渲染模式终极对决(附 Next.js/Nuxt.js 实战案例)
  • Java中的接口和抽象类
  • JSON-RPC 2.0 规范中文版——无状态轻量级远程过程调用协议
  • 无锡哲讯科技:引领企业数字化转型的SAP实施专家
  • 基于论文的大模型应用:基于SmartETL的arXiv论文数据接入与预处理(四)
  • 基于 Windows I/O 完成端口(IOCP)的多线程任务队列系统小case
  • 关于插值和拟合(数学建模实验课)