《Python趣味工具》——ppt的操作(1)

前面我们学习了如何利用turtle模块制作emoji,今天来看看PPT的相关操作:


在这里插入图片描述

文章目录

  • 一、PPT的基础结构:
  • 二、PPT的相关操作:
    • 1. 导入pptx模块
    • 2. ppt的基本操作:
  • 三、总结:
  • 四、 完整源码:


小L想要把 PPT 中的文本全部粘贴到 Word 文档中,该怎么办,一页一页的复制粘贴么,emmm,想想都很麻烦,还是交给Python吧!

即要把 PPT 中的文本内容读取出来,再写入 Word 文档中。

我们想要使用 Python 读取 PPT 中的文字,首先应该清楚 PPT 的基础结构,这样对之后代码的编写很有帮助。

此处我们以 PowerPoint 软件为例,进行讲解和演示。


一、PPT的基础结构:

1️⃣一个 PPT 就是一个演示文稿(Presentation)。

2️⃣演示文稿由页组成,每一页叫做幻灯片页(Slide)。

3️⃣幻灯片页由形状(Shape)组成。

  • PPT 中提供了各种样式的形状,线条、箭头、矩形、基本形状、共识形状等。

4️⃣通过是否含有文本(text),形状可以分为两类:

  • 一类是含有文本框的形状
  • 另一类是无文本框的形状(纯图片)

5️⃣一个文本框可以看作是小的 Word 文档,其中的每一段内容叫段落(Paragraph)。

注意哦,空行也是段落。

段落之中的内容可以具有不同的样式。

  • 常见的样式有:字体、字形、字号、字体颜色、下划线、删除线、上标和下标等。

6️⃣我们把具有相同样式的基本单元可称为一个样式块(Run)。

例如,在段落中有一个高亮的字,那么这个字就形成了一个样式块。字的左右两边被分割成了新的样式块。所以,段落中就有三个样式块。

将 PPT 中的结构按照层级关系来排列是这样的:

幻灯片页 -> 形状 -> 文本框 -> 段落 -> 样式块


二、PPT的相关操作:

1. 导入pptx模块

在了解了 PPT 文件的基础结构后,接下来就要使用 Python 读取内容。

首先,我们要安装 python-pptx 模块,它可以读取和修改 .pptx 文件,不支持.ppt文件。

python-pptx 不是一个内置模块,所以在使用前要先通过代码
pip install python-pptx 在终端上进行安装。

如果在自己电脑上安装不上或安装缓慢,可在命令后添加
pip install python-pptx -i https://pypi.tuna.tsinghua.edu.cn/simple/
进行加速。

安装完成后,下一步就是导入这个模块;

我们只需要使用 python-pptx 模块中的 Presentation 类,这里要用到 from...import...

需要注意的是,这里是 from pptx import Presentation,而不是
from python-pptx import Presentation。

# 使用from...import从pptx模块中导入Presentation
from pptx import Presentation

2. ppt的基本操作:

由于 PPT 有多级结构,想要得到所有的文字内容,那就要从头开始层层读取。

第一步,读取文件;
第二步,读取指定幻灯片页;
第三步,读取指定形状;
第四步,读取文本框内的文本内容。


1️⃣调用 Presentation() 函数,读取指定路径,相当于打开了一份 .pptx 文件,并返回一个 Presentation 对象。

from pptx import Presentation
path = "/Users/shop.pptx"
pptxFile = Presentation(path)
print(pptxFile)

本例中,将 .pptx 文件的绝对路径以字符串格式赋值给变量 path,再将变量 path 作为参数传入 Presentation() 函数中。


2️⃣读取 .pptx 文件后,我们可以访问 Presentation 中的 .slides 属性,获取幻灯片页序列。

slide = pptxFile.slides

幻灯片页序列中包含所有幻灯片页对象,可以使用索引定位到单个幻灯片页对象;

  1. 获取PPT第一张幻灯片页对象:
slide = pptxFile.slides[0]
  1. 也可以使用 for 循环读取所有幻灯片页对象。
# for循环遍历pptxFile中.slides属性,并赋值给slide
for slide in pptxFile.slides:# print()输出slideprint(slide)

使用 for 循环遍历 Presentation 对象中 .slides 属性,并赋值给变量 slide,这样就可以读取到 .pptx 文件中每个幻灯片页对象。


3️⃣在获取了全部幻灯片页对象后,接下来就要读取其中的形状。

我们可以访问幻灯片页对象中的 .shapes 属性,获取形状序列。

案例中的代码,只读取了第一页幻灯片中的所有形状。

slide = pptxFile.slides[0]
shape = slide.shapes

由于形状包含在幻灯片页中,在这里我们需要使用嵌套循环,读取每一页幻灯片中的每一个形状。

# for循环遍历pptxFile中.slides属性,并赋值给slide
for slide in pptxFile.slides:# for循环遍历slide中.shapes属性,赋值给变量shapefor shape in slide.shapes:# print()输出shapeprint(shape)

4️⃣我们通过代码读取到每个幻灯片页中的每一个形状,接下来要获取其中的文本框。

思考一下,是不是每个形状中都有文本框呢?
在这里插入图片描述
哈哈!并不是哒哒哒哒哒哒哒哒哒哒哒哒dadadada!!!

在这里插入图片描述

形状可以按照是否含有文本分为两类,一类是含有文本框的形状,另一类是纯图片的形状。

所以,我们要将纯图片的形状排除,再从文本框中提取文字内容。

这段代码可以判断形状内是否有文本框,然后读取文本框对象。

if shape.has_text_frame == True:texts = shape.text_frame

访问形状对象中的 .has_text_frame 属性,判断形状中是否存在文本框,返回布尔数。

与 if 语句相结合,如果形状中存在文本框,就执行接下来的操作。


5️⃣在获取了文本框对象后,要读取文本框内的文本内容,需要通过 .text 属性访问。

访问形状中的 .text_frame 属性,获得文本框对象。

  # print()输出textFrame.textprint(textFrame.text)

终于把 .pptx 文件中的文本内容提取出来了,不错不错🎉


6️⃣接下来,就应该把文本内容全部写入 Word 文档中。

在这里,我们需要知道一个小规则,就是写入 Word 文档的内容样式要保持一致。

也就是说,一段文本内容为一个样式块,就可以写入 Word 文档。如果一段文本内容包含多个样式块,写入 Word 文档时,就可能发生报错。

由于我们以文本框为单位提取文本内容,文本框内有段落,段落中含有不同的样式块,就这样写入 Word 文档,程序会报错。

在这里,要以样式块为最小单位提取文本内容,再把每个样式块写入 Word 文档中。

刚才我们获取了文本框对象,再往下一层读取,需要访问 .paragraphs 属性,返回文本框中的段落序列。

案例中的代码,读取了第一页幻灯片第一个文本框中的所有段落。

textFrame = shape.text_frame
paragraphs = textFrame.paragraphs

要获取每个文本框内的每个段落,就需要使用 for 循环遍历文本框的 .paragraphs 属性。

 # for循环遍历slide中.shapes属性,赋值给变量shapefor shape in slide.shapes:# 判断形状中是否有文本框if shape.has_text_frame == True:# 读取形状中的文本框,并赋值给变量textFrametextFrame = shape.text_frame# for循环遍历文本框内的所有段落# 赋值给变量paragraphfor paragraph in textFrame.paragraphs:# print()输出paragraphprint(paragraph)

7️⃣获取了所有段落对象后,接下来就访问段落对象的 .runs 属性,就可以获得段落中的样式块序列。

在案例中,读取了第一页幻灯片第一个文本框第一个段落中的所有样式块。

from pptx import Presentationpath = "/Users/shop.pptx"
pptxFile = Presentation(path)slide = pptxFile.slides[0]
shape = slide.shapes[0]
textFrame = shape.text_frame
paragraph = textFrame.paragraphs[0]runs = paragraph.runs

接下来,for 循环遍历段落的 .runs 属性,赋值给变量 run;访问段落对象的 .runs 属性,就可以获得段落中的样式块序列。


8️⃣使用 .text 属性读取出样式块对象的文本内容。

  # for循环遍历段落中的所有样式块# 赋值给变量runfor run in paragraph.runs:# 读取样式块中的文本内容,并赋值给变量textstexts = run.text# print()输出textsprint(texts)

太好了,终于通过层层读取,获得了每个样式块中的文本内容<( ̄︶ ̄)>
在这里插入图片描述


三、总结:

今天我们通过读取样式块,访问其 .text 属性,获得了以样式块为单位的文本内容。

这不是提取 .pptx 文件中的文本内容的唯一方式,我们要根据不同的需求采取不同的操作。

层层读取 .pptx 文件需要嵌套循环,理清楚 PPT 的结构,就可以避免出 bug 啦~

小提示:复数结尾的属性,例如 .slides,获取的都是序列,我们可以通过索引和遍历,得到单个对象。

在这里插入图片描述


四、 完整源码:

# 使用from...import从pptx模块中导入Presentation
from pptx import Presentation# 将.pptx文件路径赋值给变量path
path = "/Users/xiaohe/statistics.pptx"# 读取path并赋值给变量pptxFile
pptxFile = Presentation(path)# for循环遍历pptxFile中的.slides属性,赋值给slide
for slide in pptxFile.slides:# for循环遍历slide中.shapes属性,赋值给变量shapefor shape in slide.shapes:# TODO 判断形状中是否有文本框if shape.has_text_frame==True:# TODO 读取形状中的文本框,并赋值给变量textFrametextFrame=shape.text_frame# TODO for循环遍历文本框内的所有段落# 赋值给变量paragraphfor paragraph in textFrame.paragraphs:# TODO for循环遍历段落中的所有样式块# 赋值给变量runfor run in paragraph.runs:# TODO 读取样式块中的文本内容,并赋值给变量textstexts=run.textprint(texts)# TODO print()输出texts

呜呜~ 本周就这样了,最近没时间写了~ ~ ~😢😢😢
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/140966.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

《从零开始的Java世界》01基本程序设计

《从零开始的Java世界》系列主要讲解Javase部分&#xff0c;从最简单的程序设计到面向对象编程&#xff0c;再到异常处理、常用API的使用&#xff0c;最后到注解、反射&#xff0c;涵盖Java基础所需的所有知识点。学习者应该从学会如何使用&#xff0c;到知道其实现原理全方位式…

C进阶-数据的存储

数据类型介绍 内置类型&#xff1a; //数据类型中的内置类型 // char //字符数据类型 // short //短整型 // int //整型 // long //长整型 // long long //更长的整型 // float //单精度浮点数 // double //双精度浮点数 //数据类型中的内置类型 单位是字节 // char //字…

数据可视化

一、Flask介绍 #通过访问路径&#xff0c;获取用户的字符串参数 app.route(/user/<name>) def welcome(name):return "你好&#xff0c;%s"%nameapp.route(/user/<int:id>) def welcome2(id):return "你好&#xff0c;%d号的会员"%id能够自动…

Linux 线程同步、互斥锁、避免死锁、条件变量

1. 线程同步概述 线程同步定义 线程同步&#xff0c;指的是控制多线程间的相对执行顺序&#xff0c;从而在线程间正确、有序地共享数据&#xff0c;以下为线程同步常见使用场合。 多线程执行的任务在顺序上存在依赖关系线程间共享数据只能同时被一个线程使用 线程同步方法 …

【性能测试】JMeter:集合点,同步定时器的应用实例!

一、集合点的定义 在性能测试过程中&#xff0c;为了真实模拟多个用户同时进行操作以度量服务器的处理能力&#xff0c;可以考虑同步虚拟用户以便恰好在同一时刻执行操作或发送请求。 通过插入集合点可以较真实模拟多个用户并发操作。 (注意&#xff1a;虽然通过加入集合点可…

安全防御第二次作业

1. 防火墙支持那些NAT技术&#xff0c;主要应用场景是什么&#xff1f; 防火墙支持几乎所有的NAT技术&#xff0c;包括源NAT、目标NAT、双向NAT等&#xff0c;主要应用场景是保护内部网络免受外部网络的攻击 NAT技术可以将IP数据报文头中的IP地址转换为另一个IP地址&#xff…

JMeter:接口测试基础介绍

一、什么是接口 接口是非常抽象的概念&#xff0c;先来看下中国最大的综合性辞典《辞海》是怎样定义接口的&#xff1a; 两个不同系统或系统中两个不同特性部分的交接部分。一般分硬件接口和软件接口两种。前者是为连接计算机各部分之间、计算机与计算机之间、计算机与外部系统…

Linux离线安装elasticsearch|header|kibna插件最详细

1.准备软件安装包 [hadoophost152 elasticsearch]$ ll -rw-r--r--. 1 hadoop hadoop 515807354 9月 23 23:40 elasticsearch-8.1.1-linux-x86_64.tar.gz -rw-r--r--. 1 hadoop hadoop 1295593 9月 23 23:48 elasticsearch-head-master.tar.gz -rw-r--r--. 1 hadoop hadoop…

SSRF漏洞

Server-Side Request Forgery:服务器端请求伪造 目标&#xff1a;网站的内部系统 形成的原因 攻击者构造形成由服务器端发起请求的译者安全漏洞。 由于服务端提供了从其他服务器应用获取数据的功能&#xff0c;且没有对目标地址做过滤与限制。比如从指定URL地址获取网页文本内…

Mybatis-分页插件

Mybatis-分页插件 前言一、分页插件的使用步骤1.添加依赖2.配置分页插件3. 分页插件的使用 前言 可以通过分页插件在实现以下前端样式时更加方便&#xff1a; 首页 上一页 2 3 4 5 6 下一页 末页 limit index,pageSize pageSize&#xff1a;每页显示的条数 pageNum&#xff…

RASP初识

需要了解的东西. 是什么 拦截日志&#xff1a;rasp/logs/alarm/alarm.log RASP&#xff08;Runtime application self-protection&#xff09;运行时应用自我保护。 官方英译应用程序不应将大部分运行时保护委托给外部设备。应用程序应该能够自我保护&#xff08;即&#xf…

如何进行销售漏斗管理?

本文将为大家讲解&#xff1a;如何进行销售漏斗管理&#xff1f; 销售漏斗管理是现代销售管理的核心概念之一。它将销售过程分解为一系列阶段&#xff0c;从而帮助销售团队更有效地跟踪和管理潜在客户。本文将深入探讨销售漏斗管理的方法&#xff0c;并结合简道云CRM的实际应用…

LeetCode 494.目标和 (动态规划 + 性能优化)二维数组 压缩成 一维数组

494. 目标和 - 力扣&#xff08;LeetCode&#xff09; 给你一个非负整数数组 nums 和一个整数 target 。 向数组中的每个整数前添加 或 - &#xff0c;然后串联起所有整数&#xff0c;可以构造一个 表达式 &#xff1a; 例如&#xff0c;nums [2, 1] &#xff0c;可以在 2…

Java中如何将String类型的2023年09月21日这个值变成DATE相关的类型

Java中如何将String类型的2023年09月21日这个值变成DATE 可以通过使用Java中的SimpleDateFormat类完成。以下是一个例子&#xff1a; import java.text.SimpleDateFormat; import java.text.ParseException; import java.util.Date;public class Main {public static void ma…

Linux动态库

定义&#xff1a;动态函数库&#xff0c;是在程序执行时动态&#xff08;临时&#xff09;由目标程序去调用 优点&#xff1a; 调用时不复制&#xff0c;程序运行时动态加载到内存&#xff0c;供程序调用&#xff0c;系统只加载一次&#xff0c;多个程序可以共用&#xff0c;…

大厂面试之算法篇

目录 前言 算法对于前端来说重要吗&#xff1f; 期待你的答案 算法 如何学习算法 算法基础知识 时间复杂度 空间复杂度 前端 数据结构 数组 最长递增子序列 买卖股票问题 买卖股票之交易明细 硬币找零问题 数组拼接最小值 奇偶排序 两数之和 三数之和 四数之…

9.19号作业

2> 完成文本编辑器的保存工作 widget.h #ifndef WIDGET_H #define WIDGET_H#include <QWidget> #include <QFontDialog> #include <QFont> #include <QMessageBox> #include <QDebug> #include <QColorDialog> #include <QColor&g…

Python 打印素数

"""打印素数介绍&#xff1a;素数是指只有两个正因数&#xff08;1和它本身&#xff09;的自然数&#xff0c;而且必须大于1。例如&#xff1a;2、3、5、7、11、13、17、19、23、29等等都是素数。小于2的数不是素数&#xff0c;因为它没有两个正因数。例如&…

对话ChatGPT:AIGC时代下,分布式存储的应用与前景

随着科技的飞速发展&#xff0c;我们正步入一个被称为AIGC时代的全新阶段&#xff0c;人工智能、物联网、大数据、云计算成为这个信息爆炸时代的主要特征。自2022年11月以来&#xff0c;ChatGPT的知名度迅速攀升&#xff0c;引发了全球科技爱好者的极大关注&#xff0c;其高超的…

java框架-Springboot3-web开发

文章目录 自动配置默认效果WebMvcAutoConfigurationWebMvcConfigurer接口静态资源访问首页Favicon缓存 自定义静态资源路径1、配置方式2、代码方式 路径匹配规则内容协商默认支持json配置支持xml内容协商原理自定义支持ymal 模板引擎模板引擎Thymeleaf整合基础语法遍历判断属性…