一、引言
有的时候,我们需要把手头的文字版PPT文件中的文字提取出来,但PPT没有另存为文本文件的功能,也没有另存为Word文件的功能,我们可以用 python-docx 这个扩展库来提取PPT中的文本,如果需要保存到Word文件中,还需要python-docx。虽然提取单个PPT文本是有用的,但批量转换功能更强。本号今天分享提取PPT文本存入TXT文件或Word文件的方法。
环境:64位Win 10中文版 + 64位Python 3.7.6
《Python程序设计(基于计算思维和新文科建设)》,ISBN:9787121435577,胡凤国,电子工业出版社,2022年6月。本书是电子工业出版社在国内较早采用纸质版+电子版的创新图书发行模式的第一次尝试。本书是这套创新图书的纸质版部分,与之内容互补的电子版图书将稍后出版。基础篇介绍Python程序设计的入门知识,共12章,包括:⑵ Python软件的安装和Python程序运行;⑶ Python的基本概念(对象、数据类型、表达式、内置函数);排错篇总结初学者常遇到的错误并介绍程序调试方法,包含2章:与本书内容互补的电子版图书包含文本篇和应用篇两部分:文本篇:介绍字符集、编码和文本文件读写的知识,包含了对国家规范《通用规范汉字表》8105个汉字当中难以输入和难以显示的汉字的处理。应用篇:介绍Word、Excel、PPT、PDF、图片等常用办公文件的处理,是大家提高办公和科研效率的好帮手。本书配套有详细的PPT和教学大纲,还有全部例题的程序代码和绝大部分思考题的程序代码。本书配套PPT里面还加入了配套电子版图书中的部分内容,比如字符集和编码,不同编码的文本文件的读写,Word、Excel、PPT、PDF等一些常用办公文件的读写。1、大学文科生, 可选本书当Python教材或自学Python的参考书。2、大学理工科学生, 可选本书当自学Python的参考书。可拿本书当工具书,本书的配套程序会为您节省效率,在当前大数据和新文科的背景下,本书可以为相关领域的量化研究提供技术支持。本书配套的电子版图书中的编码和文本处理知识也可以作为理工科教师和科研人员处理文本数据的参考资料之一,毕竟专门开辟章节介绍国家标准《通用规范汉字表》汉字处理的程序设计图书并不多见。
本书有专门的海龟画图章节,有大量的有趣数学题目,可以培养学生的计算思维,适合对编程感兴趣的中小学生阅读,也适合打算让娃参加编程辅导班的家长朋友参考。本书在各大实体书店和网店均有销售。京东、天猫、当当的购买渠道如下(可扫码直达购买页面)。
三、程序
我们首先要安装python-pptx:pip install python-pptx
如果是保存为Word文件的话,我们只需要修改最后的写入部分就行了,当然,前面的导入语句要加上一行。
保存Word文件还要安装python-docx:pip install python-docx

有的时候,个别PPT的文本中存在着按Shift+Enter键换行的情况,这个时候,上述代码就出错了,因为提取的文本中包含字符'\x0b',Python-docx写入带该字符的文本会报错。
ValueError: All strings must be XML compatible: Unicode or ASCII, no NULL bytes or control characters
'\x0b'算是空白符,我们可以引入正则表达式对象re,把所有空白字符都转换为空格,再写入Word文件就没有问题了。


如果想把提取的文本存入word文件,我们把上述代码稍微改一下,就能实现。
四、讨论
上面的代码调用了自定义函数库中的函数 my_path2path ,它把目录对目录的操作转换成单文件对单文件的操作,我们只需要写个单文件的处理代码就行。该函数对于批量操作文件非常方便,本号之前有几篇文章都经使用过该函数:《用Python给图片添加边框线》
《用pillow扩展库缩放图片》
《用pdf2docx把PDF文件转换成Word文件》
《用Python程序把PPT文件转换成图片PPT文件》
关于自定义函数 my_path2path ,请参考图书《Python程序设计(基于计算思维和新文科建设)》的第321~323页。

自定义函数 my_path2path 的代码可以从电子工业出版社官网本书配套例题代码中获得。
五、联系交流
由于本号文章以辅助教学为主,笔者不建议自己的学生直接拿代码运行,而是建议在理解了思路之后自己敲代码来加深印象,所以本号一般不直接贴代码。如果其他读者朋友有需要代码,请关注本号,加笔者微信联系。欢迎关注微信公众号“语和言”,本公众号将不定期发布对图书《Python程序设计(基于计算思维和新文科建设)》中的Python知识点进行解读和补充的内容。语和言公众号还有读者交流群,读者朋友可以入群一起讨论问题。
欢迎跟图书《Python程序设计(基于计算思维和新文科建设)》的作者胡凤国老师进行交流,电邮:cuchufengguo@163.com。
六、图书目录
图书《Python程序设计(基于计算思维和新文科建设)》目录如下(手机端可以用手指上下滑动下面灰色区域的文字来查看全部目录,电脑端可以用鼠标滚动滚轮或拖动下面文本框右边的滚动条来浏览全部目录):
8.2.4 关于元素可比较的有序序列类对象的通用操作10.3.3 用上下文管理语句with来管理文本文件读写12.12.1 datetime标准库定义的常用类参考文献