首页 > 编程语言 >Python从PPT文件中提取所有文字到Word

Python从PPT文件中提取所有文字到Word

时间:2023-02-15 01:33:04浏览次数:42  
标签:docx Word output Python import sys file PPT input

需求

将PPT文件或PPTX文件里面的所有文字提取到一个新的以docx结尾的Word文件中。

安装Python库

(1)基于Python 3

(2) 运行下方代码安装需要用到的库

pip install python-pptx
pip install python-docx

执行下方Python代码

import collections
import collections.abc
import sys
import os
from pptx import Presentation
import docx

def extract_text(input_file, output_file):
    prs = Presentation(input_file)
    doc = docx.Document()
    for slide in prs.slides:
        for shape in slide.shapes:
            if not shape.has_text_frame:
                continue
            for paragraph in shape.text_frame.paragraphs:
                for run in paragraph.runs:
                    doc.add_paragraph(run.text)
    doc.save(output_file)

if __name__ == "__main__":
    if len(sys.argv) != 3:
        print("Usage: python main.py <input_file> <output_file>")
        sys.exit()
    input_file = sys.argv[1]
    output_file = sys.argv[2]
    if not input_file.endswith(".pptx") or not output_file.endswith(".docx"):
        print("Error: input file must be .ppt and output file must be .docx")
        sys.exit()
    if not os.path.exists(input_file):
        print("Error: input file does not exist")
        sys.exit()
    extract_text(input_file, output_file)
    print("Text extracted successfully!")



作者:艾孜尔江·艾尔斯兰

标签:docx,Word,output,Python,import,sys,file,PPT,input
From: https://www.cnblogs.com/ezhar/p/17121363.html

相关文章

  • Python 虚拟环境管理工具 venv
    1.概述Python应用程序通常会使用不在标准库内的软件包和模块。应用程序有时需要特定版本的库,因为应用程序可能需要修复特定的错误,或者可以使用库的过时版本的接口编写应......
  • Python正则表达式
    使用正则表达式正则表达式相关知识在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要,正则表达式就是用于描述这些规则的工具,换句话说正则表达......
  • python re.match() / re.search() / re.findall()
    re.match函数re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。re.search方法re.search扫描整个字符串并返回第一个成......
  • Python 异步: 当前和正在运行的任务(9)
    我们可以反省在asyncio事件循环中运行的任务。这可以通过为当前运行的任务和所有正在运行的任务获取一个asyncio.Task对象来实现。1.如何获取当前任务我们可以通过......
  • 【Python21天学习挑战赛】- 错误和异常
    Python的语法错误或者称之为解析错,是初学者经常碰到的,如下实例whileTrueprint('Helloworld')^SyntaxError:invalidsyntax1.2.3.这个例子中,函数print()被检查......
  • python 魔法函数学习
    1.什么是魔法函数  以__开始和结束,不需要专门调用,在特定场合下,python会自己调用,如__init__,__str__等2.常用的魔法函数  __str__: 返回类对象友好的提示,例子class......
  • 2023年第 3 期《Python 测试平台开发》进阶课程(3月5号开学)
    2023年第3期《Python测试平台开发》进阶课程主讲老师:上海-悠悠上课方式:微信群视频在线教学,方便交流本期上课时间:3月5报名费:报名费3800一人(周期3个月,之前学过《pytho......
  • python File(方法)
    open()方法:Pythonopen()方法用于打开一个文件,并返回文件对象,在对文件进行处理过程都需要使用到这个函数,如果该文件无法被打开,会抛出OSErroropen(file,mode='r',buffer......
  • Python
    PythonSyntaxfrom...import...as...import的后面内容对本模块可见package1.package2.module.name只要import涉及到package,该package下的__init__.py会被自动......
  • Python 使用mysql.connector、pymysql和 MYSQLdb(MysqlClient)操作MySQL数据库
    MySQL是一个关系型数据库管理系统,由瑞典MySQLAB公司开发,属于Oracle旗下产品。MySQL是最流行的关系型数据库管理系统之一。本文主要介绍安装mysql.connector,、pymysql......