零代码编程：用ChatGPT将SRT字幕文件批量转为Word文本文档

时间：2023-11-20 19:31:33浏览次数：37

标签：文件 00 文本文档 Word SRT 字幕文档 file path

一个文件夹中有多个srt视频字幕文件，srt文件里面有很多时间轴：

现在想将其批量转为word文档，去掉里面与字符无关的时间轴，在ChatGPT中输入提示词：

你是一个Python编程专家，要完成一个批量将SRT字幕文件转为Word文本文档的任务，具体步骤如下：

打开文件夹：F:\儿童学习教育\Abadas.适合2岁以上.BBC儿童学习单词的动画；

读取里面所有的srt字幕文件；

将srt字幕文件里面的时间和数字序号全部去掉，只保留字幕文本，另存为word文档；

比如，原有的srt字幕文件内容为：

00:00:20,560 --> 00:00:22,760

'Hey, Abadas!'

00:00:22,760 --> 00:00:26,120

ALL: Hello, Ben! Come and play with us!

00:00:26,120 --> 00:00:30,000

And... # We'll have a...

转换后的word文档内容为：

'Hey, Abadas!'

ALL: Hello, Ben! Come and play with us!

And... # We'll have a...

注意：每一步都要输出相关信息

每一行代码都要给出详细的注释

ChatGPT的回复：

以下是一个使用 python-docx 和 re（正则表达式模块）将 SRT 字幕文件转为 Word 文档的 Python 脚本。请先安装 python-docx 库，可以通过 pip install python-docx 来安装。

import os

import re

from docx import Document

# 设置源文件夹路径

source_dir = 'F:/儿童学习教育/Abadas.适合2岁以上.BBC儿童学习单词的动画'

# 遍历源文件夹中的所有字幕文件

for file_name in os.listdir(source_dir):

# 确保是 SRT 文件

if file_name.endswith('.srt'):

file_path = os.path.join(source_dir, file_name)

print(f'正在处理字幕文件: {file_path}')

with open(file_path, 'r', encoding='utf-8') as f:

content = f.read()

# 使用正则表达式将时间和数字序号去掉

pattern = re.compile(r'\d+\n\d{2}:\d{2}:\d{2},\d+ --> \d{2}:\d{2}:\d{2},\d+\n')

text_only = re.sub(pattern, '', content)

# 创建一个 Word 文档，并将处理后的文本添加到文档中

doc = Document()

doc.add_paragraph(text_only)

# 将 Word 文档保存为一个新文件

word_file_path = file_path.replace('.srt', '.docx')

doc.save(word_file_path)

print(f'已将字幕文件保存为 Word 文档: {word_file_path}')

注意：此脚本假设所有的 SRT 文件都使用 UTF-8 编码。如果你的 SRT 文件使用其他编码，你可能需要修改 open() 函数中的 encoding 参数。此外，脚本假设 SRT 文件的时间戳和文本之间没有额外的空行。如果有额外的空行，你可能需要修改或添加正则表达式来处理它们。最后，这个脚本会直接修改你的文件系统，因此在运行之前请确保你已经备份了原始数据，或者在一个安全的环境下运行这个脚本。在运行这个脚本之前，请确保你的Python环境有足够的权限来读取和写入文件。以上代码未进行错误处理，实际使用时应考虑加入错误处理机制。

转换后的word文档如下：

零代码编程：用ChatGPT将SRT字幕文件批量转为Word文本文档_Word

标签：文件,00,文本文档,Word,SRT,字幕,文档,file,path
From： https://blog.51cto.com/fancyar/8491236

wps-word打印某几页
打印第二节第一页如果文章只有1节，要打印1，3页，以及5-18页，那么在页码范围处输入1，3，5-18页即可。如果你的文档大于2节，word中用s代表节（section），用p代表页（page）。若需要打印第2节的第3页和第3节第2页到4页，页码范围：p3s2，p2s3-p4s3。......
Dynamic CRM 组织服务对Word模版生成PDF文件
目的：解决用户手动下载word模版再上传问题解决方案：组织服务直接对指定的word模版文件生成PDF文件流1.word模版必须上传到系统文档模版后：设置->模版->文档模版 2.组织调用“ExportpdfDocument”，返回PDF文件字节信息。另外实体信息需要把“注释”勾选上，否则执行代码会报错，如下：......
mysql数据库ERROR 1193 (HY000): Unknown system variable 'validate_password_policy
一、概况平时我们安装完数据库，需要进行对应的密码或者密码策略修改，此时需要mysql的密码验证插件。MySQL可能没有这个插件，就需要进行相应的处理。二、问题描述mysql>setglobalvalidate_password_policy=0;ERROR1193(HY000):Unknownsystemvariable'validate_passw......
Tinymce富文本添加word导入的支持
在前端使用导入Word文档并自动解析成html再插入到tinymce编辑器中，可以使用mammoth.js识别Word内容转换为Html并set到编辑器中，使用mammoth只可解析.docx格式的Word，目前的mammoth不支持.doc格式，后续升级也许会加上解析doc的功能。mammoth.js转换word为html丢失了好多样式，因此不推荐......
盘点一个Python自动化办公需求之word文档图片自动插入
大家好，我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Python自动化办公的问题，一起来看看吧。下面还给出了他的代码。二、实现过程这里【瑜亮老师】给了一个思路：如下所示：顺着这个思路，粉丝写了一份代码，但是在循环部分好像还存在些问题。后来【瑜亮老师......
# yyds干货盘点 # 盘点一个Python自动化办公需求之word文档图片自动插入
大家好，我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Python自动化办公的问题，一起来看看吧。下面还给出了他的代码。三、总结大家好，我是皮皮。这篇文章主要盘点了一个Python自动化办公之word文档图片自动插入问题，文中针对该问题，给出了具体的解析和代码实现，帮助......
C#Winform使用NPOI获取word中的数据
......
word的实用操作技巧
1、基本使用操作（1）文本删除：退格键backspace:删除光标以左的内容删除键delete：删除光标以右的内容直接输入会增加字符，按insert键，会切换成改写模式，新字符代替旧字符，总字符数量不会变常用的在word中使用复制粘贴后，难免有些存......
C#操作Microsoft.Office.Interop.Word类库完整例子
使用Microsoft.Office.Interop.Word类库操作wor文档一.准备工作首先在工厂中，引用【Microsoft.Office.Interop.Word】，本地安装了world，就能找到这个类库，如下图。Form1系统自动生成的Form1的界面很简单，就一个按钮二4个完整实例4个实例，自测过的，都可用，适用很多种情况操作wor......
WPS word制作不同样式水平线的快捷方法
shift键+~键插入三个【~】符号，然后按下键盘上的回车键，之后就会显示出一条波浪线。输入三个【=】符号，之后再按下键盘上的enter键，一条粗的直线。输入三个【*】符号，并且用同样的操作方法，按下回车键，就会得到一个小黑点的水平线线条。输入三个【---】符号，按下回车键，得到一条细直线......

零代码编程：用ChatGPT将SRT字幕文件批量转为Word文本文档

相关文章

赞助商

阅读排行