用python写一个脚本，读取srt文件中的内容，并打印出重复的内容，且将不重复的内容保存到新文件中

时间：2024-07-09 20:41:15浏览次数：21

标签：并打印重复 filename 内容 normalized file seen line

代码：

# 定义一个函数来处理文件
def process_file(src_filename, unique_filename):
    seen = set()
    duplicates = set()
    with open(src_filename, 'r', encoding='utf-8') as file:
        for line in file:
            # 将读取的行转换为小写，以避免大小写差异导致的重复
            normalized_line = line.strip().lower()
            if normalized_line in seen:
                duplicates.add(normalized_line)
            else:
                seen.add(normalized_line)

    # 打印重复的行
    for dup in duplicates:
        print(f"Duplicate: {dup}")

    # 将不重复的行写入新文件
    with open(unique_filename, 'w', encoding='utf-8') as file:
        for line in seen:
            file.write(line + '\n')


# 调用函数，指定源文件和新文件的名称
process_file('zhong.srt', 'unique.srt')

标签：并打印,重复,filename,内容,normalized,file,seen,line
From： https://www.cnblogs.com/jingzaixin/p/18292713

信创学习笔记(一),信创内容思维导图
创作不易只因热爱!!热衷分享，一起成长!“你的鼓励就是我努力付出的动力”用一张图归纳学习信创内容信创内容思维导图......
uni-app使用ucharts地图,自定义Tooltip鼠标悬浮显示内容并且根据@getIndex点击事件获
项目场景：uni-app使用ucharts地图,自定义Tooltip鼠标悬浮显示内容并且根据@getIndex点击事件获取点击的地区下标和地区名例如：问题描述官方给的文档有限，需要自己下载地图json数据然后自己渲染和编写鼠标悬浮显示内容以及获取点击地址名称，官方只给了@getIndex事件获取下......
几行代码，优雅的避免接口重复请求！同事都说好！
背景简介我们日常开发中，经常会遇到点击一个「按钮」或者进行「搜索」时，请求接口的需求。如果我们不做优化，连续点击「按钮」或者进行「搜索」，接口会重复请求。❝首先，这会导致性能浪费！最重要的，如果接口响应比较慢，此时，我们在做其他操作会有一系列bug！❞那么，我们该如何规避这种......
一键发票重复检测，收藏！
在财务管理和税务申报中，确保发票的唯一性和准确性是至关重要的一环。然而，随着企业业务量的增加，发票数量急剧上升，手动检查发票是否重复变得既耗时又容易出错。为了解决这一难题，票格子推出了高效的发票重复检测功能，帮助企业轻松实现发票管理的自动化与精准化。以下是对该功能......
PHP获取目录中的全部内容RecursiveDirectoryIterator
PHP获取目录中的全部内容RecursiveDirectoryIterator码农老张 posted@2021-03-3109:44 这次我们来介绍一个SPL库中的目录迭代器，它的作用其实非常简单，从名字就可以看出来，就是获取指定目录下的所有内容。之前我们要遍历目录获取目录及目录下的所有文件一般是需要进行递归遍......
期刊论文中的结果、讨论、结论三者的区别是什么，他们三个在撰写的时候分别应该包含哪些
问题描述：期刊论文中的结果、讨论、结论三者的区别是什么，他们三个在撰写的时候分别应该包含哪些内容？问题解答：在期刊论文中，结果（Results）、讨论（Discussion）和结论（Conclusion）是非常重要的部分，它们各自有明确的写作目的和内容要求。以下是对这三部分的详细解释及其区别：结果（Results......
期刊论文一般包含引言、方法与材料、实验、结果、讨论、结论六个部分，或者将结果与讨论
问题描述：期刊论文一般包含引言、方法与材料、实验、结果、讨论、结论六个部分，或者将结果与讨论合并就是五个部分。引言、方法与材料、实验、结果、讨论、结论六个部分在撰写时，分别包含哪些内容，这六个部分的区别是什么？问题解答：在撰写期刊论文时，通常包括引言（Introduction）、方......
期刊论文中的结果、结论两者的区别是什么，他们两个在撰写的时候分别应该包含哪些内容？
问题描述：期刊论文中的结果、结论两者的区别是什么，他们两个在撰写的时候分别应该包含哪些内容？问题解答：在期刊论文中，结果（Results）和结论（Conclusion）是两个重要的部分，它们在目的、内容和写作方式上有显著的区别。以下是对它们的详细解释：结果（Results）目的：客观地报告研究的实际发......
IPython自动化脚本：简化重复任务功能
IPython自动化脚本：简化重复任务功能项目概述本项目旨在构建一个使用IPython自动化常见重复任务的脚本。IPython（InteractivePython）是一个交互式的Pythonshell，提供了许多增强功能，非常适合进行自动化任务。项目结构automation_script/├──scripts/│├──data_......
无重复字符的最长子串
题目描述给定一个字符串s,请你找出其中不含有重复字符的最长子串的长度。解法（滑动窗口）使用"滑动窗口"解决问题：left=0,right=0进窗口判断是否出窗口更新结果起初left和right都为0，判断right的字符是否在哈希表中存在，不在的话将其置入，并且继续将right右移；如果该字符已经......

用python写一个脚本，读取srt文件中的内容，并打印出重复的内容，且将不重复的内容保存到新文件中

相关文章

赞助商

阅读排行