首页 > 编程语言 >Python将HTML转MD

Python将HTML转MD

时间:2024-08-31 21:38:18浏览次数:10  
标签:MD output Python filename HTML path input folder

1.下载hteml2text模块

2.代码

import os
import html2text

input_folder = "C:\\Users\\jude\\Desktop\\res\\cnblogs_blog_judes.20240831122513\\judes"  # 输入文件夹路径
output_folder = "C:\\Users\\jude\\Desktop\\res\\cnblogs_blog_judes.20240831122513\\new"  # 输出文件夹路径

# 创建 html2text 的实例
converter = html2text.HTML2Text()
converter.body_width = 0  # 不进行换行

# 遍历文件夹中的所有文件
for filename in os.listdir(input_folder):
    if filename.endswith(".html"):
        input_path = os.path.join(input_folder, filename)
        output_path = os.path.join(output_folder, filename.replace(".html", ".md"))

        # 读取 HTML 文件内容
        with open(input_path, "r", encoding="utf-8") as f:
            html_content = f.read()

        # 将 HTML 转换为 Markdown
        markdown_content = converter.handle(html_content)

        # 将 Markdown 内容写入输出文件
        with open(output_path, "w", encoding="utf-8") as f:
            f.write(markdown_content)

        print(f"Converted {input_path} to {output_path}")

 

标签:MD,output,Python,filename,HTML,path,input,folder
From: https://www.cnblogs.com/judes/p/18390797

相关文章

  • HTML和HTML5有什么区别
    HTML(超文本标记语言)是构建网页的基础,而HTML5是HTML的最新版本。虽然HTML和HTML5在许多方面相似,但HTML5引入了许多新的特性和改进,使得网页开发更加高效和功能丰富。一、HTML概述HTML,即超文本标记语言,是构建网页的标准语言。最初版本的HTML简单地定义了网页的结构和内容,包括文......
  • python+flask计算机毕业设计关于机械电子论坛的网站设计与实现(程序+开题+论文)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着信息技术的飞速发展,机械电子领域作为现代工业的核心支柱之一,其技术更新换代速度日益加快。在这个背景下,行业内的专业技术人员、学者及......
  • python+flask计算机毕业设计超市积分管理与分析系统(程序+开题+论文)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着零售行业的快速发展与消费者需求的日益多样化,超市作为传统零售业态的重要组成部分,面临着提升顾客忠诚度、增强市场竞争力的重要挑战。......
  • python+flask计算机毕业设计毕业生闲置物品流通系统(程序+开题+论文)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着高等教育的普及,每年有数以百万计的毕业生走出校园,步入社会。在这一过程中,大量个人物品如书籍、电子产品、生活用品等因不再使用而面临......
  • Python中的元组:解锁数据安全与效率的秘密武器
    引言元组,一种有序的数据集合,它允许我们存储多个项作为一个单一的实体。与列表相比,元组最显著的特点就是其不可变性——一旦创建,就不能修改。这一特性使得元组非常适合用于那些需要固定不变的数据集合场景,如配置信息、日期时间等。此外,由于元组的不可变性,Python能够在内存管理上做......
  • 探秘Python字典:解锁数据管理的艺术
    引言字典(Dictionary)是一种可变容器模型,它可以存储任意类型对象。Python字典使用键-值对(key-valuepair)存储数据,其中键必须是不可变的数据类型如数字、字符串等,而值可以是任何数据类型。这种数据组织方式使得字典非常适合用于快速查找、更新信息,特别是在处理大量数据时,字典的高效性......
  • python+flask计算机毕业设计邯郸学院健康驿站管理系统(程序+开题+论文)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景在全球公共卫生事件频发的背景下,高校作为人群密集的重要场所,其疫情防控工作显得尤为重要。邯郸学院作为一所集教学、科研与社会服务于一体......
  • python+flask计算机毕业设计葛根庙镇乡村服务小程序(程序+开题+论文)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着数字乡村战略的深入实施,如何利用现代信息技术促进乡村治理体系和治理能力现代化,成为当前乡村发展的重要课题。葛根庙镇,作为典型的乡村......
  • python+flask计算机毕业设计基于的流浪猫狗救助领养管理系统(程序+开题+论文)
    本系统(程序+源码+数据库+调试部署+开发环境)带论文文档1万字以上,文末可获取,系统界面在最后面。系统程序文件列表开题报告内容研究背景随着城市化进程的加速,流浪猫狗问题日益凸显,成为城市管理中不可忽视的一环。这些无家可归的小生命不仅面临着生存的挑战,还可能对公共卫生、......
  • python实现椭圆曲线加密算法(ECC)
    目录椭圆曲线加密算法(ECC)简介ECC的数学基础椭圆曲线的定义ECC的基本操作ECC加密和解密流程Python面向对象实现ECC加密和解密代码解释场景应用:安全通信总结椭圆曲线加密算法(ECC)简介椭圆曲线加密算法(EllipticCurveCryptography,ECC)是一种基于椭圆曲线数学结构的......