首页 > 其他分享 >将Word(docx格式)批量转为Markdown格式

将Word(docx格式)批量转为Markdown格式

时间:2022-10-03 22:55:59浏览次数:69  
标签:md docx Markdown 文件 file path 格式

批量转换格式

首先,利用pandoc先将文件夹内的docx格式文档转为md格式。可以直接在目录下执行下面的powershell命令。

这一步我其实写了python脚本,但不知为何一直无法正确执行,可能是目录格式的原因,改天再琢磨一下。PS其实也蛮简单的

Get-ChildItem -Recurse -Filter *.docx | ForEach-Object {
  pandoc -o ($_.FullName + '.md') $_.FullName
}

将目录下的文档合并为一个Markdown文件

第二步是调用下面的python命令,将目录下的文档合并为一个md文件。合并完成后,可以在文件夹内找到一个名为“合并”的md文件

import os

# 将合并后的Markdown文件保存至目录下
def saveContent(data,path):
    with open(path+"合并.md","a+",encoding='utf-8') as targetFile:
        targetFile.writelines(data)
        print("文件已保存")

def getFileList(fileList):
    # md待合并分散文件目录
    all_md_files = []
    # 获取目录下的md文件, 并保存
    for file_name in fileList:
        try:
            if file_name[-3:] == ".md":
                all_md_files.append(file_name)
        except Exception as e:
            print(e)
    return all_md_files

# 在md文件中遍历合并项
def combineFiles(mdFileList,path):
    for md in mdFileList:
        md_file=path +'/'+md
        print("已完成"+md+"遍历")
        with open(md_file,'r',encoding='utf-8') as file:
            data=file.read()+"\n"
            saveContent(data,path)

def start():
    path="D:/“中国这十年”专题新闻发布会实录汇总/"
    # 检索目录下所有文件
    allFilesName=os.listdir(path)
    # 检索全部文件中的Markdown文件
    mdFilesName=getFileList(allFilesName)
    # 对Markdown文件执行合并操作
    combineFiles(mdFilesName,path)
    print("处理完成")

start()

标签:md,docx,Markdown,文件,file,path,格式
From: https://www.cnblogs.com/misaka10212/p/16751506.html

相关文章

  • markDown的使用
    java标题:二级标题三级标题 字体helloworld!helloworld!helloworld!helloworld!helloworld! 引用小颖子分割线图片这种格式图片的路径可以是......
  • Excel日期数据格式不统一如何处理?
    Excel日期筛选格式混乱,Excel导入系统也报错,原因是格式错乱导致的,具体处理步骤如下:如何转为下图这种?操作步骤,如下 1、先选中如图所示整列 2、右键,设置单元格格式;自定义为yy......
  • markdown图标
    ......
  • MarkDown学习笔记
    MarkDown学习标题:一级标题#一级标题二级标题##二级标题三级标题 ###三级标题字体 ##字体helloword **helloword**helloword *helloword*helloword......
  • idea Mac格式化代码快捷键
    ideaMac格式化代码快捷键:Command+option+L优秀不够,你是否无可替代软件测试交流QQ群:721256703,期待你的加入!!欢迎关注我的微信公众号:软件测试君......
  • 详解CAN总线:CAN总线报文格式—错误帧
    目录​​1、错误帧格式​​​​2、主动错误标志和被动错误标志​​​​3、错误帧种类​​CAN总线上传输的信息称为报文,当总线空闲时任何连接的单元都可以开始发送新的报文。......
  • markdown preview插件安装后无法同步显示网页
    安装了Plug用:checkhealth检查,说ruby有问题,按照提示,安装了编译环境,gcc和g++的都需要安装ruby没有问题了猜想:现在checkhealth只有python3那边说需要设置一个pythonhost......
  • 第五篇: GO-fmt格式“占位符”,iota
    golangfmt格式“占位符”动物园园长熊熊酱·2017-07-0609:07:13·1442次点击·预计阅读时间2分钟·8分钟之前开始浏览这是一个创建于2017-07-0609:07:13......
  • HTTP——响应数据格式
    HTTP响应数据格式   状态码分类:  常见的状态响应码:    ......
  • markdown语法
    标题通过#加空格加标题名字来创建标题,同理##表示二级标题,###表示三级标题字体星号内容星号表示斜体,比如内容星号星号内容星号星号表示加粗,比如内容波浪号波浪号内容波......