首页 > 其他分享 >将HTML网页转换为Markdown格式的工具及方法

将HTML网页转换为Markdown格式的工具及方法

时间:2023-06-17 21:22:05浏览次数:41  
标签:Markdown 网页 HTML pandoc markdown html 转换 工具 html2md

保存博客文章

早期在markdown语法还没有推出来之前,编写blog是在网页上或olw写的,也就是文章是保存在对方的主机上。

最近计划把我在博客园的一些早期html文章转换成markdown的文件,因为md更好地保存,经过实践之后,我保留这两个工具。

PS. 也尝试过python的脚本版本,但运行时会有报错,就省心地选用了相对稳定的工具。

我尝试的几种脚本 放在 html2md,本文提到的这两个工具是我推荐使用的。


最近更新

本文章写于2020年8月,但是最近2023年6月,我发现了一个更加好用的浏览器插件,支持把网页内容下载保存为markdown文件

edge扩展地址:MarkDownload - Markdown Web Clipper - Microsoft Edge Addons

那么现在我就直接使用edge的扩展,更加方便了。


html2md

地址:https://github.com/TruthHun/html2md

需要下载一个exe,在windows上使用,批量转换脚本如下:

@echo on
for /r %%i in (*.html) do html2md.exe %%~pi%%~ni.html %%~pi%%~ni.md
pause

这个工具转换出来的html更加简洁,我目前是使用这个脚本进行转换


pandoc

pandoc文档:https://pandoc.org/installing.html

使用方法:

安装 pandoc,并配置环境变量,在dos下使用下列语句转换格式。

pandoc text.html -o text.markdown

pandoc转换出来的html保留了原来的很多内容,比如一些特定的div #,比如这样子的

::: {.content}
::: {#outer_postBodyPS}
::: {#postBodyPS}


标签:Markdown,网页,HTML,pandoc,markdown,html,转换,工具,html2md
From: https://www.cnblogs.com/zhaoqingqing/p/17488273.html

相关文章

  • 在线免费chatgpt网页版-支持gpt4
    为了吸引更多的用户体验最先进的自然语言处理技术,我们推出了在线免费ChatGPT。这是一个基于OpenAI训练的大型语言模型,它可以提供智能响应、自然对话和语音识别等功能。不仅如此,我们还提供了完全免费的使用权限,任何人都可以随时进行使用。作为一款智能聊天机器人,ChatGPT具有很多......
  • 如何翻译 Markdown 文件?-2-几种商业及开源解决方案介绍
    背景近期在搭建英文博客-<e-whisper.com>,需要对现有的所有中文Markdown翻译为英文。需求如下:将Markdown文件从中文(zh-CN)翻译为英文(en)翻译后要保留Markdown的完整格式部分Markdownblock不需要翻译,如:front-matter、代码块等但是实际使用中,试了好几款翻译(......
  • 如何翻译 Markdown 文件?-2-几种商业及开源解决方案介绍
    背景近期在搭建英文博客-<e-whisper.com>,需要对现有的所有中文Markdown翻译为英文。需求如下:将Markdown文件从中文(zh-CN)翻译为英文(en)翻译后要保留Markdown的完整格式部分Markdownblock不需要翻译,如:front-matter、代码块等但是实际使用中,试了好几款翻译......
  • HTML form表单上传图片
    <formaction="/"method="post"enctype="multipart/form-data"><div><inputclass="layui-btn"type="file"multiple="multiple"accept="image/*"name="image&q......
  • HTML
    HTML初识HTMLHTML(HyperTextMarkupLanguage超文本标记语言)HTML5优势世界知名历览器厂商对HTML5的支持市场需求跨平台W3C标准WorldWideWebConsortium(万维网联盟)W3C标准包括结构化标准语言(HTML,XML)表现标准语言(CSS)行为标准(DOM,ECMAScript0)网页......
  • HTML & CSS 学习总结
    @目录HTMLHTML标签HTML属性HTML表单CSSCSS选择器CSS声明CSS盒模型HTMLHTML(超文本标记语言)是一种用于创建网页的标记语言。它允许我们使用标签来描述网页的结构和内容。简单示例(如何使用标签来创建一个简单的网页):<!DOCTYPEhtml><html><head><title>我的......
  • .net core使用Html模板转PDF文件并下载的业务类封装
    前言:我这里文件下载的模板选型优先考虑html模板,上手容易,前后端通用,有了模板后就需要有转换了,html转PDF采用第三方包:SelectPdf,下面是代码核心类: 1-PDFService:usingMicrosoft.AspNetCore.Hosting;usingSelectPdf;namespaceMeShop.Domain.PDF{///<summary......
  • Html中空格的区别和使用
    1.半角不断行空格(&nbsp;)作用:用于在HTML中插入一个空格。相同点:与普通空格相比,该空格不会被浏览器忽略或合并。注意事项:这个空格占据的宽度受字体影响很明显。在中文布局中可能会出现上下两行对齐差生偏差的问题。2.半角空格(&ensp;)作用:用于在HTML中插入一个半角空格。相同点:与"......
  • 视频直播源码,html2canvas 前端保存页面为图片
    视频直播源码,html2canvas前端保存页面为图片转换方法如下: /***将页面指定节点内容转为图片*1.拿到想要转换为图片的内容节点DOM;*2.转换,拿到转换后的canvas*3.转换为图片*///生成局部图片GenerateImg(){ letelement=this.$refs.canvasImgObj; //console.warn(el......
  • html页面解析
    getElementsByTagName和getElementsByClassName这两个方法查找多个dom元素,返回的是htmlcollection类型,是伪数组而不是真数组,故不能使用数组的方法。我们可以使用数组原型配合slice方法,利用call,apply,bind方法将伪数组转为真数组。varx=document.getElementById("main......