在Python中,可以使用html2text库将HTML内容转换成纯文本,保留一定的格式。首先需要安装这个库:
pip install html2text
然后使用它的html2text函数将HTML转换为Markdown格式的文本:
import html2text
# 示例HTML内容
html_content = """
<h1>标题</h1>
<p>这是一个段落。</p>
<ul>
<li>列表项一</li>
<li>列表项二</li>
</ul>
"""
# 创建html2text对象并转换HTML
text_maker = html2text.HTML2Text()
text_maker.ignore_links = True
markdown_text = text_maker.handle(html_content)
print(markdown_text)
这段代码会输出:
# 标题
这是一个段落。
* 列表项一
* 列表项二
请注意,html2text库不能完全还原HTML中的所有标签和样式,它会根据标签转换成相应的Markdown格式文本。
标签:HTML,python,text,html2text,html,成带,格式,文本 From: https://www.cnblogs.com/daizichuan/p/18088854