获取网页的markdown

时间：2024-10-08 11:22:02浏览次数：14

标签：fp markdown 网页 format url 获取 html original

# 获取网页源码
import re

import html2text
import requests
def preprocess_html(html):
    # 删除没有 src 属性的 img 标签
    processed_html = re.sub(r'<img(?![^>]*\ssrc=)[^>]*>', '', html)
    return processed_html
page_url = 'https://www.ysxiao.cn/c/202212/57443.html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}
def requests_page(url):
    fp = requests.get(url=url, headers=headers, timeout=10)
    fp.encoding = 'utf-8'
    return fp.text
fp = requests_page(page_url)
if isinstance(fp, bytes):
    original_format = fp.decode('utf-8')
else:
    original_format = fp
original_format = preprocess_html(original_format)
markdown = html2text.html2text(original_format)
print(markdown)

标签：fp,markdown,网页,format,url,获取,html,original
From： https://www.cnblogs.com/wolvies/p/18451333

优化网页抓取：轻松提升抓取效率的小妙招
今天来聊一个实用的话题——如何优化网页抓取。无论你是数据科学家、爬虫开发者，还是对网页数据感兴趣的普通网友，相信这篇文章都能帮到你。一、明确目标，规划先行在开始抓取网页之前，最重要的一步就是明确你的抓取目标。你想抓取哪些网站的数据？需要哪些字段？抓取频率是多少？这些问题都得......
three.js 鼠标点击获取模型对象
three.js 创建模型后，想要实现点击模型获取模型对象触发相应事件。可以使用它提供的APITHREE.Raycaster()https://threejs.org/docs/index.html?q=Raycaster#api/en/core/Raycaster//监听点击事件window.addEventListener('click',(event)=>{event.preventDefault......
5、在设备树中指定中断——在代码中获取中断
1设备树里中断节点的语法参考文档：内核Documentation\devicetree\bindings\interrupt-controller\interrupts.txt设备树里的中断控制器中断的硬件框图如下：在硬件上，“中断控制器”只有GIC这一个，但是我们在软件上也可以把上图中的“GPIO”称为“中断控制器”。很多芯片有多......
Markdown语法
Markdown学习一级标题：#+空格+标题名称二级标题二级标题：##+空格+标题名称三级标题三级标题：###+空格+标题名称四级标题四级标题：####+空格+标题名称五级标题五级标题：#####+空格+标题名称六级标题六级标题：######+空格+标题名称字体粗体字......

获取网页的markdown

相关文章

赞助商

阅读排行