首页 > 其他分享 >获取网页的markdown

获取网页的markdown

时间:2024-10-08 11:22:02浏览次数:9  
标签:fp markdown 网页 format url 获取 html original

# 获取网页源码
import re

import html2text
import requests
def preprocess_html(html):
    # 删除没有 src 属性的 img 标签
    processed_html = re.sub(r'<img(?![^>]*\ssrc=)[^>]*>', '', html)
    return processed_html
page_url = 'https://www.ysxiao.cn/c/202212/57443.html'
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36'
}
def requests_page(url):
    fp = requests.get(url=url, headers=headers, timeout=10)
    fp.encoding = 'utf-8'
    return fp.text
fp = requests_page(page_url)
if isinstance(fp, bytes):
    original_format = fp.decode('utf-8')
else:
    original_format = fp
original_format = preprocess_html(original_format)
markdown = html2text.html2text(original_format)
print(markdown)

  

标签:fp,markdown,网页,format,url,获取,html,original
From: https://www.cnblogs.com/wolvies/p/18451333

相关文章

  • 优化网页抓取:轻松提升抓取效率的小妙招
    今天来聊一个实用的话题——如何优化网页抓取。无论你是数据科学家、爬虫开发者,还是对网页数据感兴趣的普通网友,相信这篇文章都能帮到你。一、明确目标,规划先行在开始抓取网页之前,最重要的一步就是明确你的抓取目标。你想抓取哪些网站的数据?需要哪些字段?抓取频率是多少?这些问题都得......
  • 如果网页出现乱码我们一般使用什么来解决
    解决网页乱码问题的一般方法包括以下几个步骤:检查和统一字符编码:确认网页的实际内容编码(如UTF-8、GBK等)。统一网页、数据库和应用程序中的字符编码。设置HTTP响应头:确保服务器返回的 Content-Type 响应头包含正确的字符集,例如 Content-Type:text/html;charse......
  • 怎样保存网页内容,如何保存网页全部内容
    保存网页内容可以根据不同的需求和场景采用不同的方法。以下是几种常见的保存网页内容的方法:浏览器自带功能保存为完整网页:大多数现代浏览器都提供了直接保存网页的功能。在浏览器菜单中选择“文件”->“另存为”,可以选择保存为“完整网页”,这样会将网页的所有资源(如图片、CS......
  • [Markdown] Markdown 及文档格式转换
    1概述:MarkdownMarkdown的诞生什么是Markdown?Markdown的诞生初衷Markdown是一种用于编写结构化文档的纯文本格式,基于在电子邮件和usenet帖子中指示格式的约定。它由JohnGruber开发(在AaronSwartz的帮助下),并于2004年以语法描述和用于将Markdown转换为......
  • three.js 鼠标点击获取模型对象
    three.js 创建模型后,想要实现点击模型获取模型对象触发相应事件。可以使用它提供的APITHREE.Raycaster()https://threejs.org/docs/index.html?q=Raycaster#api/en/core/Raycaster//监听点击事件window.addEventListener('click',(event)=>{event.preventDefault......
  • 网站证书错误打不开网页怎么办
    遇到网站证书错误导致网页无法打开的情况,可以尝试以下几个步骤来解决:清除浏览器缓存和Cookies清除浏览器中的缓存数据和Cookies可能会帮助解决问题。更换浏览器尝试使用不同的浏览器访问该网站,有时候问题可能是浏览器特定的。检查日期和时间设置确保您的设备日期......
  • Markdown学习
    Markdown学习标题#+空格+标题最多为6级标题字体Hello,world!(粗体):文字两边各加两个*Hello,world!(斜体):文字两边各加一个*Hello,world!(斜体+粗体):文字两边各加三个*Hello,world!(删除线):文字两边各加两个~引用信念为舟,坚持为帆,方能远航至梦想的彼岸。引用句子:>+句子分割线......
  • 5、在设备树中指定中断——在代码中获取中断
    1设备树里中断节点的语法参考文档:内核Documentation\devicetree\bindings\interrupt-controller\interrupts.txt设备树里的中断控制器中断的硬件框图如下: 在硬件上,“中断控制器”只有GIC这一个,但是我们在软件上也可以把上图中的“GPIO”称为“中断控制器”。很多芯片有多......
  • Markdown语法
    Markdown学习一级标题:#+空格+标题名称二级标题二级标题:##+空格+标题名称三级标题三级标题:###+空格+标题名称四级标题四级标题:####+空格+标题名称五级标题五级标题:#####+空格+标题名称六级标题六级标题:######+空格+标题名称字体粗体字......
  • 网页电话怎么修改
    网页电话通常是指在网页上显示的一个电话号码链接,用户点击后可以直接拨打电话。如果你想要修改网页上的电话号码,可以按照以下步骤操作:找到电话号码所在的HTML代码:在网页源代码中找到包含电话号码的部分。电话号码通常是用<a>标签包裹,并且具有tel:协议的链接。修改电话号码:......