首页 > 编程语言 >python 使用BeautifulSoup的 html5lib爬取网站内容

python 使用BeautifulSoup的 html5lib爬取网站内容

时间:2023-08-08 11:37:27浏览次数:48  
标签:python BeautifulSoup html5lib 爬取 url html new response

1、使用BeautifulSoup的 'html5lib' 能像网页工具一样渲染内容。 缺点:运行比较慢 2、安装包

pip install html5lib
3、直接获取网页的所有有效内容
import requests #数据请求模块 第三方模块 pip install requests
from bs4 import BeautifulSoup
heads = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36'
}
def get_response(html_url):
    response = requests.get(url=html_url, headers=heads)
    return response

url= 'https://www.python100.com/html/1390.html'
response_new = get_response(html_url=url)
response_new.encoding = 'UTF-8'
#soup = BeautifulSoup(response_new.text, 'html.parser')
soup_new = BeautifulSoup(response_new.text, 'html5lib')
print(soup_new.text)
4、结果展示

 

  

  

标签:python,BeautifulSoup,html5lib,爬取,url,html,new,response
From: https://www.cnblogs.com/wukc/p/17613691.html

相关文章

  • 100到python练习题(三)
    编写一个程序,找出一个列表中的最小的两个数。num_list=[10,5,8,2,15,3]sorted_list=sorted(num_list)min_numbers=sorted_list[:2]print("列表中的最小的两个数为:",min_numbers)编写一个程序,计算斐波那契数列的第n项。deffibonacci(n):ifn<=0:......
  • Python 实现解数独 + 数独题 OCR
    说明上班摸鱼的时候无意看到一篇文章:SolvingSudokuwithPoetry'sdependencyresolver,利用Python的依赖解析器来做数独,想起当年自己用MatLab也写过一个做数独的程序,但是需要手动填写数独题目,而且印象里也是非常暴力的算法。因此想要使用更合理的算法来实现解数独,同时尝试......
  • Ubuntu 16.04 安装python3.6正确顺序(解决ssl错误,pip升级)
    0、下载离线python压缩包PythonSourceReleases|Python.org,1、新建root,并进入root权限(sudopasswdroot)(su)2、升级openssl版本wgethttps://www.openssl.org/source/openssl-1.1.0k.tar.gztar-zxvfopenssl-1.1.0k.tar.gzcdopenssl-1.1.0k./configmakeinstall......
  • python工厂模式
    ##py_factory.py#py_learn##CreatedbyZ.Steveon2023/8/810:17.##工厂模式优点:#1.大批量创建对象是,有统一的入口,易于代码维护。#2.当发生修改时,只需要修改工厂类的创建方法即可#3.符合现实世界的模式,即由工厂来制作产品(对象)classPerson:......
  • Python单例模式
    ##py_singleton.py#py_learn##CreatedbyZ.Steveon2023/8/809:45.###查看对象地址demo#classUtility:#pass###u1=Utility()#u2=Utility()###输出发现u1、u2两个对象的地址不一样#print(u1)#print(id(u1))#print(u2)#......
  • 使用Python中从头开始构建决策树算法
    决策树(DecisionTree)是一种常见的机器学习算法,被广泛应用于分类和回归任务中。并且再其之上的随机森林和提升树等算法一直是表格领域的最佳模型,所以本文将介绍理解其数学概念,并在Python中动手实现,这可以作为了解这类算法的基础知识。在深入研究代码之前,我们先要了解支撑决策树的......
  • python闭包
    ##py_decorator.py#py_learn##CreatedbyZ.Steveon2023/8/808:34.##装饰器:本质闭包。在不破坏原目标函数原来代码和功能的前提下,为目标函数增加新功能。#定义一个闭包函数,在闭包函数内部执行目标函数,并完成功能添加#1.装饰器的一般写法defdecor......
  • 用Python操作PPT的办公自动化教程
    PPT通过其精美的可视化技巧以及良好的演示效果,成为了职场人士的必备技能。PPT的设计是一门大学问,无论是设计技巧,还是操作方法,都衍生出了专门的课程。主要介绍Python操作PPT的技巧,编程的优势在于处理速度,对于高大上的PPT设计,还是需要"以人为本,所以该模块的使用场景主要是PPT基本元......
  • python监控强势票日志
    c:\python38\python.exeF:/GZH/demo/量化/easyquant/utils/ts/A实时监控近10天最强票+昨日涨停票.pyglobal_config_path:c:\python38\lib\site-packages\easytrader/config/global.json++++++++++++++++(近10日最强+昨日涨停票)+++++++++++++++++++++++++++++++:selectdist......
  • Python实现输入三个整数x,y,z,请把这三个数由小到大输出;
    num1=input('请输入第一个数,x:')num2=input('请输入第二个数,y:')num3=input('请输入第三个数,z:')ifnum1>num2:#if语句判断num1,num2=num2,num1ifnum1>num3:num1,num3=num3,num1ifnum2>num3:num2,num3=num3,num2p......