首页 > 编程语言 >Python爬虫+第三方库requests获取网页

Python爬虫+第三方库requests获取网页

时间:2024-04-09 20:55:40浏览次数:29  
标签:www 网页 Python 爬虫 url https requests com

安装库

使用国内镜像安装第三方库requests。

pip install requests -i https://mirrors.aliyun.com/pypi/simple/

 

测试库是否可用

import requests

response = requests.get("http://www.baidu.com")

print(response.text)

 

模拟浏览器方式访问网页

问题:更多网站只允许客户通过浏览器访问网页,拒绝客户使用程序访问网页。可以通过 带头部参数的网页请求,模拟浏览器访问网页。

import requests

myHeaders ={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:124.0) Gecko/20100101 Firefox/124.0' }

url ="https://www.zhihu.com"

r = requests.get(url,headers = myHeaders)

r.encoding = 'utf-8'

print(r.text)

 

如何获取 User-Agent 的值,参照下图:

 

模拟浏览器方式抓取网页并保存为文本文件

import requests

url_0 ="http://www.baidu.com"

url_1 ="https://www.njtech.edu.cn/" #南京工业大学

url_2 ="https://zgdypf.zgdypw.cn/" #中国电影票房

url_3 ="https://www.cnur.com/" #中国大学排名

url_4 ="https://www.wenxue88.com/index.html" #文学名著

url_5 ="https://www.duocaiwu.com/" #文学名著  多彩屋文学

 

#response = requests.get(url_3) #爬取指定网址网页

 

myHeaders ={ 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:124.0) Gecko/20100101 Firefox/124.0' }

response = requests.get(url_5,headers = myHeaders) #爬取指定网址网页

 

response.encoding ="utf-8" #指定编码方式,解决中文显示为乱码问题。

print(response.text)# 打印网页文本文件

 

with open("test.html","w",encoding="utf-8") as file: 

    file.write(response.text)# 保存为html文件

 

标签:www,网页,Python,爬虫,url,https,requests,com
From: https://www.cnblogs.com/excellentHellen/p/18124792

相关文章

  • 爬虫必备User-Agent列表
    user_agent=["Mozilla/5.0(Macintosh;U;IntelMacOSX10_6_8;en-us)AppleWebKit/534.50(KHTML,likeGecko)Version/5.1Safari/534.50","Mozilla/5.0(Windows;U;WindowsNT6.1;en-us)AppleWebKit/534.50(KHTML,likeGec......
  • Python教程-if条件判断
    Python教程-if条件判断作为软件开发者,我们总是努力编写干净、简洁、高效的代码。Python是一种解释型、高级、通用的编程语言,被全世界的程序员广泛使用。它以其简单性和可读性著称,使其成为初学者和有经验的程序员的最佳选择。用Python编程的一个最基本的方面是使用条件。P......
  • python毕业设计项目源码
    收集整理了20个常见的python系统设计源码。可以用于课程作业或者毕业设计。所有系统都带源码和文档。感谢。1.基于python的租房网站-房屋出租租赁系统该项目是基于python/django/vue开发的房屋租赁系统/租房平台,作为学生的课程作业作品。内容制作非常精良。源码下载:https://......
  • 学python的第十一天
    常用内置模块 1,数字计算模块math#在math模块中包含数学相关的函数等,例如指数,对数,平方根和三角函数等math模块中常用函数:ceil(x),返回大于或等于x的最小整数floor(x),返回小于或等于x的最大整数sqrt(x),返回x的平方根pow(x),返回x的y次幂的值math,log(x[,bas......
  • 交通规划四阶段法:基于 Python 的交通分布预测算法复现 - 附完整代码链接
    目录交通规划四阶段法:基于Python的交通分布预测算法复现-附完整代码链接我只是想使用这些代码下载代码文件代码的使用方法合作部分代码内容的展示交通规划四阶段法:基于Python的交通分布预测算法复现-附完整代码链接我这个学期有交通规划的课程。·交通规划四阶段法中第......
  • CentOs8 安装python3.11.9
    1、在opt目录下新建一个Python文件目录存放cd/optmkdirPython>如果显示权限不够需要用su命令进入管理员模式下载python3.11.9目前最新版本wgethttps://mirrors.huaweicloud.com/python/3.11.9/Python-3.11.9.tgz解压tgz文件tar-zxvfPython-3.11.9.tgz>个人倾向于用-......
  • Python - opencv-python 获取视频尺寸
    参考地址:https://geek-docs.com/python/python-ask-answer/683_python_get_video_dimension_in_pythonopencv.htmlhttps://blog.csdn.net/m0_61787307/article/details/129654826 1.安装(试了三台服务器,有一台服务器安装过程会很慢,卡在一个地方一直不动,目前不清楚是......
  • ETL中Python组件的运用
    Python是一种高级、通用、解释型编程语言,以简洁、易读、易学的语法而闻名,被广泛应用于Web开发、数据科学、人工智能、自动化脚本等领域。 python的特点包含易读易学:Python的语法设计简洁清晰,类似英语,使得代码易读易懂,降低了学习门槛。动态类型:Python是一种动态类型语言,不需......
  • 了解python中的if __name__ == '__main__':
    在Python中,if__name__=='__main__': 是一个常见的结构,用于确定一个Python脚本是作为独立的程序运行还是被导入为模块。__name__ 是一个内置变量,它表示当前模块的名字。当一个Python文件(例如 script.py)被直接运行时,__name__ 的值会被设置为 '__main__'。当这个P......
  • C/C++与Python:各自的优势与前景展望
    在讨论C/C++和Python这两种编程语言的前景时,我们必须认识到每种语言都有其独特的定位和应用场景,并不存在绝对意义上的“谁更有前景”。它们分别在不同的领域发挥着重要作用,而且在未来的技术发展过程中,二者都将继续保持其不可替代的地位。C/C++:底层与性能优势C和C++是两种历史......