首页 > 其他分享 >爬虫_056_urllib请求对象的定制

爬虫_056_urllib请求对象的定制

时间:2024-02-12 19:33:23浏览次数:23  
标签:传参 请求 url 爬虫 urllib 对象 定制 UA 056

目录

url组成

  • 协议

    • http
    • https
  • 主机

    • www.baidu.com
  • 端口号

    • http 80
    • https 443
    • mysql 3306
    • oracle 1521
    • redis 6379
    • mongodb 27017
  • 路径

  • 参数

    • ?号
  • 锚点

    • #号

第一个反爬 - UA校验

image-20240212191051623

制造一个UA

从浏览器的检查-网络路径中找到一个UA,或者百度UA大全找到一个UA。

将UA放到header字典当中。

image-20240212191450318

因为urlopen只能够接收string或者Request object,所以我们要进行请求对象的定制。

请求对象的定制

image-20240212191129451

image-20240212191657058

要注意的是,我们在进行请求对象定制的时候,传参应该是url=urlheaders=headers这种。

要不然会报错的。具体的原因可以看下面的源码,这个传参是有顺序的。

我们是要使用关键字传参,不能够使用顺序传参的。

image-20240212191955538


image-20240212192039732

标签:传参,请求,url,爬虫,urllib,对象,定制,UA,056
From: https://www.cnblogs.com/gnuzsx/p/18014061

相关文章

  • 爬虫_055_urllib下载
    目录下载网页下载图片下载视频总结下载网页下载图片下载视频总结真的,没有什么含金量,就是找到资源的地址,然后使用urllib.request.urlretrieve()就可以了。......
  • 爬虫_054_urllib的1个类型和6个方法
    目录1个类型read()方法readline()方法readlines()方法getcode()方法geturl()方法getheaders()方法1个类型response的类型是HTTPResponseread()方法read():一个字节一个字节去读取,直到读完。read(5):读取5个字节readline()方法readline()方法就是读取一行。readline......
  • 爬虫_053_urllib的基本使用
    目录urllib简介基本代码使用urllib简介urllib是python自带的,不需要我们安装。基本代码使用importurllib.requesturl='http://www.baidu.com'response=urllib.request.urlopen(url)#read()方法返回字节形式的二进制数据b'xxx',需要解码成字符串content=respons......
  • 爬虫_051_页面结构介绍
    目录页面结构的介绍看一下html结构评价页面结构的介绍我们的课题,我们不是要页面当中所有的数据,而是要页面当中的一部分数据。如果看HTML,就是上面的a标签当中的文字。所以我们需要了解页面的结构怎么去写。看一下html结构table标签ul标签ol标签a标签主要就是介绍了......
  • 爬虫_052_爬虫相关概念介绍
    目录爬虫的定义爬虫就是一个程序,程序运行完成之后,就能够拿到你想要获取的数据。爬虫的奥义就是程序模拟浏览器。爬虫的核心爬虫的难点在于:解析数据。爬虫的用途社交类:陌陌一开始爬微博数据当假的用户。电商类:电商网站互相监控,互相降价。出行类:智行、飞......
  • Python通过Lxml库解析网络爬虫抓取到的html
    ​Lxml是基于libxml2解析库的Python封装。libxml2是使用C语言编写的,解析速度很好,不过安装起来稍微有点复杂。安装说明可以参考(http://Lxml.de/installation.html),在CentOS7上中文安装说明(http://www.cjavapy.com/article/64/),使用lxml库来解析网络爬虫抓取到的HTML是一种非常......
  • 01-爬虫概述
    1.什么是爬虫?用代码代替人去模拟浏览器或手机去执行执行某些操作。例如:自动登录钉钉,定时打卡去91自动下载图片/视频去京东抢茅台3.分析&模拟分析一个网址,用requests请求就可以实现。3.1请求分析基于谷歌浏览器去分析。3.2模拟请求基于requests模块发送请求。pip......
  • 第 7章 Python 爬虫框架 Scrapy(上)
    第7章Python爬虫框架Scrapy(上)编写爬虫可以看成行军打仗,基本的角色有两个:士兵和将军,士兵冲锋陷阵,而将军更多地是调兵遣将。框架就像一个将军,里面包含了爬虫的全部流程、异常处理和任务调度等。除了可以让我们少写一些烦琐的代码,学习框架还可以学到编程思想和提升编程能力。Pyt......
  • Atcoder Grand Contest 056 B - Range Argmax
    因为一组\(x\)可能对应多组\(p\),考虑怎么让决策唯一化。我们从大到小依次钦定每个值的位置,即倒着遍历\(i=n,n-1,\cdots,1\),找到最左端的位置\(v\)满足,对于现在还活着的所有区间\(j\)满足\(l_j\lev\ler_j\),都有\(x_j=v\),令\(p_j=i\),然后删去所有包含\(i\)的区间。......
  • 第 6章 Python 应对反爬虫策略
    第6章Python应对反爬虫策略爬取一个网站的基本步骤(1)分析请求:URL规则、请求头规则、请求参数规则。(2)模拟请求:通过Requests库或urllib库来模拟请求。(3)解析数据:获取请求返回的结果,利用lxml、BeautifulSoup或正则表达式提取需要的节点数据。(4)保存数据:把解析的数据持......