首页 > 其他分享 >数据爬取关键字——UA伪装

数据爬取关键字——UA伪装

时间:2024-03-22 18:56:02浏览次数:22  
标签:浏览器 请求 url param 爬取 关键字 参数 UA

 

  

 1 import requests
 2 
 3 #处理路径
 4 
 5 #url ='https://cn.bing.com/search?q=python%E7%88%AC%E5%8F%96%E7%BD%91%E9%A1%B5%E6%95%B0%E6%8D%AE'
 6 #这里复制粘贴过来会变成乱码没关系吧乱码后面的修改一下就行了
 7 
 8 #UA:伪装
 9 #user_agent  门户网站的服务器会检测对应请求的身份载体表示,如果为浏览器,那么代表是正常用户通过浏览器发起的请求
10 
11 #但是如果检测到身份请求并不是有浏览器发起的话就代表不正常,不正常的请求就是爬虫,服务器有可能会进行拒绝访问
12 
13 
14 #所以要进行UA伪装:让爬虫对饮的请求载体身份标识伪装成某一个浏览器
15 
16 
17 headers ={
18     'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36 Edg/122.0.0.0'
19 }
20 
21 url = 'https://cn.bing.com/search?'
22 
23 #处理url携带的参数:将后面q的参数封装到数据字典里面
24 #想要把这个关键字做成动态输入的
25 kw = input('enter a word:')
26 param = {
27     'q':kw
28 } 
29 
30 #数据参数创建成功,这样就可以把问号后面的都删除掉了
31 
32 
33 #发起请求
34 #对指定的URL发起请求,并且请求时携带param参数的,请求过程已经进行处理参数
35 
36 response=requests.get(url=url,params=param,headers=headers)
37 #               路径              参数           请求载体
38 
39 #获取
40 
41 page_text = response.text
42 
43 fileName = kw+'.html'
44 with open(fileName,'w',encoding='utf-8') as fp:
45     fp.write(page_text)
46     
47 print(fileName+'保存成功!!!')

 

标签:浏览器,请求,url,param,爬取,关键字,参数,UA
From: https://www.cnblogs.com/222wan/p/18090258

相关文章

  • Python实战:爬取小红书-采集笔记详情
    上一篇文章发出后,有读者问能不能爬到小红书笔记详情数据,今天他来了。一、先看效果程序输入:在一个txt文件内粘贴要爬取的笔记链接,每行放1个链接。程序输出:输出是一个所有笔记详情数据的excel表格,包含”采集日期、作者、笔记标题、发布日期、IP属地、点赞数、收藏数、......
  • 小说内容爬取
    1、进入主页面http://www.biquw.la/book/140665/ 2、分析找到每个章节的url 把鼠标放在这里会显示出隐藏的链接,可以知道每章节的完整的url:http://www.biquw.la/book/140665/55195587.html 通过拼接得到每个章节的url 3、进入章节的页面找到对应标题  4、进入......
  • Visual Studio 插件 AnAPI++ for VS 2022
    AnmialAPIabbreviationAnAPI++isanautomaticallygeneratedWebAPIprojectthathasencapsulatedJwtOauth2tokenauthentication,SqlSugar,Swagger,Nlog,Crossdomaintechnologies,andsupportsNet6andaboveversionsAnmialAPI缩写AnAPI++是一个自动生成的We......
  • visual studio如何测试http接口?(常用的接口测试工具)
    1.情景展示用了这么多年,一直在用notepad++来记录临时文件内容。现在改用visualstudio后,发现这个前端开发工具是可以调http接口的。为什么要在visualstudio中测试http接口?作为一个后端工程师,与接口打交道可谓是家常便饭,最开始自己使用的是:在chrome上的postman插件,后来chro......
  • JAVA基本数据类型转换、关键字、转义字符
    基本数据类型转换自动类型转换:容量小的类型自动转换成容量大的数据类型byte,short,它们在计算时会转换int类型如果把int转换成float值,或者long转换成double值,不需要强制转换,但可能丢失精度publicclassMain{publicstaticvoidmain(String[]args){byteb......
  • 《C语言深度剖析》---------关键字(1)
    1.双击实质--->加载内存windows系统里面,双击的本质就是运行程序,把程序加载到内存里面;任何程序运行的时候都必须加载到内存里面;程序没有运行之前在硬盘里面,为什么程序运行之前必须加载到内存里面呢?这个时候就有必要了解一下冯诺依曼体系结构:我们输入的数据要到内存里面,经......
  • 如何在 VirtualBox 上安装 Arch Linux
    Arch与VirtualBox介绍Arch:ArchLinux是一个独立开发的x86-64架构通用GNU/Linux发行版,它致力于通过滚动更新来提供大多数软件的最新稳定版本。默认安装是一个最小的基本系统,由用户自行添加需要的软件。ArchLinux使用pacman作为包管理器。virtualBox:VirtualBox是一款开源虚拟......
  • Vue3学习- Visual Studio Code安装
    开发Vue,需要一个好用的编辑器,可以让你事半功倍,本文介绍如何安装VisualStudioCode1.下载VisualStudioCodeVisualStudioCode下载地址:VisualStudioCode,点击打开后,选择DownloadforWindows 打开下载文件,点击我同意此协议,点击下一步保留默认选项,点击下一步,安装,最后......
  • python scrapy 爬虫爬取quotes.toscrape.com
    1、安装scrapy pip包的管理工具pipinstallscrapy(在cmd中下载)win+r键输入cmd进入命令行2.scrapy介绍它是由五部分组成 引擎 下载器 spider 中间件 管道你只需要知道spider即可因为所有代码都在这里面管道是处理数据的框架定义好接口调用就可以了3.xpa......
  • Uscrapper:一款功能强大的网络资源爬取工具
    关于UscrapperUscrapper是一款功能强大的网络资源爬取工具,该工具可以帮助广大研究人员从各种网络资源中轻松高效地提取出有价值的数据,并且提供了稳定、友好且易于使用的UI界面,是安全研究人员和网络分析人员的强有力工具。Uscrapper最大程度地释放了开源情报资源的力量,该工具......