首页 > 其他分享 >爬虫-requests模块(1)爬取搜狗首页页面数据

爬虫-requests模块(1)爬取搜狗首页页面数据

时间:2022-11-06 18:59:01浏览次数:85  
标签:__ 搜狗 None url text 爬取 模块 requests

requests模块:python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率高

作用:模拟浏览器发请求

如何使用:(request编码的使用流程)

  • 请求url
  • 发起请求
  • 获取响应数据
  • 持久化存储

环境安装:

    pip install requests 

出现的问题,之前用burp suite的时候把代理服务器改成手动的了

报错:

WARNING: Retrying (Retry(total=2, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ProxyError('Cannot connect to proxy.', NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at 0x00000278F09891C0>: Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝,无法连接。'))': /simple/pip/

 代码部分:

import requests
#step1:指定url
if __name__=="__main__":
    url = 'https://www.sogou.com'
    #step2:发送请求
    response = requests.get(url=url)
    #step3:获取相应数据
    page_text = response.text
    print(page_text)
    #step4:持久化存储
    with open('./sogou.html','w',encoding='utf-8')as fp:
        fp.write(page_text)
    print('爬取数据结束!!!')

一开始出现了一个问题,说requests中没有get函数,上网查了一下根据这个https://blog.csdn.net/xqe777/article/details/123356700发现是因为文件包也取名叫requests冲突了,修改文件名就好了

报错:AttributeError: module 'requests' has no attribute 'get'

补充:if __name__=="__main__":表示当py文件直接被运行的时候该句下面的代码将被运行,当以模块形式被导入时则不运行,即改代码不能导入其他代码中使用

运行结果:

 

 

标签:__,搜狗,None,url,text,爬取,模块,requests
From: https://www.cnblogs.com/L-1906/p/16863242.html

相关文章

  • 抓包批量爬取酷我音乐
    1、找到音乐列表2、获取歌名、歌手、歌曲专辑、ridheaders={'Accept':'application/json,text/plain,*/*',#'Accept-Encoding':'gzip,deflate,br',#'......
  • 2022年最新蜻蜓mp3音频专辑数据爬取工具
    每天听蜻蜓fm平台的音频,但是最近会员快过期了,然而不想续费了,但是不续费就听不了,纠结。 然后想着能不能把音频下载到本地,这样会员过期了也能听,但是想法是好的,蜻蜓fm并不......
  • 爬取天马运动中遇到的坑
    问题描述:将浏览器请求头和payload参数加入到postman中时请求成功拿到数据,用pythonrequests库实现post请求传入参数时却没法请求到完整数据。尝试方法:将data参数用json.d......
  • 异步处理-梨视频爬取
    importrequestsfromlxmlimporthtmlimportrandomimportosfrommultiprocessing.dummyimportPoolheaders={'User-Agent':'Mozilla/5.0(WindowsNT10.0;W......
  • 爬取豆瓣排名前250的电影
    1.爬取豆瓣排名前250的电影,打开https://movie.douban.com/top250豆瓣的数据都在HTML中2.分析url是如何变化的并提取有用的url 发现是Get请求第二页可见地址栏第二页......
  • python-requests的简单用法
    做一个总结~以便以后参考本文参考:​​​添加链接描述​​importrequestsGET请求eg:r=requests.get('http://httpbin.org/get')print(r.url)传参eg:load={'key1':'value1......
  • 爬取小说(编辑推荐,完本榜单)
    importrequestsimportbs4importreimportpandasaspdimportxlwt##defl():defheavy_recommendation():headers={'User-Agent':'Mozill......
  • Python+requests获取重定向的url地址
       importrequestsurl='http://1234by.com'res=requests.get(url,headers={"Content-Type":"application/json"})redit_list=res.history#可以看出获取......
  • 美团民宿数据爬取
    1.美团民宿信息获取#coding:utf8importrequestsimportrandomfromlxmlimportetreeimporttime#提供ua信息的的包#fromuainfoimportua_listimportpymy......
  • python爬取公众号文章发布时间
    使用xpath取出来的是空,爬取到本地的html,时间的标签如下,内容也是是空的<emid="publish_time"class="rich_media_metarich_media_meta_text"></em>经过查找发现网页使......