爬虫-requests模块（1）爬取搜狗首页页面数据

时间：2022-11-06 18:59:01浏览次数：103

标签：__ 搜狗 None url text 爬取模块 requests

requests模块：python中原生的一款基于网络请求的模块，功能非常强大，简单便捷，效率高

作用：模拟浏览器发请求

如何使用：（request编码的使用流程）

请求url
发起请求
获取响应数据
持久化存储

环境安装：

　　　　pip install requests

出现的问题，之前用burp suite的时候把代理服务器改成手动的了

报错：

WARNING: Retrying (Retry(total=2, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ProxyError('Cannot connect to proxy.', NewConnectionError('<pip._vendor.urllib3.connection.HTTPSConnection object at 0x00000278F09891C0>: Failed to establish a new connection: [WinError 10061] 由于目标计算机积极拒绝，无法连接。'))': /simple/pip/

代码部分：

import requests
#step1：指定url
if __name__=="__main__":
    url = 'https://www.sogou.com'
    #step2:发送请求
    response = requests.get(url=url)
    #step3:获取相应数据
    page_text = response.text
    print(page_text)
    #step4:持久化存储
    with open('./sogou.html','w',encoding='utf-8')as fp:
        fp.write(page_text)
    print('爬取数据结束！！！')

一开始出现了一个问题，说requests中没有get函数，上网查了一下根据这个https://blog.csdn.net/xqe777/article/details/123356700发现是因为文件包也取名叫requests冲突了，修改文件名就好了

报错：AttributeError: module 'requests' has no attribute 'get'

补充：if __name__=="__main__":表示当py文件直接被运行的时候该句下面的代码将被运行，当以模块形式被导入时则不运行，即改代码不能导入其他代码中使用

运行结果：

标签：__,搜狗,None,url,text,爬取,模块,requests
From： https://www.cnblogs.com/L-1906/p/16863242.html

抓包批量爬取酷我音乐
1、找到音乐列表2、获取歌名、歌手、歌曲专辑、ridheaders={'Accept':'application/json,text/plain,*/*',#'Accept-Encoding':'gzip,deflate,br',#'......
2022年最新蜻蜓mp3音频专辑数据爬取工具
每天听蜻蜓fm平台的音频，但是最近会员快过期了，然而不想续费了，但是不续费就听不了，纠结。然后想着能不能把音频下载到本地，这样会员过期了也能听，但是想法是好的，蜻蜓fm并不......
爬取天马运动中遇到的坑
问题描述：将浏览器请求头和payload参数加入到postman中时请求成功拿到数据，用pythonrequests库实现post请求传入参数时却没法请求到完整数据。尝试方法：将data参数用json.d......
异步处理-梨视频爬取
importrequestsfromlxmlimporthtmlimportrandomimportosfrommultiprocessing.dummyimportPoolheaders={'User-Agent':'Mozilla/5.0(WindowsNT10.0;W......
爬取豆瓣排名前250的电影
1.爬取豆瓣排名前250的电影，打开https://movie.douban.com/top250豆瓣的数据都在HTML中2.分析url是如何变化的并提取有用的url 发现是Get请求第二页可见地址栏第二页......
python-requests的简单用法
做一个总结~以便以后参考本文参考：添加链接描述importrequestsGET请求eg：r=requests.get('http://httpbin.org/get')print(r.url)传参eg：load={'key1':'value1......
爬取小说（编辑推荐，完本榜单）
importrequestsimportbs4importreimportpandasaspdimportxlwt##defl():defheavy_recommendation():headers={'User-Agent':'Mozill......
Python+requests获取重定向的url地址
importrequestsurl='http://1234by.com'res=requests.get(url,headers={"Content-Type":"application/json"})redit_list=res.history#可以看出获取......
美团民宿数据爬取
1.美团民宿信息获取#coding:utf8importrequestsimportrandomfromlxmlimportetreeimporttime#提供ua信息的的包#fromuainfoimportua_listimportpymy......
python爬取公众号文章发布时间
使用xpath取出来的是空，爬取到本地的html，时间的标签如下，内容也是是空的<emid="publish_time"class="rich_media_metarich_media_meta_text"></em>经过查找发现网页使......

爬虫-requests模块（1）爬取搜狗首页页面数据

相关文章

赞助商

阅读排行