首页 > 编程语言 >Python爬虫通用代码框架代码示例

Python爬虫通用代码框架代码示例

时间:2023-02-20 10:46:58浏览次数:57  
标签:__ HTTP 请求 示例 Python 代码 URL 资源

刚开始入门学习python爬虫会遇到各种各样的问题,如果以当时的学识想必处理起来也十分困难,那么,如果你拥有良好的编程习惯会让你轻松很多。

当我们在使用Requests库时经常遇到的问题无非是网络问题,连接的超时问题,或者你自己代码有错误...

下面列举了一些相关的错误:(如图)

说到HTTP,首先HTTP协议是个超文本传输协议,且是一个基于"请求与响应"模式的,无状态的应用层协议。HTTP协议采用URL作为定位网络资源的标识。

URL格式:http://host[:port][path]

To:URL是通过HTTP协议存取资源 的Internet路径,一个URL对应一个数据资源。

1、host:合法的Internet主机域名或IP地址

2、port:端口号:缺省端口为80

3、path:请求资源的路径

HTTP协议对资源的操作:

1、GET:请求获取URL位置的资源

2、HRAD:请求获取URL位置资源的响应消息报告,即获得该资源的头部信息

3、POST:请求向URL位置的资源后附加新的数据

4、PUT:请求向URL位置存储一个资源,覆盖URL位置的资源

5、PATCH:请求局部更新URL位置的资源,即改变该处资源的部分内容

6、DELETE:请求删除URL位置存储的资源

理解PATCH和PUT的区别:

假设URL位置有一组数据User info,包括UserID,UserName等20个字段,需求:用户只改变了UserName,UserID等其它不变。

1、采用PATCH,仅向URL提交USERName的局部更新请求

2、采用PUT,必须将所有20个字段一并提交到URL,未提交字段将被删除

当采用PATCH时,最大的好处便是节省了网络带宽。

通用代码举例:

import requestsdef getHTMLText(url):
    try:  
       r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text    except:  
       return 0if __name__=="__main__":
    url="http://www.baidu.com"#可自己修改试试
    print(getHTMLText(url))

以上代码仅供参考,通用部分为def函数部分。

标签:__,HTTP,请求,示例,Python,代码,URL,资源
From: https://www.cnblogs.com/q-q56731526/p/17136505.html

相关文章

  • 代码随想录算法训练营day24 | leetcode 77. 组合
    基础知识回溯法解决的问题都可以抽象为树形结构,集合的大小就构成了树的宽度,递归的深度构成的树的深度voidbacktracking(参数){if(终止条件){存放结果;......
  • 50行代码完成微信小程序-跳一跳辅助工具,让你成为朋友圈最靓的仔
    前言2017年12月28日,微信更新的6.6.1版本开放了小游戏,微信启动页面还重点推荐了小游戏「跳一跳」。不说废话直接上代码设置公共参数 doubleratio=1; //弹跳系数......
  • 使用PyTorch-LSTM进行单变量时间序列预测的示例教程
    时间序列是指在一段时间内发生的任何可量化的度量或事件。尽管这听起来微不足道,但几乎任何东西都可以被认为是时间序列。一个月里你每小时的平均心率,一年里一只股票的日收......
  • vue + cesium 洪水淹没分析完整示例_向着太阳往前冲的博客
    目录一、洪水淹没分析效果二、部分核心代码1、绘制多边形范围2、处理多边形区域的最大和最小高程三、JS完整代码一、洪水淹没分析效果二、部分核心代码1、绘制多......
  • 嵌入式开发之优化---代码优化
    1.牢记Ahmdal定律funccost表示是函数func的运行时间百分比,funcspeedup是你优化后函数的运行系数;所以,如果函数TriangleIntersect......
  • Python正则替换请求头格式代码
    有时候请求网站的时候需要携带请求头,从浏览器扒下来的请求头手动操作很不方便,代码类似如下:Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,......
  • python 二分查找算法
    python二分查找算法 楔子如果有这样一个列表,让你从这个列表中找到66的位置,你要怎么做?l=[2,3,5,10,15,16,18,22,26,30,32,35,41,42,43,55,56,66,67,69,72,76,82,......
  • Python爬虫Scrapy框架是什么?
    之前我们有谈到过有关爬虫的两种爬虫方式,一种是静态的利用Requests+bs4,而另一种就是利用Scrapy框架来进行的专业级的数据抓取。一、什么是Scrapy框架?那么什么是Scrapy框......
  • Pycharm cannot set up a python SDK
    一、问题背景进入Pycharm后,打开之前的项目,打开Pycharm→file→settings→projectinterpreter,按照下图1选择配置之后,点击【OK】会出现报错,如图2我的环境上有很多之前的包......
  • Python——while循环
    1.while循环结构格式:while条件:执行语句1……执行语句2……例:#无限循环死循环whileTrue:print('条件是真的!')例:i=0#创建一个计数的变量whi......