首页 > 编程语言 >python网页爬虫开局通用示例

python网页爬虫开局通用示例

时间:2022-11-19 17:31:08浏览次数:50  
标签:__ status code 示例 python 爬虫 url print requests

万事开头难,好的开始是成功的一半。

步骤:

1、导入requests模块,2、get方法(url,timeout,headers等)3、状态判断,4、考虑编码,5、try方法判断异常。

import requests


# import time


def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status() # 如果状态不是200,产生HTTPError异常
# print(r.status_code)
r.encoding = r.apparent_encoding
return r.text
except:
print(r.status_code)
return "产生异常"


if __name__ == '__main__':
url = "http://www.doubai.com"
print(getHTMLText(url))

封装函数,方便调用。



标签:__,status,code,示例,python,爬虫,url,print,requests
From: https://blog.51cto.com/u_14012524/5870475

相关文章

  • python-迭代器
     迭代的概念使用for循环遍历取值的过程叫做迭代,比如:使用for循环遍历列表获取值的过程#Python中的迭代forvaluein[2,3,4]:print(value)复制代码1.2......
  • 【mysql】关于python建立mysql相关操作
    1.安装用pip安装指令pipinstallpymysql查看安装成功#cmdpipshowmysql#cmd找list中有该软件piplist#python中不报错importpymysql2.操作流程3.封装......
  • 深度学习与通信交叉领域的python包:deepcom
    什么是deepcom在进行深度学习与通信领域的交叉研究时,有一些反复使用的算法与训练流程。但是现有的学习框架主要集中在网络的训练部分,对于通信领域的参数压缩与高效传输并......
  • Python学习笔记(三)
    运算符和表达式算术运算python在这里直接支持了幂运算,c的话需要额外的头文件导入此外,python也是支持取模%和取整运算的。The / (division)and // (floordivisi......
  • Python的线程如何理解
    Num01-->多线程threadingPython中建议使用threading模块,而不要使用thread模块。原因如下:1,Python中threading模块对thread进行了一些包装,可以更加方便的使用。2,Python......
  • python3标准库
    本文出处 http://www.cnblogs.com/vamei   作者:Vamei序列(sequence)序列包含有定值表(tuple)和表(list)。字符串(string)是一种特殊的定值表下面的内建函数(buil......
  • python 协程学习笔记
    yield生成器frominspectimportgetgeneratorstatedefgen1():x=yield2print(x)y=yieldxreturnyg=gen1()print(getgeneratorstate(......
  • python第五章pta习题总结
    四、编程部分1、sorted函数:sorted(iterable,cmp=None,key=None,reverse=False)#iterable:可迭代的对象#cmp:比较规则#key:用来进行比较的对象,只有一个参数2、eval()......
  • 【Python小随笔】本周一、上周一、上周末日期
    importdatetime#当前日期deftoday_date():returndatetime.datetime.now().date()#上周一deflast_monday():returnstr(datetime.datetime.now()......
  • Python匿名函数和全部内置函数详细认识(下篇)
    ......