python爬虫1-requests库

时间：2024-07-04 17:44:54浏览次数：24

标签：python 爬虫 response url print import requests page

requests库

requests 提供发送网络请求和处理响应的方法

安装

pip install requests

GET 请求

import requests

url = 'https://www.baidu.com/'                  # url
params = {'key1': 'value1', 'key2': 'value2'}   # 参数

# 发送get请求
response = requests.get(url, params=params)

print(response.url)     # 查看 URL，包含查询参数 https://www.baidu.com/?key1=value1&key2=value2
print(response.text)    # 返回内容

POST请求

import requests

url = 'https://www.baidu.com/'  # url
data = {'key': 'value'}         # data数据

#发送post请求
response = requests.post(url, data=data)

print(response.text)    # 打印响应的文本内容

自定义请求头

import requests

url = 'https://www.baidu.com/'

# 自定义请求头
headers = {
    'User-Agent': 'User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:127.0) Gecko/20100101 Firefox/127.0'
}
response = requests.get(url, headers=headers)

print(response.text)

异常处理

import requests
from requests.exceptions import RequestException

try:
    response = requests.get('https://www.baidu.com/')
    response.raise_for_status()  # 如果响应的 HTTP 状态码不是 200，则抛出 HTTPError 异常
    print(response.text)
except RequestException as e:
    print(e)

豆瓣实例

import requests

# 获取请求对象
url = 'https://movie.douban.com/j/chart/top_list?type=5&interval_id=100:90&action=&'
# 头部信息
headers = {
        'User-Agent': 'Mozilla/5.0 (X11; Fedora; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) '
                      'Chrome/58.0.3029.110 Safari/537.36 '
    }

# 页码
start_page = int(input('起始页码:'))
end_page = int(input('结束的页码:'))

# 循环请求数据
for page in range(start_page, end_page + 1):
    params = {
        'start': (page - 1) * 20,
        'limit': 20
    }
    # 获取网页信息
    resp = requests.get(url=url, headers=headers, params=params)
    resp.encoding = "utf-8"
    # 保存为json文本
    with open(f'douban{page}.json', 'w', encoding='utf-8') as fp:
        fp.write(resp.text)

标签：python,爬虫,response,url,print,import,requests,page
From： https://www.cnblogs.com/noahze/p/18284301

python爬虫2-HTML文本处理
HTML文本处理re模式匹配正则表达式是一种强大的字符串匹配和处理工具，允许通过指定的模式来查找、替换和验证字符串。函数编译正则表达式re.compile(pattern,flags=0):将字符串形式的正则表达式编译为一个正则对象，用于后续的匹配操作。匹配操作re.match(pattern,str......
python基础操作
pip常用命令列出已安装的所有库：piplist显示包信息：pipshow库名下载库：pipdownload库名python库的安装方式1、pipinstall库名-ihttps://mirrors.aliyun.com/pypi/simple（国内镜像库速度更快）方式2、pipinstallwhl文件路径方式3、解压后的安装包路径下，pythonsetup.pyinstal......
使用python基本库代码实现神经网络常见层
一：批量归一化（BatchNormalization）代码解释：函数定义：batch_norm函数接受输入数据X、缩放参数gamma、平移参数beta和一个小常数epsilon，用于防止除零错误。X的形状为(N,D)，其中N是批量大小，D是特征维度。gamma和beta的形状为(1,D)。计算批量均值和方差：me......
【python学习笔记】Python装饰器
装饰器参考：搞懂Python装饰器Python@wraps修饰器装饰器是什么有兴趣的可以参考PEP318的原文DecoratorsforFunctionsandMethods解释了语法用途以及设计出来装饰器的动机Thecurrentmethodfortransformingfunctionsandmethods(forinstance,declaringthem......
python教程：自定义函数
1.多态我们可以看到，Python不用考虑输入的数据类型，而是将其交给具体的代码去判断执行，同样的一个函数（比如这边的相加函数my_sum()），可以同时应用在整型、列表、字符串等等的操作中。在编程语言中，我们把这种行为称为多态。这也是Python和其他语言，比如Java、C等很大的一个不同点......
Python教程：空值、无穷值判断之isna、isnull、isfinite
一、空值isnaPands中NaN(Not-A-Number)视为空值，利用函数isna和notna进行判断。注意：不要利用是否等于None判断是否为空！importpandasaspdpd.NA==None#Falsepd.isna(pd.NA)#Truepd.isna(None)#Truepd.notna(pd.NA)#Falsepd.notna(None)#False二、......
Python教程：os.popen(cmd).read()查看后台进程并杀进程
一、os.popen()方法1.使用语法os.popen()方法用于从一个命令打开一个管道。os.popen(cmd).read()获取执行后结果。os.popen(command[,mode[,bufsize]])#使用的命令#模式权限：默认'r'或者'w'#文件需要的缓冲大小0无缓冲1行缓冲其他数值以字节为单位负值使用系统......
Python多维列表（元组）合并成一维形式
一.需求原格式：input=[[1,2,3],[4,5,6],[7,8,9]]目标格式：[1,2,3,4,5,6,7,8,9]二.方法1.sum函数合并input=[[1,2,3],[4,5,6],[7,8,9]]output=sum(input,[])print(output)#结果：[1,2,3,4,5,6,7,8,9]这个看上去很简洁，不过有类似字符串累加的性能陷阱。......
Python Linux源码安装
保留服务器原Python安装版本，安装指定需求版本Python1.查看当前系统版本[root@iZbp1ac4pv22mg092qi2zfZ~]#cat/etc/system-releaseCentOSLinuxrelease7.9.2009(Core)2.查看已安装Python路径及版本[root@iZbp1ac4pv22mg092qi2zfZ~]#whichpython/usr/bin/python[ro......
有趣的Python库——CowSay
有趣的Python库——CowSay安装：pipinstallcowsay命令式使用：cowsay-cpig-t你好，我是一只猪哦！输出：__________|你好，我是一只猪哦！|==========\\\\,.(_|,......

python爬虫1-requests库

requests库

安装

GET 请求

POST请求

自定义请求头

异常处理

豆瓣实例

相关文章

赞助商

阅读排行