首页 > 编程语言 >Python爬虫入门03:用Urllib假装我们是浏览器

Python爬虫入门03:用Urllib假装我们是浏览器

时间:2024-07-31 23:26:22浏览次数:17  
标签:03 请求 Python request Urllib URL urllib url data

文章目录

引言

在网络的世界里,浏览器是我们与互联网沟通的桥梁。当我们在浏览器地址栏输入一个网址或点击一个链接时,浏览器就会向服务器发起一个HTTP请求。服务器接收到请求后,会处理并返回相应的数据,这通常是一个HTML页面、一张图片或一段视频。这些数据随后会被浏览器解析并展示给我们。

然而,在自动化测试或数据抓取的场景中,我们可能需要用程序模拟浏览器的行为,这就是Python的Urllib库大显身手的地方。Urllib是一个强大的内置库,它允许我们用代码来发送请求、接收响应,就像浏览器一样。

Urllib库简介

Python的Urllib库是一个用于处理URL的库,它提供了一系列丰富的功能来帮助我们与互联网进行交互。Urllib库主要由以下四个模块组成:

  • request:用于发起网络请求。
  • error:包含定义和处理请求错误的异常类。
  • parse:用于解析URL以及URL的各个组成部分。
  • robotparser:用于解析网站的robots.txt文件,以确定哪些页面可以被爬虫访问。
Request模块详解

Request模块是Urllib中使用最频繁的模块之一。它允许我们构造请求并发送到服务器。以下是一些常用方法和语法:

  • urllib.request.urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT, *, cafile=None, capath=None, cadefault=False, context=None):发送GET或POST请求。
    • url:请求的URL地址。
    • data:发送的数据,通常用于POST请求。
    • timeout:请求的超时时间。

代码示例:

import urllib.request

# 发起GET请求
response = urllib.request.urlopen('http://www.example.com')
print(response.read().decode('utf-8'))

# 发起POST请求
data = bytes(urllib.parse.urlencode({'key': 'value'}).encode('utf-8'))
response = urllib.request.urlopen('http://www.example.com', data)
print(response.read().decode('utf-8'))
Error模块与异常处理

Error模块提供了一些异常类,用于处理网络请求过程中可能遇到的错误。常见的异常有:

  • urllib.error.URLError:所有URL错误的基类。
  • urllib.error.HTTPError:HTTP错误,包含状态码和错误信息。

异常处理示例:

try:
    response = urllib.request.urlopen('http://www.example.com')
except urllib.error.URLError as e:
    print('Failed to reach a server:', e.reason)
Parse模块与URL解析

Parse模块提供了一些函数来解析URL和构造URL。常用函数包括:

  • urllib.parse.urlparse(url):将URL分解为6个组件:scheme, netloc, path, params, query, fragment。
  • urllib.parse.urlencode(query, doseq=False, encoding='utf-8'):将字典或列表字典编码成x-www-form-urlencoded格式的数据。

URL解析示例:

from urllib.parse import urlparse, urlencode

url = 'http://www.example.com/path?arg=value#anchor'
parsed_url = urlparse(url)
print(parsed_url.scheme, parsed_url.netloc, parsed_url.path)

data = {'key1': 'value1', 'key2': 'value2'}
encoded_data = urlencode(data)
print(encoded_data)
Robotparser模块

Robotparser模块用于解析网站的robots.txt文件,这个文件用来告诉爬虫哪些页面可以访问,哪些不可以。Robotparser模块的常用方法包括:

  • urllib.robotparser.RobotFileParser().set_url(url):设置robots.txt文件的URL。
  • urllib.robotparser.RobotFileParser().can_fetch(user_agent, url):判断指定的爬虫是否可以访问某个URL。

Robotparser使用示例:

from urllib.robotparser import RobotFileParser

rp = RobotFileParser()
rp.set_url('http://www.example.com/robots.txt')
if rp.can_fetch('*', 'http://www.example.com/somepage'):
    print('This page can be fetched.')
else:
    print('This page cannot be fetched.')

通过这些模块和方法,我们可以使用Python的Urllib库来构建复杂的网络请求,模拟浏览器行为,进行自动化测试或数据抓取。

模拟浏览器请求

在网络请求中,服务器可以通过请求头(Headers)来获取发起请求的客户端信息,例如使用的浏览器类型、操作系统、语言偏好等。通过模拟这些请求头信息,我们可以欺骗服务器,让它认为请求来自于一个真实的浏览器或移动设备,这对于某些需要特定用户代理(User-Agent)才能访问的网站尤其有用。

使用Request方法添加请求头信息

urllib.request.Request 方法允许我们自定义请求的各个方面,包括URL、请求方法、数据以及请求头。以下是构造请求头信息的基本步骤:

  1. 构造请求头字典:定义一个字典,包含所有需要的请求头信息,如User-AgentAccept-LanguageReferer等。

  2. 创建Request对象:使用urllib.request.Request构造函数创建一个请求对象,传入URL、数据(如果有)、请求头以及请求方法。

  3. 发送请求:使用urllib.request.urlopen方法发送请求,并获取响应。

代码示例

以下是一个构造请求头信息并发起自定义GET请求的示例:

import urllib.request
import urllib.parse

# 构造请求头信息
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3',
    'Accept-Language': 'en-US,en;q=0.5',
    'Referer': 'http://www.example.com/'
}

# 创建请求对象
url = 'http://www.example.com/somepage'
request = urllib.request.Request(url, headers=headers)

# 发送请求并获取响应
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

对于POST请求,除了设置请求头,我们还需要传递数据:

# 构造POST请求的数据
data = {'key1': 'value1', 'key2': 'value2'}.items()
data = urllib.parse.urlencode(data).encode('utf-8')

# 创建请求对象,指定POST方法
request = urllib.request.Request(url, data=data, headers=headers, method='POST')

# 发送请求并获取响应
response = urllib.request.urlopen(request)
print(response.read().decode('utf-8'))

通过这种方式,我们可以模拟浏览器或手机的请求,绕过一些简单的客户端验证,获取服务器的响应数据。然而,需要注意的是,某些网站可能使用更复杂的机制来验证请求的合法性,仅仅修改请求头可能不足以成功模拟请求。

  1. 实战演练:模拟登录操作
    • 选择一个具体网站(如百度)作为示例。

    • 抓取登录页面的请求参数和请求头信息。

    • 这里的具体方法就是打开fiddler,然后打开百度的网页,选择登录,提交表单后抓取到这个表单信息,如下在这里插入图片描述

    • 接着是我们的请求头信息:

    • 在这里插入图片描述

    • 编写代码模拟登录过程:
      根据您的要求,下面是按照指定顺序组织的代码示例:

1. 设置请求URL和请求头
import urllib.parse
import urllib.request
import ssl
import json

# 创建SSL上下文
context = ssl.create_default_context()

# 设置请求URL(请替换为实际的登录API URL)
url = "https://www.baidu.com/some_actual_login_api"

# 设置请求头,模拟浏览器访问
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/127.0.0.0 Safari/537.36 Edg/127.0.0.0"
}
2. 定义请求参数并转换为适当的格式
# 定义请求参数字典
params = {
    "username": "your_username",  # 替换为您的用户名
    "password": "your_password",  # 替换为您的密码
    # 其他参数根据API要求添加
}

# 对参数字典进行URL编码
encoded_params = urllib.parse.urlencode(params).encode('utf-8')
3. 使用Request方法封装请求
# 使用Request方法封装请求
request = urllib.request.Request(
    url,
    data=encoded_params,  # 发送编码后的参数
    headers=headers,      # 设置请求头
    method='POST'         # 指定请求方法为POST
)
4. 发送请求并获取响应
try:
    # 发送请求并获取响应
    with urllib.request.urlopen(request, context=context) as response:
        response_data = response.read().decode('utf-8')
        print("Response from server:", response_data)
except urllib.error.HTTPError as e:
    print(f"HTTPError: {e.code} - {e.msg}")
except urllib.error.URLError as e:
    print(f"URLError: {e.reason}")
except Exception as e:
    print(f"An unexpected error occurred: {e}")
常用使用方法总结
  1. 使用urlopen方法:进行基本的GET请求,获取网页内容。
  2. 自定义请求头:通过构造Request对象,模拟浏览器或移动设备的请求头,以绕过一些简单的客户端验证。
  3. 异常处理:使用error模块中的异常类来处理请求过程中可能出现的错误。
  4. URL解析:利用parse模块解析和构造URL,处理查询字符串。
  5. 遵守Robot协议:使用robotparser模块来检查爬虫是否被允许访问特定的页面。
模拟请求的重要性和实用性

使用Urllib进行模拟请求在多个领域都有其重要性和实用性:

  1. 自动化测试:自动化测试脚本可以模拟用户行为,测试网站的功能和性能。
  2. 数据抓取:爬虫程序可以通过模拟浏览器请求来获取网页数据,进行信息收集和分析。
  3. API交互:与Web API进行交互时,Urllib可以用来发送请求并接收响应。
  4. 跨平台兼容性:由于Urllib是Python的内置库,它在不同的操作系统上都能保持一致的行为,这使得编写跨平台的网络应用程序变得更加容易。
结语

虽然Urllib提供了丰富的功能来处理网络请求,但在实际应用中,我们还需要考虑到请求的效率、网站的反爬虫策略以及数据的合法使用等问题。合理利用Urllib库,不仅可以提高开发效率,还可以帮助我们更好地理解和使用网络资源。随着技术的不断进步,我们也应该持续学习新的库和框架,以适应不断变化的网络环境。

标签:03,请求,Python,request,Urllib,URL,urllib,url,data
From: https://blog.csdn.net/wumingzei/article/details/140832730

相关文章

  • 请以零基础学Python 之 第二十讲 分组和贪婪匹配
    当我们处理字符串时,有时候需要根据特定的模式来分割或者提取信息。Python提供了强大的正则表达式库re,可以帮助我们实现这些复杂的字符串操作。本篇博客将介绍两个常用的正则表达式技巧:分组和贪婪匹配。分组(Grouping)在正则表达式中,分组是将多个模式单元组合为一个单元,以便......
  • 零基础学python 之 第十九讲 正则表达式
    当你开始学习Python编程时,正则表达式是一项非常强大的工具,用于处理文本数据中的模式匹配和搜索。本篇博客将带你从零开始学习如何在Python中使用正则表达式。1.什么是正则表达式?正则表达式(RegularExpression)是用于描述字符串模式的一种工具,可以用来匹配、查找、替换符合特......
  • python之贪吃蛇
    废话不多说,直接上代码(确保已经安装pygame)importpygameimportrandom#基础设置#屏幕高度SCREEN_HEIGHT=480#屏幕宽度SCREEN_WIDTH=600#小方格大小GRID_SIZE=20#颜色设置WHITE=(255,255,255)BLACK=(0,0,0)GREEN=(0,255,0)#初始化Pyg......
  • Python - Context Managers
    withstatementHereisthesyntaxofthewithstatement:withexpressionasvar:statementsTheexpressionshouldbeacontextmanagerobject,oritshouldproduceacontextmanagerobject.Whenthiswithstatementisexecuted,thefirstthingthat......
  • python装饰器
    一前言环境:win10python3.10二函数中的函数如果定义了一个函数A,现在想在不影响函数A原先功能的情况下,新增加一些额外的功能,怎么办,下面是一个例子如上,本来原先执行test_except那句话只会打印over那句话,但现在执行test_except却会输出一些另外的东西这其中有个巧妙地东西就......
  • Python - Built-in Exceptions: Python Exceptions Class Hierarchy
     Figure20.4:Built-inexceptionsTheclassBaseExceptionisthebaseclassofallthebuilt-inexceptionclasses.FromBaseException,fourclassesnamedException,SystemExit,KeyboardInterruptandGeneratorExitarederived.Alltheremainingbuilt-in......
  • Python - Strategies to handle exceptions in your code
    Therearetwoapproachesthatcanbefollowedwhenwewanttodealwithexceptionsthatoccurduetounusualevents:LBYL-LookBeforeYouLeapEAFP-EasiertoAskforForgivenessthanPermissionIntheLBYLapproach,weavoidexceptions,whileinthe......
  • 全网最适合入门的面向对象编程教程:29 类和对象的Python实现-断言与防御性编程和help函
    全网最适合入门的面向对象编程教程:29类和对象的Python实现-断言与防御性编程和help函数的使用摘要:在Python中,断言是一种常用的调试工具,它允许程序员编写一条检查某个条件。本文主要介绍了断言的应用场景和特点以及assert语句的使用,同时介绍了防御性编程和help()函数......
  • Python入门知识点 10--闭包与装饰器
    一、直接与间接程序开发潜规则生活中:   有台电脑,他的硬盘空间不够了,里面的资料我不能动,也不能删,咋办   1.加装硬盘--直接解决--前提是我的电脑能加装   2.插个u盘--间接解决-->没有特别的要求,比较灵活   开发潜规则:   代码拓展-->开放-->可......
  • python log运算如何写
    Python中用于计算对数的log()方法,是Python入门基础中的必会的方法,需要的朋友可以参考下。log()方法返回x的自然对数,x>0。语法以下是log()方法的语法:import math math.log( x )注意:此函数是无法直接访问的,所以我们需要导入math模块,然后需要用math的静态对象来调用......