首页 > 编程语言 >python爬虫爬取某图书网页实例

python爬虫爬取某图书网页实例

时间:2024-08-14 19:25:33浏览次数:21  
标签:articlename img item python 爬虫 爬取 url requests

文章目录


下面是通过requests库来对ajax页面进行爬取的案例,与正常页面不同,这里我们获取url的方式也会不同,这里我们通过爬取一个简单的ajax小说页面来为大家讲解。(注:结尾附赠全部代码与详细注释)

导入相应的库

爬取数据必须有相应的库,这里我们使用爬虫脚本中常用的几个Python库:os.path、fake_useragent 和 requests。
1.os.path:

  • 这个模块主要用于处理文件和目录的路径。它提供了一系列的功能来进行路径的拼接、拆分、查询等操作,以确保路径的跨平台兼容性(比如Windows和Unix/Linux系统的路径分隔符不同)。
  • 在爬虫中,os.path 通常用于构建本地文件系统的路径,以便保存从网络上下载的图片、文本数据等。

2.fake_useragent:

  • 这个库用于生成随机的、看起来像是真实浏览器的User-Agent字符串。User-Agent是一个在HTTP请求中发送给服务器的头部信息,它告诉服务器发起请求的客户端(通常是浏览器)的类型、版本和操作系统等信息。
  • 在爬虫中,由于许多网站会检查User-Agent来识别爬虫请求并阻止它们,因此使用fake_useragent可以帮助爬虫绕过这种简单的反爬虫机制。

3.requests:

  • requests是Python中非常流行的HTTP库,用于发送HTTP/1.1请求。它提供了一个简单易用的API,用于处理各种HTTP请求,如GET、POST、PUT、DELETE等。
  • 在爬虫中,requests库是发送网络请求并获取响应的主要工具。它支持会话(Session)对象、HTTPS请求、文件上传、Cookie处理、重定向、连接池等功能,非常适合用于构建复杂的爬虫系统。
import os.path  
import fake_useragent  
import requests  

正确地设置代码的基础部分

这里我们生成一个随机的User-Agent、检查并创建目录以便储存爬取的图片、以及打开(或创建)一个文本文件来保存数据。

import os.path  
import fake_useragent  
import requests  
  
# 判断是否是直接运行该脚本  
if __name__ == '__main__':  
    head = {"User-Agent": fake_useragent.UserAgent().random}  
 
    if not os.path.exists("./biqugePic"):  
        os.mkdir("./biqugePic")  
    f = open("./biquge.txt", 'w', encoding='utf8')  

设置循环遍历

循环遍历URL(这里为大家提供具体url的获取方法,并循环了1至9页的数据为大家做案例),并发送了带有随机User-Agent的GET请求。这是爬虫中常见的做法,用于从网站的不同页面获取数据。

 for i in range(1, 10):  
        url = f"https://www.bqgui.cc/json?sortid=1&page={i}"  
        resp = requests.get(url, headers=head)  

首先进入网页,点击F12打开自定义与控制工具,点击fecth/XHR,此时显示部分为空白。在这里插入图片描述
这个时候我们滚动鼠标滚轮,就会出现相应的url,这里的https://www.bqgui.cc/json?sortid=1&page=2,其中尾部2表示滚轮页面第二页,想要获取1至9我们只需要进行一个简单的循环遍历即可。

在这里插入图片描述

遍历URL

遍历从URL获取的JSON响应,该响应包含多个项目。对于每个项目,您都提取了图片URL、文章名、作者和简介,并计划将这些信息打印到控制台以及下载图片和保存文本信息到文件。

 for item in resp.json():  
	# 从每个JSON对象中提取所需的信息  
	img_url = item['url_img']  
	articlename = item['articlename']  
	author = item['author']  
	intro = item["intro"]  
	  
	# 打印提取的信息到控制台  
	print(img_url, author, articlename, intro)  
	  
	# 发送另一个GET请求到图片URL,以获取图片内容  
	img_rest = requests.get(img_url, headers=head)  

在这里插入图片描述

保存图片和文档

设置代码来保存图片到以文章名命名的文件中,并将作者、文章名和简介信息写入到"./biquge.txt"文件中。

with open(f"./biqugePic/{articlename}.jpg", "wb") as fp:  
# 将图片内容写入文件  
fp.write(img_rest.content)  
# 将作者、文章名和简介信息写入到"./biquge.txt"文件中  
f.write(author + '#' + articlename + '#' + intro + "\n")

全部代码即详细注释

import os.path  
import fake_useragent  
import requests  
  
# 判断是否是直接运行该脚本  
if __name__ == '__main__':  
    # 创建一个包含随机User-Agent的HTTP请求头  
    head = {"User-Agent": fake_useragent.UserAgent().random}  
  
    # 检查是否存在名为"./biqugePic"的文件夹,如果不存在则创建它  
    if not os.path.exists("./biqugePic"):  
        os.mkdir("./biqugePic")  
  
    # 以写入模式打开(或创建)一个名为"./biquge.txt"的文件,用于保存数据  
    f = open("./biquge.txt", 'w', encoding='utf8')  
  
    # 循环从第1页到第9页(注意,range函数是左闭右开的,所以不包括10)  
    for i in range(1, 10):  
        # 构造请求URL,这里假设每个页面的数据都可以通过此URL以JSON格式获取  
        url = f"https://www.bqgui.cc/json?sortid=1&page={i}"  
  
        # 发送GET请求到URL,并带上之前创建的请求头  
        resp = requests.get(url, headers=head)  
  
        # 假设服务器返回的是JSON格式的数据,我们遍历这些数据  
        # 注意:这里有个潜在的问题,因为内部循环的变量也使用了'i',这会覆盖外层循环的'i'  
        # 为了避免混淆,应该使用另一个变量名,比如'item'  
        for item in resp.json():  
            # 从每个JSON对象中提取所需的信息  
            img_url = item['url_img']  
            articlename = item['articlename']  
            author = item['author']  
            intro = item["intro"]  
  
            # 打印提取的信息到控制台  
            print(img_url, author, articlename, intro)  
  
            # 发送另一个GET请求到图片URL,以获取图片内容  
            img_rest = requests.get(img_url, headers=head)  
  
            # 打开(或创建)一个文件,用于保存图片,文件名基于文章名  
            with open(f"./biqugePic/{articlename}.jpg", "wb") as fp:  
                # 将图片内容写入文件  
                fp.write(img_rest.content)  
  
            # 将作者、文章名和简介信息写入到"./biquge.txt"文件中  
            f.write(author + '#' + articlename + '#' + intro + "\n") 

注意:

  1. 代码假设了服务器返回的JSON结构是固定的,并且每个对象都包含’url_img’, ‘articlename’, ‘author’, 和 'intro’键。
  2. 在实际应用中,网络请求可能会失败(如404、500等HTTP错误),应该添加错误处理逻辑。
  3. 由于网络延迟和带宽限制,大量请求可能会导致性能问题或被服务器封锁。
  4. 使用fake_useragent生成随机User-Agent可以帮助绕过一些简单的反爬虫机制,但不一定对所有网站都有效。

标签:articlename,img,item,python,爬虫,爬取,url,requests
From: https://blog.csdn.net/2301_77698138/article/details/141192783

相关文章

  • 第一阶段复习 --Python、Linux、Shell、MySQL
    文章目录第一阶段复习总结python1.python是面向对象的解释型动态数据语言的高级程序设计语言2.变量3.基础数据类型4.数据类型之间的转换5.str类型字符串方法序列6.运算符7.选择循环结构8.数据容器9.函数参数10.类11.正则12.文件读写13.异常处理tryexc......
  • 《python程序语言设计》2018版第7章第2题创建一个stock类,一个公司股票。创建stock,包含
    使用百分比法计算股票变化值百分比法是计算股票变化值的常用方法。具体操作是:将当前股票价格与前一交易日的股票价格进行比较,计算出价格变动的百分比。公式为:(当前价格-前一交易日价格)/前一交易日价格×100%。这种方法简单明了,可以快速得出股票变化的百分比。......
  • 23:Python的map函数,filter函数,reduce函数
    #map函数#例子1num_1=[1,2,10,5,3,7]ret=[]foriinnum_1:ret.append(i**2)print(ret)#完成一个,#例子2num_1=[1,2,10,5,3,7]defmap_test(array):#array,数组ret=[]foriinnum_1:ret.append(i**2)returnretr......
  • python之numpy(1 安装及基本介绍)
    numpy介绍numpy是Python中的一个非常流行的库,它提供了大量的数学函数工具,特别是针对数组和矩阵的操作。numpy的全称是NumericalPython,它极大地简化了数组和矩阵的运算,使得Python成为进行科学计算的一个强大工具。安装numpy要安装numpy,需在终端(win+r---->cmd)提示符下执......
  • 【机器学习】CNN卷积神经网络算法的基本概念、训练过程(含python代码)和应用领域
    引言卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种深度学习模型,主要用于图像识别、图像分类、物体检测和计算机视觉等领域文章目录引言一、卷积神经网络(ConvolutionalNeuralNetwork,CNN)1.1基本原理1.2主要结构1.2.1卷积层(ConvolutionalLayer)1.2.2激活函......
  • Python装饰器
     现在,我们来定义一个函数,fight。这个函数需要3个参数,color,time,o,分别是颜色、时间、某个对象。deffight(color,t,o):print(f'我们出生在{color}方阵营')print(f'敌军还有{t}秒到达战场')print(f'{o}出击') 玩过moba游戏的都知道这是游戏开头的语音播报,我......
  • [Python] 通过pymongo连接docker中并开启了副本集的mongodb数据库
    需要指定directConnection=true&authSource=atp-test参数,,否则会报连接副本集超时。在PyMongo中,directConnection参数可以决定客户端是否直接连接到MongoDB服务器,而不是自动发现所有的副本集成员。当directConnection设置为true时,客户端将只连接到MongoDB连接字符......
  • python 计算两个录音文件延迟
    需求a和b通讯,两人都将通话进行录音,现在要计算两段录音的延迟原理录音会有静音片段,通过程序识别到静音片段(比如小于-40dB为静默),计算静音片段的开始和结束时间,两个录音的时间相减得到延迟。系统环境,依赖库python安装pydub库。电脑下载ffmpeg,官网下载压缩包,解压后设置环境......
  • 【python】pygame开发小游戏原来如此简单,掌握这几步就可以快速上手
    ✨✨欢迎大家来到景天科技苑✨✨......
  • 《python语言程序设计》2018版第6章第47题编写显示两个棋盘,我没有按要求写定义
    一、我的奇幻结果大小棋盘的def的函数代码问题分析:原来的坐标加入了总坐标作为参考坐标配合使用drawChessboard(-6,-6,sizeGird=3)drawChessboard(16,16,sizeGird=10)大小棋盘的def的函数代码defdrawChessboard(startX,startY,sizeGird):turtle.spee......