首页 > 编程语言 >python网络爬虫(二)

python网络爬虫(二)

时间:2023-01-06 11:24:56浏览次数:59  
标签:img python 爬虫 E7% 网络 url import data

今天看了网络爬虫爬取图片的内容,主要是讲利用正则匹配爬图片。

Day3 - 3.正则解析案例01_哔哩哔哩_bilibili

所以就想着用学到的内容去试一下,我直接用这个方法去爬B站的图片。

(1)查找一下图片元素

 

 

 

最终,我们要给可匹配的正则,'<img src="(.*?)" alt=.*?>'。

(2)代码编写

import re

import requests
import json
import os
if not os.path.exists("./pic"):
    os.mkdir("./pic")
img_list=[]
url = 'https://search.bilibili.com/all?vt=06867697&keyword=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB'
head = {'User-Agent':
            'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.54'}  # 增加请求头,防反爬虫
data = {'type':'24',
        'interval_id':'100:90',
        'action':'',
        'start':'0',
        'limit':'20'
    }  # 带上from data的数据进行请求
ex='<img src="(.*?)" alt=.*?>'
for i in range(1,10):
    new_url=url+"page="+str(i)
    req = requests.get(url=new_url,headers=head).text
    img_list.append(re.findall(ex,req,re.S))
i=0
for img_vec in img_list:
    for img in img_vec:
        i=i+1
        img="https:"+img
        img_data=requests.get(url=img,headers=head).content
        imgPath="./pic/"+str(i)+".jpg"
        with open(imgPath,"wb") as fp:
            fp.write(img_data)
            print(img_data," loaded")

(3)结果展示

 

标签:img,python,爬虫,E7%,网络,url,import,data
From: https://www.cnblogs.com/xmds/p/17029895.html

相关文章

  • 【Python】traceback使用
    traceback使用importtracebackimportosfrompathlibimportPathfromioimportStringIOfp=StringIO()#使用内存try:print('---------')int('abc......
  • 使用python编写端口扫描工具
    端口扫描工具编写目录端口扫描工具编写0x01:实现端口扫描的方式一、TCP扫描:二、SYN扫描:三、UDP扫描:0x02:使用python实现端口扫描一、使用socket库的connect()方法扫描1、核......
  • 【从零开始学爬虫】采集食品行业最新报价数据
     l采集网站【场景描述】采集食品行业最新报价数据。【源网站介绍】中国报告大厅网休闲食品行业数据频道提供休闲食品行业数据信息,在此有大量休闲食品行业数据信息可......
  • 【Python】pandas 读取,保存数据
    pandas读取/保存数据importpandasaspdfile=r''df=pd.read_excel(file)df_columns=df.columns.to_list()#字段名listredundant_column=['name','age......
  • Zabbix与乐维监控对比分析(七)——网络功能篇
    前面我们详细介绍了Zabbix与乐维监控在架构与性能、Agent管理、自动发现、权限管理、对象管理、告警管理、可视化及图形图表方面的对比分析,接下来我们将对二者网络功能方面......
  • python-面向对象
    1.什么是面向对象编程面向过程编程:是一种以过程为中心的编程思想。这些都是以什么正在发生为主要目标进行编程。面向对象编程:是一种计算机编程架构,以对象为中心的编......
  • python-异常处理
    1.python-异常处理什么是异常?顾名思义,异常就是程序因为某种原因无法正常工作了,比如缩进错误、缺少软件包、环境错误、连接超时等都会引发异常。一个健壮的程序应该把......
  • python-自定义模块及导入方法
    1.自定义模块​ 一个较大的程序一般应分为若干个程序块,若个程序块称为模块,每个模块用来实现一部分特定的功能。​ 这样做的目的是为了将代码有组织的存放在一起,方便管......
  • python-函数-作用域
    1.作用域作用域:限制一个变量或一段代码可用范围,好处是提高了城乡逻辑局部性,减少名字冲突作用域结构图:Local(局部作用域):在函数中定义的变量,def关键字定义的语句块......
  • python-函数-常用内建函数
    1.函数-常用内建函数内建函数python解释器内置了很多函数,你可用直接使用它们在前面学习过的内建函数有:print()、len()、open()、range()内建函数描述map()......