python网络爬虫（二）

时间：2023-01-06 11:24:56浏览次数：67

标签：img python 爬虫 E7% 网络 url import data

今天看了网络爬虫爬取图片的内容，主要是讲利用正则匹配爬图片。

Day3 - 3.正则解析案例01_哔哩哔哩_bilibili

所以就想着用学到的内容去试一下，我直接用这个方法去爬B站的图片。

（1）查找一下图片元素

最终，我们要给可匹配的正则，'<img src="(.*?)" alt=.*?>'。

（2）代码编写

import re

import requests
import json
import os
if not os.path.exists("./pic"):
    os.mkdir("./pic")
img_list=[]
url = 'https://search.bilibili.com/all?vt=06867697&keyword=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB'
head = {'User-Agent':
            'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.54'}  # 增加请求头，防反爬虫
data = {'type':'24',
        'interval_id':'100:90',
        'action':'',
        'start':'0',
        'limit':'20'
    }  # 带上from data的数据进行请求
ex='<img src="(.*?)" alt=.*?>'
for i in range(1,10):
    new_url=url+"page="+str(i)
    req = requests.get(url=new_url,headers=head).text
    img_list.append(re.findall(ex,req,re.S))
i=0
for img_vec in img_list:
    for img in img_vec:
        i=i+1
        img="https:"+img
        img_data=requests.get(url=img,headers=head).content
        imgPath="./pic/"+str(i)+".jpg"
        with open(imgPath,"wb") as fp:
            fp.write(img_data)
            print(img_data," loaded")

（3）结果展示

标签：img,python,爬虫,E7%,网络,url,import,data
From： https://www.cnblogs.com/xmds/p/17029895.html

【Python】traceback使用
traceback使用importtracebackimportosfrompathlibimportPathfromioimportStringIOfp=StringIO()#使用内存try:print('---------')int('abc......
使用python编写端口扫描工具
端口扫描工具编写目录端口扫描工具编写0x01：实现端口扫描的方式一、TCP扫描：二、SYN扫描：三、UDP扫描：0x02：使用python实现端口扫描一、使用socket库的connect()方法扫描1、核......
【从零开始学爬虫】采集食品行业最新报价数据
l采集网站【场景描述】采集食品行业最新报价数据。【源网站介绍】中国报告大厅网休闲食品行业数据频道提供休闲食品行业数据信息，在此有大量休闲食品行业数据信息可......
【Python】pandas 读取,保存数据
pandas读取/保存数据importpandasaspdfile=r''df=pd.read_excel(file)df_columns=df.columns.to_list()#字段名listredundant_column=['name','age......
Zabbix与乐维监控对比分析（七）——网络功能篇
前面我们详细介绍了Zabbix与乐维监控在架构与性能、Agent管理、自动发现、权限管理、对象管理、告警管理、可视化及图形图表方面的对比分析，接下来我们将对二者网络功能方面......
python-面向对象
1.什么是面向对象编程面向过程编程：是一种以过程为中心的编程思想。这些都是以什么正在发生为主要目标进行编程。面向对象编程：是一种计算机编程架构，以对象为中心的编......
python-异常处理
1.python-异常处理什么是异常？顾名思义，异常就是程序因为某种原因无法正常工作了，比如缩进错误、缺少软件包、环境错误、连接超时等都会引发异常。一个健壮的程序应该把......
python-自定义模块及导入方法
1.自定义模块一个较大的程序一般应分为若干个程序块，若个程序块称为模块，每个模块用来实现一部分特定的功能。这样做的目的是为了将代码有组织的存放在一起，方便管......
python-函数-作用域
1.作用域作用域：限制一个变量或一段代码可用范围，好处是提高了城乡逻辑局部性，减少名字冲突作用域结构图：Local（局部作用域）：在函数中定义的变量，def关键字定义的语句块......
python-函数-常用内建函数
1.函数-常用内建函数内建函数python解释器内置了很多函数，你可用直接使用它们在前面学习过的内建函数有：print()、len()、open()、range()内建函数描述map()......

python网络爬虫（二）

相关文章

赞助商

阅读排行