python爬取公众号链接里面的图片

时间：2022-12-28 17:34:25浏览次数：41

标签：get python 爬取 url print path data 链接图片

话不多说，步入今天文章的分享内容，今天给大家带来的是~~爬取微信公众号文章里面的图片。

爬虫代码：

# coding:utf-8
# __auth__ = "maiz"
# __date__ = "2021/3/27"
import os
import requests
from bs4 import BeautifulSoup
import datetime
import os
# url = input("请输入url：")
url='https://mp.weixin.qq.com/s/GGw4MKXd-9bx6ty14-XXew'#获取连接
curr_time = datetime.datetime.now()#获取系统时间
print(curr_time)#打印时间 测试用
headers = {
    'user-agent': 'Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1'}# 'cookie': 'tvfe_boss_uuid=4427f26b6d83d5d7; pgv_pvid=8192465356; pgv_pvi=2750494720; RK=cfw14pvSFY; ptcz=026939cd8bdd917551be81f3d0d2563bdb9e2d0805f4c83de8df0ea6af457e49; eas_sid=i1e690x1l8v2I68559J4e8K995; LW_sid=W1C6S0u1y8a2A6E864o8L480Z0; LW_uid=51H6V041L8i2n6Q8M4S8e4k0D0; uin_cookie=o0878530130; ied_qq=o0878530130; o_cookie=878530130; pac_uid=1_878530130; luin=o0878530130; lskey=000100000f95a236a0b3f6a309a1f6e4809612024104f9a476a9b0803995ce53ec225971d5d95f3164c7df7a; rewardsn=; wxtokenkey=777'}
path = datetime.datetime.strftime(curr_time, '%Y%m%d%H%M')#将时间格式化为字符生成时间戳到时候给文件夹命名用
print(path)
if os.path.exists(path):#检查是否存在这个文件夹
    print("属于这个时间点的文件夹已经创建好")
else:
    os.mkdir(path)#不存在则创建
    print("创建成功！！！！正在保存图片")
dirname = os.getcwd() + '\\' + path + '\\'#获取当前工作目录并加上之前的时间生成文件夹路径
req = requests.get(url=url, headers=headers).content.decode()#向刚才输入的公众号链接里面发送请求
soup = BeautifulSoup(req, 'lxml')#用BeautifulSoup解析网页
res = soup.select('img')#获取该网页中所有的图片标签
a = 0
for i in res:#遍历所有的图片标签
    if i.get("data-src") == None:#如果这个标签内的data-src等于空的时候直接跳过
        pass
    else:#否则获取data-src里面的内容获取图片链接
        print(f'链接：{i.get("data-src")}类型为：{i.get("data-type")}')
        try:#尝试去保存图片 如果保存图片错误则抛出异常
            with open(dirname + f'{a}.{i.get("data-type")}', 'wb') as f:#拼接路径+a.jpg a是等于数字 每添加一个 a自增一 相当于是给图片命名 并且以二进制的形式写入
                f.write(requests.get(url=i.get("data-src"), headers=headers).content)#向这个图片发送请求 并将图片的二进制写入
                f.close()#关闭写入
                a = a + 1#a自增一
        except Exception as e:#抛出异常 增加程序强壮性
            print("该链接为空自动跳过！")
print(f"此次一共成功保存图片{a}张")

标签：get,python,爬取,url,print,path,data,链接,图片
From： https://blog.51cto.com/u_15924937/5975834

Python中使用xpath一键获取各国国旗
国旗是一个国家的主权意识不断增强后必然的产物，国旗是国家的一种标志性旗帜，是国家的象征。代表着一个国家的主权和民族的尊严。每个国家的国旗都由特有的颜色和图案构成，这些......
py爬取当当网前500畅销书，送给书荒的你
最近和朋友聊天，讨论到读书的问题，说是读书到底有什么用？我半开玩笑的给他讲了一个故事。男孩将女孩送到宿舍楼下，看着一路上两人始终保持着的那一步的距离，男孩终于鼓起勇气，说道......
使用py爬取复产后的鹅厂都在招聘哪些职位
hello呀，各位小伙伴，今天是五月的第二天，不知道大家是在家里wifi,空调，西瓜呢，还是在拥挤的景区看着人山人海！反正小编是穿着大裤衩，坐在马路边的沙滩上，啜一口摆在身边的饮料，享受......
Python一键查询 ICP 备案详情
做搜索引擎优化的都时长面临一个问题，就是网站备案到底对seo是否有影响呢，今天将为大家仔细分析网站备案，到底对SEO有没有影响?首先说下网站备案的目的、是为了防止在网上从事......
使用Python的asyncio模块异步下载整站壁纸
这篇文章主要给大家介绍关于Python中asyncio模块的相关资料，文中通过示例代码介绍的非常详细，对大家学习或者使用Python具有一定的参考学习价值，需要的朋友们下面来一起学习学......
使用python爬取B站视频
B站之所以火，是因为趣味与知识并存。正如一句“你在B站看番，我在B站学习”，B站还是有一些质量比较好的学习视频。当你在B站上看到喜欢的视频想保存下来时，怎么办呢？我相信很多逛B......
Python 爬取人人视频
hello,小伙伴们，又见面了，距离上一次发布文章的时间，也算是久别重逢了。期间也发生了很多的事情，导致博文断更，也是笔者不愿意的，但是确实是比较忙，不再过多赘述，希望大家能够体谅。......
Python爬取快手博主所有视频
随着互联网经济的快速发展和自媒体行业的普及，越来越多的视频创作者加入了短视频平台，不仅快速的推动了短视频平台行业的发展，也给大众带来了更多新鲜有趣的知识和内容。据最新......
sublime安装REPL无法执行python3.7版本
一、下载sublime最新版本地址：SublimeText-TextEditing,DoneRight单击DOWNLOADFORWINDOWS需要等一会儿自己就下载了。安装就是下一步就可以了。二、安装......
python 使用thread多线程执行耗时代码
python使用thread多线程执行耗时代码1、引入所需要的包importqueueimportthreadingimporttraceback2、定义线程类：classThreadService(threading.Thread): de......

python爬取公众号链接里面的图片

相关文章

赞助商

阅读排行