首页 > 其他分享 >编写爬虫下载公众号上好看的壁纸

编写爬虫下载公众号上好看的壁纸

时间:2025-01-20 23:34:56浏览次数:1  
标签:img url fields self 爬虫 编写 images 壁纸

前言

很多年前我还在大学的时候,曾经写过一篇类似的文章,不过当时是采集某游戏官网上好看的壁纸。

最近微信公众号总是给我推荐各种壁纸,里面有不少好看的,不过一张张保存太麻烦了,索性写个爬虫自动下载。

这个爬虫的功能点

简单列一下这次项目涉及到的功能点,不过并不会每个都写在本文里,主要还是爬虫部分。

其他功能如果有同学感兴趣,后续我再分享。

  • 获取指定公众号的所有文章
  • 下载文章里符合规则的壁纸
  • 过滤无关图片,如引导关注小图标
  • 数据持久化(试用异步ORM和轻量级NoSQL)
  • 图片分析(尺寸信息、感知哈希、文件MD5)
  • 所有运行过程都有进度条展示,非常友好

爬虫相关文章

这几年我写过不少跟爬虫有关的文章,

项目结构

依然是使用 pdm 这个工具来作为依赖管理。

本项目用到的依赖有这些

dependencies = [
    "requests>=2.32.3",
    "bs4>=0.0.2",
    "loguru>=0.7.3",
    "tqdm>=4.67.1",
    "tinydb>=4.8.2",
    "pony>=0.7.19",
    "tortoise-orm[aiosqlite]>=0.23.0",
    "orjson>=3.10.14",
    "aerich[toml]>=0.8.1",
    "pillow>=11.1.0",
    "imagehash>=4.3.1",
]

还有一个dev依赖,用来观测数据库(试用了轻量级NoSQL,没有可视化的方法)

[dependency-groups]
dev = [
    "jupyterlab>=4.3.4",
]

数据持久化

每次这种项目我都会试用不同的数据持久化方案

对于关系型数据库,我上一次是用了peewee这个ORM

后面发现主要问题是不支持自动迁移(也许现在已经支持了,但我使用时是几年前了)

其他还行,凑合用。

这次我一开始并没有做持久化,但几次关机导致进度丢失,要写一堆规则去匹配,实在是麻烦。

后面直接全部重构了。

我先后尝试了 tinydb(单文件文档型NoSQL)、pony(关系型ORM)、tortoise-orm

最终选择了 tortoise-orm,原因是语法和Django ORM很像,不想走出舒适圈了。

模型定义

from tortoise.models import Model
from tortoise import fields


class Article(Model):
    id = fields.IntField(primary_key=True)
    raw_id = fields.TextField()
    title = fields.TextField()
    url = fields.TextField()
    created_at = fields.DatetimeField()
    updated_at = fields.DatetimeField()
    html = fields.TextField()
    raw_json = fields.JSONField()

    def __str__(self):
        return self.title


class Image(Model):
    id = fields.IntField(primary_key=True)
    article = fields.ForeignKeyField('models.Article', related_name='images')
    url = fields.TextField()
    is_downloaded = fields.BooleanField(default=False)
    downloaded_at = fields.DatetimeField(null=True)
    local_file = fields.TextField(null=True)
    size = fields.IntField(null=True, description='unit: bytes')
    width = fields.IntField(null=True)
    height = fields.IntField(null=True)
    image_hash = fields.TextField(null=True)
    md5_hash = fields.TextField(null=True)

    def __str__(self):
        return self.url

这俩模型能满足本项目的所有需求了,甚至还能进一步实现后续功能,如:相似图片识别、图片分类等。

获取指定公众号的所有文章

这种方法需要有一个公众号。

通过公众号里添加「超链接」的功能来获取文章列表。

具体操作见参考资料。

准备工作

这里只提几个关键点,进入超链接菜单后,按F12抓包

主要看 /cgi-bin/appmsg 这个接口,需要提取其中的

  • Cookie
  • token
  • fakeid - 公众号ID,base64编码

前两个每次登录都不一样,可以考虑使用 selenium 搭配本地代理来抓包自动更新,详情参考我之前写过的文章: Selenium爬虫实践(踩坑记录)之ajax请求抓包、浏览器退出

代码实现

我将操作封装为 class

class ArticleCrawler:
    def __init__(self):
        self.url = "接口地址,根据抓包地址来"
        self.cookie = ""
        self.headers = {
            "Cookie": self.cookie,
            "User-Agent": "填写合适的UA",
        }
        self.payload_data = {} # 根据实际抓包拿到的数据来
        self.session = requests.Session()
        self.session.headers.update(self.headers)

    def fetch_html(self, url):
        """获取文章 HTML"""
        try:
            response = self.session.get(url, timeout=10)
            response.raise_for_status()
            return response.text
        except Exception as e:
            logger.error(f"Failed to fetch HTML for {url}: {e}")
            return None

    @property
    def total_count(self):
        """获取文章总数"""
        content_json = self.session.get(self.url, params=self.payload_data).json()
        try:
            count = int(content_json["app_msg_cnt"])
            return count
        except Exception as e:
            logger.error(e)
            logger.warning(f'response json: {content_json}')

        return None

    async def crawl_list(self, count, per_page=5):
        """获取文章列表并存入数据库"""
        logger.info(f'正在获取文章列表,total count: {count}')

        created_articles = []

        page = int(math.ceil(count / per_page))
        for i in tqdm(range(page), ncols=100, desc="获取文章列表"):
            payload = self.payload_data.copy()
            payload["begin"] = str(i * per_page)
            resp_json = self.session.get(self.url, params=payload).json()
            articles = resp_json["app_msg_list"]

            # 存入
            for item in articles:
                # 检查是否已经存在,避免重复插入
                if await Article.filter(raw_id=item['aid']).exists():
                    continue

                created_item = await Article.create(
                    raw_id=item['aid'],
                    title=item['title'],
                    url=item['link'],
                    created_at=datetime.fromtimestamp(item["create_time"]),
                    updated_at=datetime.fromtimestamp(item["update_time"]),
                    html='',
                    raw_json=item,
                )
                created_articles.append(created_item)

            time.sleep(random.uniform(3, 6))

        logger.info(f'created articles: {len(created_articles)}')

    async def crawl_all_list(self):
        return self.crawl_list(self.total_count)

    async def crawl_articles(self, fake=False):
        # 这里根据实际情况,筛选出壁纸文章
        qs = (
            Article.filter(title__icontains='壁纸')
            .filter(Q(html='') | Q(html__isnull=True))
        )

        count = await qs.count()

        logger.info(f'符合条件的没有HTML的文章数量: {count}')

        if fake: return

        with tqdm(
                total=count,
                ncols=100,
                desc="⬇ Downloading articles",
                # 可选颜色 [hex (#00ff00), BLACK, RED, GREEN, YELLOW, BLUE, MAGENTA, CYAN, WHITE]
                colour='green',
                unit="page",
                bar_format='{l_bar}{bar} | {n_fmt}/{total_fmt} pages [{rate_fmt}]',
        ) as pbar:
            async for article in qs:
                article: Article
                article.html = self.fetch_html(article.url)
                await article.save()
                pbar.update(1)
                time.sleep(random.uniform(2, 5))

这段代码做了啥?

应该说是这个类有什么功能。

  • 获取指定公众号的文章总数
  • 循环按页获取公众号的文章,包括文章标题、地址、内容
  • 将文章存入数据库

代码解析

其中关键就是 crawl_list 方法

其实代码是比较粗糙的,没有错误处理,而且每个循环里都会去访问数据库,性能肯定是不咋样的。

正确的做法是先把数据库里已有的文章ID读取出来,然后就不会每次循环都查询数据库了。

不过是简单的爬虫就没去优化了。

然后每次循环使用 time.sleep(random.uniform(3, 6)) 随机暂停一段时间。

进度条

这里使用了 tqdm 库来实现进度条(python 生态似乎有更简单的进度条库,我之前用过,不过大多是基于 tqdm 封装的)

bar_format 参数用法:使用 bar_format 来自定义进度条的格式,可以显示已处理文件数量、总文件数量、处理速度等。

  • {l_bar} 是进度条的左侧部分,包含描述和百分比。
  • {bar} 是实际的进度条。
  • {n_fmt}/{total_fmt} 显示当前进度和总数。
  • {rate_fmt} 显示处理速率。

解析网页

前面只是把文章的 HTML 下载下来,还得从网页里提取出图片地址。

这时候就需要写一个解析的方法了

def parse_html(html: str) -> list:
    soup = BeautifulSoup(html, 'html.parser')
    img_elements = soup.select('img.wxw-img')

    images = []

    for img_element in img_elements:
        img_url = img_element['data-src']
        images.append(img_url)

    return images

简单使用 css selector 来提取图片

提取图片

还记得模型有个 Image 吧?

到目前为止还没用上。

这一小节就来提取并存入数据库

async def extract_images_from_articles():
	# 根据实际情况写查询
    qs = (
        Article.filter(title__icontains='壁纸')
        .exclude(Q(html='') | Q(html__isnull=True))
    )

    article_count = await qs.count()

    with tqdm(
            total=article_count,
            ncols=100,
            desc="⬇ extract images from articles",
            colour='green',
            unit="article",
            bar_format='{l_bar}{bar} | {n_fmt}/{total_fmt} articles [{rate_fmt}]',
    ) as pbar:
        async for article in qs:
            article: Article
            images = parse_html(article.html)
            for img_url in images:
                if await Image.filter(url=img_url).exists():
                    continue

                await Image.create(
                    article=article,
                    url=img_url,
                )

            pbar.update(1)

    logger.info(f'article count: {article_count}, image count: {await Image.all().count()}')

这个方法先把数据库里的文章读取出来,然后从文章的 HTML 里提取出图片,最后把所有图片存入数据库。

这里代码同样存在循环里反复查询数据库的问题,不过我懒得优化了…

下载图片

类似的,我编写了 ImageCrawler 类

class ImageCrawler:
    def __init__(self):
        self.session = requests.Session()
        self.session.headers.update(headers)
        self.images_dir = os.path.join('output', 'images')
        os.makedirs(self.images_dir, exist_ok=True)

    def download_image(self, url):
        img_path = os.path.join(self.images_dir, f'{time.time()}.{extract_image_format_re(url)}')
        img_fullpath = os.path.join(os.getcwd(), img_path)

        try:
            response = self.session.get(url)
            with open(img_fullpath, 'wb') as f:
                f.write(response.content)

            return img_path
        except Exception as e:
            logger.error(e)

        return None

这个代码就简单多了,就单纯下载图片。

图片的文件名我使用了时间戳。

不过要实际把图片采集下来,还没那么简单。

接下来写一个下载图片的方法

async def download_images():
    images = await Image.filter(is_downloaded=False)

    if not images:
        logger.info(f'no images to download')
        return

    c = ImageCrawler()

    with tqdm(
            total=len(images),
            ncols=100,
            desc="⬇ download images",
            colour='green',
            unit="image",
            bar_format='{l_bar}{bar} | {n_fmt}/{total_fmt} images [{rate_fmt}]',
    ) as pbar:
        for image in images:
            image: Image
            img_path = c.download_image(image.url)
            if not img_path:
                continue

            image.is_downloaded = True
            image.local_file = img_path
            await image.save()

            pbar.update(1)
            time.sleep(random.uniform(1, 3))

筛选未下载的图片,下载之后更新数据库,把图片的下载路径存进去。

把程序运行起来

最后需要把程序的各部分像糖葫芦一样串起来。

这次用到了异步,所有会有些不一样

async def main():
    await init()
    await extract_images_from_articles()
    await download_images()

最后在程序入口调用

if __name__ == '__main__':
    run_async(main())

run_async 方法是 tortoise-orm 提供的,可以等待异步方法运行完成,并回收数据库连接。

开发记录

我将 git 提交记录导出之后简单整理下,形成这个开发记录表格。

Date & Time Message
2025-01-18 19:02:21

标签:img,url,fields,self,爬虫,编写,images,壁纸
From: https://www.cnblogs.com/deali/p/18682643

相关文章

  • python转转商超书籍信息爬虫
    1基本理论1.1概念体系        网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等,可以按照我们设置的规则自动化爬取网络上的信息,这些规则被称为爬虫算法。是一种自动化程序,用于从互联网上抓取数据。爬虫通过模拟浏览器的行为,访问网页并提取信息。这些信息可以是结构化的......
  • 写了一个在线执行python的小工具,实现手机编写python代码后运行。
    为了初学者验证一些简单的python代码,写了一个小程序,能在线运行一些基础的python代码,还给了一些例子,后续会新增更多用例。简单首页后续更新其他基础知识在线编程页面里主要是一个输入框,和一些代码例子,点击即可自动导入,点击运行代码后,后端会执行相应运行。运行结果......
  • (2024最新毕设合集)基于SpringBoot的游乐园管理系统-69394|可做计算机毕业设计JAVA、PHP
    目录1绪论1.1选题背景与意义1.2国内外研究现状1.3论文结构与章节安排2系统分析2.1可行性分析2.1.1经济可行性2.1.2技术可行性2.1.3操作可行性2.2系统流程分析2.2.1系统开发流程2.2.2用户登录流程2.2.3系统操作流程2.2.4添加信息流程2.2.5......
  • 使用Java爬虫获取微店商品详情实践指南
    在电商领域,获取商品详情数据对于商家和开发者来说至关重要。微店作为国内知名的电商平台,提供了丰富的商品数据接口,方便开发者通过API调用获取商品详情。以下将详细介绍如何使用Java爬虫获取微店商品详情,并提供具体的代码示例。一、微店商品详情API接口简介微店提供了商品详情......
  • 迅为RK3568开发板SPI驱动指南-mcp2515驱动编写:读寄存器函数
    瑞芯微RK3568芯片是一款定位中高端的通用型SOC,采用22nm制程工艺,搭载一颗四核Cortex-A55处理器和MaliG522EE图形处理器。RK3568支持4K解码和1080P编码,支持SATA/PCIE/USB3.0外围接口。RK3568内置独立NPU,可用于轻量级人工智能应用。RK3568支持安卓11和linux系统,主要面向......
  • 一些著名的软件都用什么语言编写?
    作者:土豆居士来源:一口Linux1、操作系统MicrosoftWindows:汇编->C->C++ 备注:曾经在智能手机的操作系统(WindowsMobile)考虑掺点C#写的程序,比如软键盘,结果因为写出来的程序太慢,实在无法和别的模块合并,最终又回到C++重写。相信很多朋友都知道WindowsVista,这个系统开发......
  • 聊天也能写程序?10 分钟让 AI 帮你编写出文本格式转换的程序
    聊天也能写程序?10 分钟让 AI 帮你编写出文本格式转换的程序今天,我要和大家分享:只需跟AI聊聊天,10分钟就能搞定文本格式转换的程序!在 家长必看!1小时搞定RAZ英文绘本英文提取! 文章里提到,我通过AI实现语音转文字,但得到的文本格式只有一大段文字。我想要将这......
  • 爬虫实战带上代码讲解(以爬取好大夫为例)
    前言:我感觉之前讲的爬虫,太纸面化了,需要给一些实例来帮助理解。毕竟爬虫这项技能,我们经常可能用到,通常用于爬虫数据来训练模型。延续上一篇文章所说将爬虫分为四个主要部分:获取网页源代码解析网页并提取数据实现自动化抓取逻辑保存数据到文件(如execl)第一步:获取网页源代码......
  • 我用AI Assistant编写代码,竟完成了100%的Coding工作!还在蒙头敲代码的时代已经过去啦!
    大家好,欢迎来到程序视点!我是小二哥。前言昨天我们详细分享了Cursor、GitHubCopilot和AIAssistant三款AI工具怎么选的问题。今天,我们用AIAssistant来解决下实践中的问题–AIAssistant写代码。这是某高校技能大赛的题目之一。大家自己评估一下,写出这道题需要多久?AI......
  • 一篇文章带你入门爬虫
    前言本篇引用的很多代码出自猿人学和帅彬老仙,算是把自己的学习笔记发上来了,有些不完善的地方还会继续完善~!http协议:目前互联网上%90的网络传输都是基于http协议,但是弹幕可能采用的是websocket协议,http协议是基于TCP/IP通信协议来传输数据的,http请求流程我们日常用浏览......