Python爬虫获取B站漫画

标签：... Python 爬虫爬取 headers url 漫画 id 图片

《眼儿媚·朦胧雾》

身世飘零叹孤独回顾盼相扶情天不老雷霆易逝雨过云舒

相思不忍轻离别携手更如初风急波涌扁舟不系终恋江湖

最近有妖气上《鬼刀》停止更新了，Bilibili漫画上的又不能下载保存到本地，加上最近正在玩StyleGANs，需要一些动漫图片做训练数据集，所以搞个爬虫从Bilibili漫画上爬了个《鬼刀》全集。

工程师的乐趣就是这么简单！

本文介绍一下爬取的方法。

话说，《鬼刀》的画作真实细腻到极致了，王凌真是吾辈程序员楷模，作者目前也在学画画，道阻且长啊。

爬取彼岸图网的爬虫：

Python爬虫爬取彼岸图网4K图片-CSDN博客

爬取百度图片的爬虫：

百度图片爬虫-CSDN博客

首先，这是爬取成果：

本文以《鬼刀》为爬取目标，其他漫画可以此类推。

Note：这里有一个问题，这里的"@1100W"在不同的章节里是不同的，以鬼刀为例，有些是"@1100W"有些是"@1088W"，且没有规律，这个字符串不知道从哪获取，作者在XHR对象里没有找到，在HTML里倒有，但这个HTML也是动态加载的，但是，不影响爬取，无论是"@1100W"还是“@1088”都可以正常爬取，这个值影响获取的图片的宽度，"@1100W"代表图片宽度尺寸1100，作者使用7000，得到的图片宽最大为2500，这个应该是最大值了。

最后得到漫画图片的真实url：

使用这个url发送GET请求，即可得到漫画图片。

3.爬取流程

第一步，得到所有ep_id：

url      = 'https://manga.bilibili.com/twirp/comic.v1.Comic/ComicDetail?device=pc&platform=web'
comic_id = 29481

response = requests.post(url=url, headers=headers_id, json=data).json()

headers从网页上照抄：

data为漫画编号即Comic_id：

获得所有ep_id：

第二步，获得图片基础路径：

url     = 'https://manga.bilibili.com/twirp/comic.v1.Comic/GetImageIndex?device=pc&platform=web'
request = requests.post(url=url, headers=headers_path, json=data).json()

headers从网页上照抄，要改两个地方：

1.'accept-encoding' 需要注释掉，不然会报错，原因不明；

2.'referer'需要根据ep_id重新生成；