1.实战目标
电影自媒体是指个人或团队通过互联网平台,如微博、微信公众号、抖音、B站等,发布与电影相关的内容,包括但不限于电影评论、推荐、幕后制作揭秘、明星访谈等。这些内容旨在吸引电影爱好者,并与之互动,构建起一定的观众群体。
那么做电影自媒体的伙伴们,不免经常需要在网站上查询获取电影数据,手动下载图片,预告片,摘录影片信息,今天给大家带来一个影刀机器人工具,能自动爬取猫眼电影网的数据。
猫眼电影是中国知名的电影票务平台,提供包括电影票预订、电影资讯、影迷互动等服务。它通过收集和分析大量的用户数据和市场数据,为电影行业提供多种服务和功能。是做自媒体伙伴们的一个很好的资料网站
今天我们主要获取即将上映的电影信息
我们需要获取电影名称,类型,区域,上映日期,剧情,主要演职人员,预告片,图集等
爬取猫眼电影数据时,必须遵守相关法律法规,尊重数据所有权和隐私权,合法合规地使用数据。
主要流程:
- 打开猫眼网站,进入即将上映电影列表
- 循环电影列表,获取电影详情页链接地址
- 打开电影详情页地址,采集电影基本信息
- 详情页点开图集,循环下载电影相关图片
- 详情页获取预告片列表,依次进入播放页面,获取每一步预告并下载保存本地
- 将电影基本数据保存在excel数据表中
2.实战结果展示
电影数据,我们使用excel存放。
每个电影依据名称创建一个文件夹保存
每个文件夹中有图集与预告片
当我们有这些资料在手,那么做视频剪辑,配音也就容易多了。
3.实战步骤
3.1 打开猫眼网站 进入目标网址
进入猫眼网站,我们选择电影,即将上映电影,然后按照时间排序,查询出未上映的电影列表信息,这里一定要选择按照时间排序,否则不会获取到即将上映的电影,当然你要获取热门电影也是可以的,依据需求
3.2 循环电影列表页
使用网页批量抓取功能,将数据缓存到数据列表中,然后我们循环数据列表,打开每一步电影的详情页面,采集电影数据。
实战仅展示当前页数据,没有设置多页采集,通过之前的影刀实战,我相信大家都能设置。
3.3 详情页获取影片信息
数据主要集中在这两块。这里我们循环相似元素来循环获取各个元素信息,对于剧情,我们单独获取文字信息。
当采集数据时,我们首先是需要观察他,看他符合那种特征,再寻找合适的指令去操作。能批量操作的尽量批量操作,可以节省时间和复杂性。
相应代码
在详情页面 我们创建一个文件夹,来保存图集与预告片,这个文件夹参数需要传递到子流程图集与预告片中
3.4 获取图集
将电影图片下载到本地保存,我们使用图片的索引来命名图片名称,从零开始。
图片宽高设置:
网页展示的图片是小图,宽高都是106,这样的图片是小图,不适合我们修剪,如果直接下载,那么是不能使用,我们需要替换图片地址的宽与高,使用影刀指令文本替换,将106替换长600宽度在下载,当然你也可以试着修改别的尺寸下载
https://p0.pipi.cn/mmdb/fb7386929ab5bfb12d3139c99931c1fd4c1fd.jpg?imageView2/1/w/106/h/106
网页图片是懒加载的,这样我们获取相似元素就不能获取全部图片,需要我们下滑到可见区域才显示,所以我们在循环的时候配合鼠标滚动网页指令,将其设置成滚动一屏, 每循环一次,页面滚动一屏,这样就获取了所有的图片。
3.5 获取预告片
预告片页面
循环获取预告片,将每一个都保存到本地
4.指令解析
http下载:通过 HTTP 下载文件,主要是下载网络资料,图片,文件都可以使用这个指令操作。
- 下载地址:输入或选择下载请求地址
- 文件保存目标:设置下载文件保存本地目录,若不存在则自动创建
- 指定文件名:默认会自动从下载地址上解析文件名,若勾选则自定义文件名
- 超时时间(秒):最大等待的下载时间,默认300秒
- 保存下载文件名称到:保存获取到的完整的文件名为变量
5.最后
感谢大家,请大家多多支持!
标签:获取,电影,爬虫,RPA,影刀,预告片,数据,下载,图片 From: https://blog.csdn.net/ddf128/article/details/142685157