首页 > 其他分享 >影刀RPA实战：网页爬虫之电影数据

影刀RPA实战：网页爬虫之电影数据

时间：2024-10-03 21:47:52浏览次数：14

标签：获取电影爬虫 RPA 影刀预告片数据下载图片

1.实战目标

电影自媒体是指个人或团队通过互联网平台，如微博、微信公众号、抖音、B站等，发布与电影相关的内容，包括但不限于电影评论、推荐、幕后制作揭秘、明星访谈等。这些内容旨在吸引电影爱好者，并与之互动，构建起一定的观众群体。

那么做电影自媒体的伙伴们，不免经常需要在网站上查询获取电影数据，手动下载图片，预告片，摘录影片信息，今天给大家带来一个影刀机器人工具，能自动爬取猫眼电影网的数据。

猫眼电影是中国知名的电影票务平台，提供包括电影票预订、电影资讯、影迷互动等服务。它通过收集和分析大量的用户数据和市场数据，为电影行业提供多种服务和功能。是做自媒体伙伴们的一个很好的资料网站

今天我们主要获取即将上映的电影信息

我们需要获取电影名称，类型，区域，上映日期，剧情，主要演职人员，预告片，图集等

爬取猫眼电影数据时，必须遵守相关法律法规，尊重数据所有权和隐私权，合法合规地使用数据。

主要流程：

打开猫眼网站，进入即将上映电影列表
循环电影列表，获取电影详情页链接地址
打开电影详情页地址，采集电影基本信息
详情页点开图集，循环下载电影相关图片
详情页获取预告片列表，依次进入播放页面，获取每一步预告并下载保存本地
将电影基本数据保存在excel数据表中

2.实战结果展示

电影数据,我们使用excel存放。

每个电影依据名称创建一个文件夹保存

每个文件夹中有图集与预告片

当我们有这些资料在手，那么做视频剪辑，配音也就容易多了。

3.实战步骤

3.1 打开猫眼网站进入目标网址

进入猫眼网站，我们选择电影，即将上映电影，然后按照时间排序，查询出未上映的电影列表信息，这里一定要选择按照时间排序，否则不会获取到即将上映的电影，当然你要获取热门电影也是可以的，依据需求

3.2 循环电影列表页

使用网页批量抓取功能，将数据缓存到数据列表中，然后我们循环数据列表，打开每一步电影的详情页面，采集电影数据。

实战仅展示当前页数据，没有设置多页采集，通过之前的影刀实战，我相信大家都能设置。

3.3 详情页获取影片信息

数据主要集中在这两块。这里我们循环相似元素来循环获取各个元素信息，对于剧情，我们单独获取文字信息。

当采集数据时，我们首先是需要观察他，看他符合那种特征，再寻找合适的指令去操作。能批量操作的尽量批量操作，可以节省时间和复杂性。

相应代码

在详情页面我们创建一个文件夹，来保存图集与预告片，这个文件夹参数需要传递到子流程图集与预告片中

3.4 获取图集

将电影图片下载到本地保存，我们使用图片的索引来命名图片名称，从零开始。

图片宽高设置：

网页展示的图片是小图，宽高都是106，这样的图片是小图，不适合我们修剪，如果直接下载，那么是不能使用，我们需要替换图片地址的宽与高，使用影刀指令文本替换，将106替换长600宽度在下载，当然你也可以试着修改别的尺寸下载

https://p0.pipi.cn/mmdb/fb7386929ab5bfb12d3139c99931c1fd4c1fd.jpg?imageView2/1/w/106/h/106

网页图片是懒加载的，这样我们获取相似元素就不能获取全部图片，需要我们下滑到可见区域才显示，所以我们在循环的时候配合鼠标滚动网页指令，将其设置成滚动一屏，每循环一次，页面滚动一屏，这样就获取了所有的图片。

3.5 获取预告片

预告片页面

循环获取预告片，将每一个都保存到本地

4.指令解析

http下载：通过 HTTP 下载文件，主要是下载网络资料，图片，文件都可以使用这个指令操作。

下载地址：输入或选择下载请求地址
文件保存目标：设置下载文件保存本地目录，若不存在则自动创建
指定文件名：默认会自动从下载地址上解析文件名，若勾选则自定义文件名
超时时间(秒)：最大等待的下载时间，默认300秒
保存下载文件名称到：保存获取到的完整的文件名为变量

5.最后

感谢大家，请大家多多支持！

标签：获取,电影,爬虫,RPA,影刀,预告片,数据,下载,图片
From： https://blog.csdn.net/ddf128/article/details/142685157

相关文章

【python爬虫可以获取到谷歌影像吗？】如何有效下载谷歌影像？
【python爬虫可以获取到谷歌影像吗？】如何有效下载谷歌影像？【python爬虫可以获取到谷歌影像吗？】如何有效下载谷歌影像？文章目录【python爬虫可以获取到谷歌影像吗？】如何有效下载谷歌影像？前言1.使用GoogleEarthEngine来获取影像数据Step1：注册GoogleEarthEngineS......
django基于Hadoop的气象数据的研究与应用(源码+vue+可视化大屏展示+爬虫分析+讲解等)
收藏关注不迷路！！......
无限超人：RPA到IPA，RPA百年演进史
在探索RPA（机器人流程自动化）的起源时，我们可以将时钟回拨到1954年，那时工业机器人首次亮相。而流程自动化的历史则更为悠久，1913年福特汽车制造车间的第一条自动化生产线标志着这一技术的诞生。尽管RPA作为一个专业术语出现至今不到二十年，但自动化的发展历程，包括机械化、信息化，以......
无限超人：RPA与爬虫的定义、功能和区别
RPA（RoboticProcessAutomation）被设计为一种模仿人类用户操作的自动化技术，用于执行企业中的重复性任务，如数据输入、文件管理和系统集成等，以此提高工作效率。另一方面，网络爬虫（WebCrawler）是一种自动检索互联网信息的程序，它通过抓取网页数据并进行保存或分析。尽管两者都具有自动......

赞助商

阅读排行