首页 > 其他分享 >影刀RPA实战:网页爬虫之电影数据

影刀RPA实战:网页爬虫之电影数据

时间:2024-10-03 21:47:52浏览次数:12  
标签:获取 电影 爬虫 RPA 影刀 预告片 数据 下载 图片

1.实战目标

电影自媒体是指个人或团队通过互联网平台,如微博、微信公众号、抖音、B站等,发布与电影相关的内容,包括但不限于电影评论、推荐、幕后制作揭秘、明星访谈等。这些内容旨在吸引电影爱好者,并与之互动,构建起一定的观众群体。

那么做电影自媒体的伙伴们,不免经常需要在网站上查询获取电影数据,手动下载图片,预告片,摘录影片信息,今天给大家带来一个影刀机器人工具,能自动爬取猫眼电影网的数据。

猫眼电影是中国知名的电影票务平台,提供包括电影票预订、电影资讯、影迷互动等服务。它通过收集和分析大量的用户数据和市场数据,为电影行业提供多种服务和功能。是做自媒体伙伴们的一个很好的资料网站

今天我们主要获取即将上映的电影信息

我们需要获取电影名称,类型,区域,上映日期,剧情,主要演职人员,预告片,图集等

爬取猫眼电影数据时,必须遵守相关法律法规,尊重数据所有权和隐私权,合法合规地使用数据。

主要流程:

  • 打开猫眼网站,进入即将上映电影列表
  • 循环电影列表,获取电影详情页链接地址
  • 打开电影详情页地址,采集电影基本信息
  • 详情页点开图集,循环下载电影相关图片
  • 详情页获取预告片列表,依次进入播放页面,获取每一步预告并下载保存本地
  • 将电影基本数据保存在excel数据表中

2.实战结果展示

电影数据,我们使用excel存放。

每个电影依据名称创建一个文件夹保存

每个文件夹中有图集与预告片

当我们有这些资料在手,那么做视频剪辑,配音也就容易多了。

3.实战步骤

3.1 打开猫眼网站 进入目标网址

进入猫眼网站,我们选择电影,即将上映电影,然后按照时间排序,查询出未上映的电影列表信息,这里一定要选择按照时间排序,否则不会获取到即将上映的电影,当然你要获取热门电影也是可以的,依据需求

3.2 循环电影列表页

使用网页批量抓取功能,将数据缓存到数据列表中,然后我们循环数据列表,打开每一步电影的详情页面,采集电影数据。

实战仅展示当前页数据,没有设置多页采集,通过之前的影刀实战,我相信大家都能设置。

3.3 详情页获取影片信息

数据主要集中在这两块。这里我们循环相似元素来循环获取各个元素信息,对于剧情,我们单独获取文字信息。

当采集数据时,我们首先是需要观察他,看他符合那种特征,再寻找合适的指令去操作。能批量操作的尽量批量操作,可以节省时间和复杂性。

相应代码

在详情页面 我们创建一个文件夹,来保存图集与预告片,这个文件夹参数需要传递到子流程图集与预告片中

3.4 获取图集

将电影图片下载到本地保存,我们使用图片的索引来命名图片名称,从零开始。

图片宽高设置:

网页展示的图片是小图,宽高都是106,这样的图片是小图,不适合我们修剪,如果直接下载,那么是不能使用,我们需要替换图片地址的宽与高,使用影刀指令文本替换,将106替换长600宽度在下载,当然你也可以试着修改别的尺寸下载

https://p0.pipi.cn/mmdb/fb7386929ab5bfb12d3139c99931c1fd4c1fd.jpg?imageView2/1/w/106/h/106

网页图片是懒加载的,这样我们获取相似元素就不能获取全部图片,需要我们下滑到可见区域才显示,所以我们在循环的时候配合鼠标滚动网页指令,将其设置成滚动一屏, 每循环一次,页面滚动一屏,这样就获取了所有的图片。

3.5 获取预告片

预告片页面

循环获取预告片,将每一个都保存到本地

4.指令解析

http下载:通过 HTTP 下载文件,主要是下载网络资料,图片,文件都可以使用这个指令操作。

  • 下载地址:输入或选择下载请求地址
  • 文件保存目标:设置下载文件保存本地目录,若不存在则自动创建
  • 指定文件名:默认会自动从下载地址上解析文件名,若勾选则自定义文件名
  • 超时时间(秒):最大等待的下载时间,默认300秒
  • 保存下载文件名称到:保存获取到的完整的文件名为变量

5.最后

感谢大家,请大家多多支持!

标签:获取,电影,爬虫,RPA,影刀,预告片,数据,下载,图片
From: https://blog.csdn.net/ddf128/article/details/142685157

相关文章

  • 基于selenium的爬取dblp论文的python爬虫
    出于阅读文献的需要,导师让我写一个能够爬取dblp上文献资料的爬虫,话不多说,开学。学习路径总结前端基本知识request库与bs库目标特征,规划爬取步骤动态加载的应对方法-selenium前端基本知识前端开发是指创建Web页面或应用程序用户可以与之交互的部分。前端开发主要涉及三种......
  • 爬虫——同步与异步加载
     一、同步加载同步模式--阻塞模式(就是会阻止你浏览器的一个后续加载)停止了后续的解析因此停止了后续的文件加载(图像)比如hifini音乐网站二、异步加载异步加载--xhr(重点)比如腾讯新闻,腾讯招聘等三、同步加载和异步加载的区分1.网页数据返回的方式(数据返回给你客户端......
  • SQLiteHeaderParser
    packagecom.tencent.map.dataengine.converter;importjava.io.FileInputStream;importjava.io.IOException;importjava.nio.ByteBuffer;importjava.nio.ByteOrder;publicclassSQLiteHeaderParser{publicstaticvoidmain(String[]args){Strin......
  • 【python爬虫可以获取到谷歌影像吗?】如何有效下载谷歌影像?
    【python爬虫可以获取到谷歌影像吗?】如何有效下载谷歌影像?【python爬虫可以获取到谷歌影像吗?】如何有效下载谷歌影像?文章目录【python爬虫可以获取到谷歌影像吗?】如何有效下载谷歌影像?前言1.使用GoogleEarthEngine来获取影像数据Step1:注册GoogleEarthEngineS......
  • django基于Hadoop的气象数据的研究与应用(源码+vue+可视化大屏展示+爬虫分析+讲解等)
    收藏关注不迷路!!......
  • Python - [05] 爬虫
    题记部分 001||爬虫的工作原理(1)获取数据。爬虫程序会根据提供的网址,向服务器发起请求,然后返回数据。(2)解析数据。爬虫程序会把服务器返回的数据解析成我们能读懂的格式。(3)提取数据。爬虫程序再从中提取出我们需要的数据。(4)储存数据。爬虫程序把这些有用的数据保存起来,......
  • 无限超人:RPA流程自动化助力企业数字化转型
    在21世纪,技术已成为推动企业增长的关键因素。为了保持竞争力,企业必须采用最新技术,实现数字化转型。RPA(RoboticProcessAutomation)技术是这一转型过程中的关键一步,它通过自动化重复性任务,提高企业的自动化、数字化和智能化水平。RPA技术简介RPA是一种数字化技术,通过模拟人类......
  • 无限超人:RPA到IPA,RPA百年演进史
    在探索RPA(机器人流程自动化)的起源时,我们可以将时钟回拨到1954年,那时工业机器人首次亮相。而流程自动化的历史则更为悠久,1913年福特汽车制造车间的第一条自动化生产线标志着这一技术的诞生。尽管RPA作为一个专业术语出现至今不到二十年,但自动化的发展历程,包括机械化、信息化,以......
  • 无限超人:RPA与爬虫的定义、功能和区别
    RPA(RoboticProcessAutomation)被设计为一种模仿人类用户操作的自动化技术,用于执行企业中的重复性任务,如数据输入、文件管理和系统集成等,以此提高工作效率。另一方面,网络爬虫(WebCrawler)是一种自动检索互联网信息的程序,它通过抓取网页数据并进行保存或分析。尽管两者都具有自动......
  • RPA跨流程复用元素技巧|实在RPA研究
    为什么要跨流程复用元素在RPA操作中,元素至关重要,因为自动化的本质就是模拟人类对元素的操作。基本上,每个流程都会包含若干个元素。对于同时维护多个流程的用户而言,相似的流程包,甚至是同一个元素。例如电商用户,不同流程都需操作相同电商平台的登录。因此,多流程、多用户复用元......