首页 > 其他分享 >云服务厂商都在推荐轻量级的存储队列服务,用来取代原有的比较重的消息队列服务

云服务厂商都在推荐轻量级的存储队列服务,用来取代原有的比较重的消息队列服务

时间:2023-01-02 15:02:02浏览次数:61  
标签:视频 服务 队列 爬虫 URL 地址 轻量级 下载

这个小玩意源于上周在研究Azure的时候,发现云服务厂商都在推荐轻量级的存储队列服务,用来取代原有的比较重的消息队列服务
具体来说,比如阿里云就推荐使用​​消息服务​​替代​消息队列​​,
在Azure中,就有一个轻量级的​​存储队列(Storage Queue)​​可以替代​服务总线(Service Bus)​​,

简单试用了一下Azure的Storage Queue后,发现这玩意很好用,于是决定全面的深入研究一下,再将公司电商系统内的相关任务处理均重构成使用存储队列服务,而深入研究得找个案例呀,于是就想到了做个分布式爬虫,此类应用会出现大量的任务场景,而正好前段时间下载B站视频时,找到一个网站,叫​唧唧下载​(搞二次元的都是色情狂吗?),但又不太好用,于是决定就做个比较全面的B站视频爬虫。一方面可以方便的下载视频,另一方面还可以当做公司开发人员的教学案例

老规矩,还是先看下最终的使用效果,应用入口:​​https://www.alphams.cn/LT​​,(为了防止滥用下载以及记录下载,所以还麻烦注册一下啦

​​云服务厂商都在推荐轻量级的存储队列服务,用来取代原有的比较重的消息队列服务_Azure​​

输入视频番号,点击下载,就进入任务界面

​​云服务厂商都在推荐轻量级的存储队列服务,用来取代原有的比较重的消息队列服务_Azure_02​​

任务界面可以看到视频信息实时下载信息,和错误信息

任务处理完成后,点击立即下载,从一个CDN加速的地址得到了视频

​​云服务厂商都在推荐轻量级的存储队列服务,用来取代原有的比较重的消息队列服务_任务处理_03​​


那么下面就把本次的开发和实施流水账记录一下

1、首先是准备工作和可行性调研

想要对B站进行爬虫,首先要准备好技术手段和相关工具,对B站的网站结构和数据流向进行一些分析,进行可行性的调研

首先打开B站任意一个视频,可以看到地址都是这样的格式

​​云服务厂商都在推荐轻量级的存储队列服务,用来取代原有的比较重的消息队列服务_任务处理_04​​

于是我们把AV后面的号码叫做番号(此番号非老司机番号)

而有些视频不止一段,如果是第二段视频,则是这个地址:

​​云服务厂商都在推荐轻量级的存储队列服务,用来取代原有的比较重的消息队列服务_Azure_05​​

而如果把Index后面的2换成1,也可以达到和第一个地址一样的效果

然后用​Fidder​工具,分析一下网页,可以看到有如下一些资源

​​云服务厂商都在推荐轻量级的存储队列服务,用来取代原有的比较重的消息队列服务_HTTP_06​​

剔除基本的JS文件、CSS文件、图像文件后,剩下来的就是一些有用的信息了,而在有用的信息中最终筛选出如下几个信息

1、AID是视频的番号,也就是网址URL后面的那串唯一数字

2、CID是弹幕的番号,每个视频AID会对应一个CID

3、弹幕的信息存储在了这样的URL中:​​http://comment.bilibili.com/15075110.xml​

4、视频的信息存储在了这样的URL中:​​https://interface.bilibili.com/playurl?cid=15075110&appkey=84956560bc028eb7&otype=json&type=&quality=3&sign=c070bfd93a84cab542e7c874add6839e​

因为本次主要是下载视频,所以就着重看一下视频存储的信息,打开上面的URL后发现了最终视频的地址

​​云服务厂商都在推荐轻量级的存储队列服务,用来取代原有的比较重的消息队列服务_任务处理_07​​

太好了,一下子就给了视频尺寸视频最终的下载地址,那么我们用浏览器打开一下这个URL看一下,可以成功下载

注:以上相关分析实际上是经过了1-2个小时的反复尝试和模拟得出的,有2个细节补充一下,1、B站的服务器会根据HTTP头信息的不同返回FLV格式或者MP4格式,2、B站的视频可能用了不同厂商的CDN服务,有些视频地址无法直接下载,会判断refer信息和浏览器信息

接下来继续分析,注意看这个URL可以发现,尾部有一个sign,说明做了客户端和服务端的签名验证,并不是很傻瓜的有直接通过AID或者CID关联的下载地址,分析进入到这一步后,我很快的就打了自己的脸,我曾在文章《​​关于.NET玩爬虫这些事​​》中说过,一切网站行为都可以分析出HTTP+Javascript来,只要分析得当,根本不需要用浏览器来进行爬虫模拟,但这尼玛B站鬼的Web结构(忍不住想骂人,典型的垃圾Python、PHP向的开发人员做出来的鬼东西,代码逻辑混乱、随便一看就是到处修补修改的痕迹,生成出来的HTML、JS的逻辑和层次毫无美感),看了2个小时,眼睛都看疼了,楞是没分析出签名方法,也许再看看会有结果,但是我等不及了,所以这时候祭出爬虫神器-无头浏览器

这里我选择了​PhantomJS​这个无头浏览器,具体的使用过程就不详述了,有兴趣可以到官网了解一下




标签:视频,服务,队列,爬虫,URL,地址,轻量级,下载
From: https://blog.51cto.com/u_15147537/5983715

相关文章

  • 做微服务设计的时候一定需要DDD的原因
    DDD内容繁多,个人浅见,它不同于传统贫血的最核心的一点就是把原先传统的贫血模型里的业务逻辑层拎出来,融入到Domain层,这样面对复杂业务的规模化变更,我们只需要专注于Domain即......
  • FTP服务器是什么意思?FTP服务器怎么搭建?
    FTP服务器是什么意思?FTP服务器(FileTransferProtocolServer)是在互联网上提供文件存储和访问服务的计算机,它们依照FTP协议提供服务,FTP是FileTransferProtocol(文件传输协......
  • 华为云ECS,最专业的云服务专家​
    随着互联网大数据技术的飞速发展,越来越多的企业也纷纷开始搭建自己的云服务架构,并迫切地希望将自身的传统业务上云,以此加快企业数字化转型的步伐。华为云ECS延续了华为云“......
  • 华为云弹性云服务器,助推多行业数字化转型​
    近年来,随着众多政策的指导推进以及社会经济的进一步发展,数字化转型已成为全社会的基础共识。基于这一社会背景,众多企业开始踏上自身的数字化转型之路。而要进行数字化转型,企......
  • 华为云弹性云服务器ECS,助力企业业务持续稳定运行​
    互联网公司:每次公司网站开发测试的时候都会担心服务器出问题,数据丢失的意外,真让人头疼。​广告、电商公司:每到购物节的时候,服务器的访问量也是越来越大,真担心内存的问题出什......
  • 广州友力科技数据中心服务器搬迁方案
    随着信息系统规模的扩大,数据中心机房无论从面积、配套基础设施等各个方面都逐渐不能满足需求。针对这种情况,大多数供电局选择重建机房。如何将服务器、存储、网络等设备迁移......
  • yum仓库的灵活部署和nfs共享存储服务
    一、yum仓库的灵活部署1、YUM(YellowdogUpdaterModified)●基于RPM包构建的软件更新机制●可以自动解决依赖关系●所有软件包由集中的YUM软件仓库提供 2、yum仓......
  • 大数据一站式服务,华为云大数据BI驱动企业业务线增长
      现在大数据正在掌控我们的生活,大数据的存在也让我们的生活更加便利。企业使用大数据是实现企业实现转型的重要举措,大数据的内容涵盖甚多,对于企业的业务发展有一定的帮助......
  • 使用 Helm 安装 MQTT 服务器-EMQX
    EMQXℹ️Info:使用EMQX通过Helm3在Kubernetes上部署EMQX4.0集群|EMQemqx/deploy/charts/emqxatmain-v4.4·emqx/emqx(github.com)emqx/values.yamlat......
  • 使用 Helm 安装 MQTT 服务器-EMQX
    EMQXℹ️Info:使用EMQX通过Helm3在Kubernetes上部署EMQX4.0集群|EMQemqx/deploy/charts/emqxatmain-v4.4·emqx/emqx(github.com)emqx/values.yamlat......