Python爬虫-第四章-5-高效抓取视频网站视频资源至本地

时间：2023-02-10 18:35:44浏览次数：43

标签：视频加密文件 Python m3u8 ts 爬虫 url

本章内容：

91看剧抓取影视资源

流程：

1.获取影片播放页面源码

2.获取m3u8链接地址

3.下载m3u8文件

4.读取m3u8文件，在下视频

5.合并视频


'''
一般视频网站对视频的处理方式：
    1.获取用户上传视频内容
    2.转码（将得到的视频内容进行各种清晰都转码备份【标清-超清等等版本】）
    3.将转码后的视频进行切片加工【比如一分钟视频切成6份，10秒一份】
    4.将视频的播放信息存入M3U文件，中国区会转码为utf-8，大部分为M3U8文件
    5.用户在线播放时，根据进度条所处的位置获取切片视频的索引，加载前后内容
        比如 ================【滚动条】==========================
        这种处理方式避免了全部内容加载造成的资源和时间浪费
M3U8文件的处理方式：
    1.找到视频网站的M3U8文件（一般会被隐藏）
    2.通过 M3U8 文件找到 ts 文件（切片后的视频片段）
    3.通过工具或编码将 ts 文件剪辑拼接还原为完整的 mp4
'''
import requests
import re
import aiohttp
import asyncio
import aiofiles
from fake_useragent import UserAgent

# start------------------------------
# 下载m3u8文件
url = 'https://www.91kanju.com/vod-play/62812-2-1.html'
ua = UserAgent()
user_agent = ua.random
headers = {
    'user-agent': user_agent
}
# resp = requests.get(url,headers=headers)
obj = re.compile(r"url: '(?P<url>.*?)',", re.S)
# m3u8_url = obj.search(resp.text).group('url')
# resp.close()
# m3u8_url = 'https://m3api.awenhao.com/index.php?note=kkRfha41qde6r7nytsgzb&raw=1&n.m3u8'
# resp2 = requests.get(m3u8_url,headers=headers)
# with open('../FileForDemo/91kanju/韩剧流星.m3u8', mode='wb') as file:
#     file.write(resp2.content)
# resp2.close()

# 解析m3u8文件
m3u8_urls = []
with open('../FileForDemo/91kanju/韩剧流星.m3u8', mode='r', encoding='utf-8') as filem3u8:
    for line in filem3u8:
        line = line.strip()
        if line.startswith('#'):
            continue
        m3u8_urls.append(line)


async def aioDownload(index, url):
    async with aiohttp.ClientSession() as session:
        async with session.get(url) as resp:
            content = await resp.content.read()
            async with aiofiles.open(f'../FileForDemo/91kanju/韩剧流星片段/{index}.ts', mode='wb') as ts:
                await ts.write(content)
    print(f'ts{index}下载完毕！！！')


async def main():
    tasks = []
    for index, url in enumerate(m3u8_urls):
        tasks.append(asyncio.create_task(aioDownload(index, url)))
    await asyncio.wait(tasks)


if __name__ == '__main__':
    asyncio.run(main())
    print('全部下载完毕！！！')

# end------------------------------

如果视频被加密，处理思路如下：

1.从页面源码中拿到m3u8文件路径并下载m3u8文件
2.在第一层m3u8文件中拿到真实m3u8文件【含有ts文件路径或被加密后文件路径】
3.下载ts文件或被加密的文件到本地【比如伪装成.jpg文件】
4.参考网站加密逻辑进行将参数加密(参考浏览器 Call Stack,观察参数加密前后变化使用了哪一个函数过程)
5.使用加密后参数向网站进行请求，抓取内容并下载真实ts文件到本地
6.参考第二层m3u8文件中的加密方式进行解密得到可播放ts文件
7.合并ts文件成mp4

标签：视频,加密,文件,Python,m3u8,ts,爬虫,url
From： https://blog.51cto.com/mooreyxia/6049675

Python爬虫-第五章-1-超级鹰插件实现自动填写识别码并登录12306网站
功能：自动打开浏览器，定位到网站登录界面，输入账户密码，填写识别码并登录到网站内部#DemoDescribe:12306登录案例importtimefromselenium.webdriverimportChromefromsele......
EasyCVR视频云存储的架构解析与Sharelist云存挂载方法介绍
一、什么是视频云存储？视频云存储主要用于为上层应用提供视频文件、结构化信息、事件信息的相关服务。云存储节点分为数据文件存储节点和结构化数据存储节点。数据文件存储节......
基于Python的天气API
██████╗███████╗██████╗██╗██╗███████╗██╔═══██╗██╔════╝██╔══██╗╚██╗██╔╝██╔═══......
视频融合平台EasyCVR迁移服务器后无法打开网页是什么原因？该如何解决？
随着安防市场的规模不断扩大与发展，EasyCVR快速纵深的视频能力使其已经成为安防行业的主流需求平台，在视频能力上，支持海量视频的汇聚与管理、转码与分发、鉴权管理、智能分析......
浅析AI视频监控能力在老旧小区改造升级中的应用
一、需求背景随着我国社会经济的快速发展与进步，城市宜居程度成为城市发展的重要指标，城市的发展面临着更新、改造和宜居建设等。一方面，社区居民对生活的环境提出了更高的要求......
Python-知识点2 类型转换
数据类型转换字符串-->整型（带小数点时将报错）语法：int(变量名）浮点型-->整型（去掉小数部分）语法：int(变量名）字符串-->浮点型语法：float(变量名)整型-->浮点型......
【Azure事件中心】使用Python SDK（Confluent）相关方法获取offset或lag时提示SSL相关错误
问题描述使用PythonSDK（Confluent）相关方法获取offset或lag时,提示SSL相关错误,是否有更清晰的实例以便参考呢？问题解决执行代码，因为一直连接不成功，所以检查conflue......
【Python】获取项目根目录
以new_didi项目为例：在任意路径下的文件内获取根目录信息代码if__name__=="__main__":cur_path=os.path.abspath(os.path.dirname(__file__))......
Python3，我只用一段代码，就写了个词云生成器,YYDS!
1、引言小鱼：小屌丝，你在干啥呢？小屌丝：鱼哥，你看，我的PPT写的高大尚不。小鱼：这有啥高大尚的啊，小屌丝：你仔细看，往下翻一页小鱼：额。你这那是PPT，就是浴皇大帝、昂科旗等车系......
视频融合平台EasyCVR迁移服务器后无法打开网页是什么原因？该如何解决？
随着安防市场的规模不断扩大与发展，EasyCVR快速纵深的视频能力使其已经成为安防行业的主流需求平台，在视频能力上，支持海量视频的汇聚与管理、转码与分发、鉴权管理、智能分析......

Python爬虫-第四章-5-高效抓取视频网站视频资源至本地

相关文章

赞助商

阅读排行