Python爬虫之使用单线程+协程高性能扒取梨视频人物版块视频源码

时间：2022-08-29 15:25:17浏览次数：68

标签：视频扒取 name url li 源码 video time div

# 由于request是基于同步的，因此asyncio的异步失效了
# 因此使用aiohttp来异步扒取
import requests
import asyncio
import time
import os
import random
from lxml import etree
import aiohttp

if __name__ == "__main__":
    start_time = time.time()
    if not os.path.exists('./Video'):
        os.mkdir('./Video')
    # 梨视频首页的URL
    url = 'https://www.pearvideo.com/category_1'
    # 伪装UA
    headers = {
        'User-Agent': 'Mozilla /5.0(Windows NT 10.0;Win64;x64;rv:104.0) Gecko /20100101 Firefox /104.0'
    }
    page_text = requests.get(url=url, headers=headers)
    # 创建etree对象，接受来自page_text的HTML数据
    tree = etree.HTML(page_text.text)
    # xpath定位标签拿到 li下面的href属性
    list_li = tree.xpath('/html/body/div[2]/div[1]/div/ul/li')
    detail_url = []
    # 至此已经拿到了视频详情页的url，但由于其视频加载是使用ajax动态申请的，因此我们仍然需要对ajax请求进行分析
    # ajax申请的url案例为：https://www.pearvideo.com/videoStatus.jsp?contId=1731718&mrd=0.6200729200474171
    # 不难看出contID 即ID视频号，mrd就是0-1之间的随机数，可以通过调用random()函数完成
    for li in list_li:
        second_url = 'https://www.pearvideo.com/' + li.xpath('./div/a/@href')[0]
        Id = li.xpath('./div/a/@href')[0].split('_')[1]
        Name = li.xpath('./div/a/div[2]/text()')[0]
        ajax_url = 'https://www.pearvideo.com/videoStatus.jsp?'
        new_headers = {
            'User-Agent': 'Mozilla /5.0(Windows NT 10.0;Win64;x64;rv:104.0) Gecko /20100101 Firefox /104.0',
            'Referer': 'https://www.pearvideo.com/video_' + Id
        }
        params = {
            'contId': Id,
            'mrd': str(random.random())
        }
        dic_url = requests.get(url=ajax_url, params=params, headers=new_headers).json()
        real_url = dic_url['videoInfo']['videos']['srcUrl']
        # 分割url然后拼接成真正的url
        url_split1 = real_url.split('/')
        url_split2 = real_url.split('-')
        url_front = ''
        for split in range(len(url_split1) - 1):
            url_front = url_front + url_split1[split] + '/'
        real_url = url_front + 'cont-' + Id + '-' + url_split2[1] + '-' + url_split2[2]
        # 将视频的name和url封装成字典存储到链表中
        dic_video = {
            'name': Name,
            'url': real_url
        }
        detail_url.append(dic_video)
    list_tasks = []
    # 凡是阻塞的地方都要加上await
    async def get_video(url, name):
        async with aiohttp.ClientSession() as session:
            async with await session.get(url) as response:
                video = await response.read()
                path = './Video/'+name+'.mp4'
                with open(path, 'wb') as fp:
                    fp.write(video)
                print(name, 'Download Successfully!!!')


    for url in detail_url:
        c = get_video(url['url'],url['name'])
        task = asyncio.ensure_future(c)
        list_tasks.append(task)
    loop = asyncio.get_event_loop()
    loop.run_until_complete(asyncio.wait(list_tasks))
    end_time = time.time()
    #输出总时间
    print('Total Time:', end_time-start_time)

标签：视频,扒取,name,url,li,源码,video,time,div
From： https://www.cnblogs.com/charleyhoot/p/16636040.html

直播软件源码，自定义搜索栏关键词锁定方法
直播软件源码，自定义搜索栏关键词锁定方法module.exports=asyncfunction(params,context){ constdb=context.database const_=db.command letresult=......
在线直播源码，Android骨架屏实现方案
在线直播源码，Android骨架屏实现方案 buildscript{ repositories{ jcenter() }}allprojects{ repositories{ jcenter()......
MediaHuman YouTube Downloader for Mac(视频下载软件)
MediaHumanYouTubeDownloaderforMac是一款适用于mac视频下载软件。mediahumanyoutubemac支持多个视频同时下载，支持超高分辨率包括4K和8K，支持YouTube，Vimeo，DAIlymotion......
flask实时播放cv2读取的视频
flask实时播放cv2读取的视频app.pyclassVideoCamera(object):def__init__(self,url):self.cap=cv2.VideoCapture(url)def__del__(self):......
视频加密
一、视频加密视频加密是对某些自有版权的视频进行加密处理，用户只有在一定的条件下才能获得视频的观看权。比如对于教育视频加密后，只有学员才能观看，每个学员都有自己的唯一......
java - 获取视频的第n帧画面，支持avi、mp4、wmv格式
1.背景网上的东西真实够坑的，用不了就算了，还基本是复制粘贴2，解决需要导包，必须是这两个版本<dependency><groupId>org.bytedeco</groupId><......
Android Measure,Layout,Draw 源码阅读
AndroidMeasure,Layout,Draw源码阅读AndroidView的测量、布局、绘制过程详解（上）_>进阶的程序员>的博客-CSDN博客AndroidView的测量、布局、绘制过程详解（下）_>进阶的程......
重新构建rocketmq_exporter源码，构建镜像
1.githubhttps://github.com/apache/rocketmq-exporter 2.dockerfileFROMmaven:3.8.6-openjdk-8-slimCOPYrocketmq-exporter-master/apps/rocketmq-exporter-mas......
重新编译influxdb_exporter源码，构建镜像
1.githubhttps://github.com/prometheus/influxdb_exporter 2.dockerfileFROMgolang:1.17ENVGO111MODULE=on\GOPROXY="https://goproxy.cn,direct"COPYin......
重新编译kafka_exporter源码，构建镜像
1.githubhttps://github.com/danielqsj/kafka_exporter 2.dockerfileFROMgolang:1.17ENVGO111MODULE=on\GOPROXY="https://goproxy.cn,direct"COPYkafka_......

Python爬虫之使用单线程+协程高性能扒取梨视频人物版块视频源码

相关文章

赞助商

阅读排行