前言

本文写了一个爬取视频的案例，使用requests库爬取了好看视频的视频，并进行保存到本地。后续也会更新selenium篇和DrissionPage篇。当然，爬取图片肯定不止这三种方法，还有基于python的scrapy框架，基于node.js的express框架以及基于Java的webmagic框架等等。

爬虫步骤

确定网址，发送请求

我们打开我们需要爬取的网站后，按f12进行检查，因为页面采用的懒加载，所以我们需要往下滑加载新的视频，这时候就会出现新的数据包，这个数据包大概率就是这些新视频加载出来的来源，我们也可以在下图中的①中搜索视频数据包中可能出现的内容，例如视频的后缀，如MP4，m4s，ts等，然后再从中筛选正确的数据包，这个可能就需要有一定的经验。
在这里插入图片描述
当我们往下滑刷新的时候，再②中就会加载出新的数据包，点击数据包后，就会出现右边的窗口，在③标头中会看到我们要请求的url地址，以及cookie和一些加密后参数。
代码如下

import requests # 数据请求模块
url='https://haokan.baidu.com/haokan/ui-web/video/feed?time=1723964149093&hk_nonce=915ae0476c308b550e98f6196331fd2a&hk_timestamp=1723964149&hk_sign=93837eec50add65f7ca64a95fb4eb8de&hk_token=aRYZdAVwdwNwCnwBcHNyAAkNAQA'  # 请求地址
headers={
    # UA伪装
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
}
html=requests.get(url,headers=headers)

获取响应数据

在响应里我们可以看到响应的json数据，里面有封面照片地址，标题，视频地址等等，我们只需要获取其中的图片名字（title）和图片地址（previewUrlHttp）即可。
在这里插入图片描述

respnose=html.json()

对响应数据进行解析

json数据是字典，所以我们只需要取其中的键就可以了。

data=html['data']['apiData']         # 取照片地址
for li in data:
    video_name=li['title']     # 照片名字
    video_url=li['previewUrlHttp']   # 照片地址

保存数据

获取到图片的url后只需要再对url进行请求，获取二进制数据，然后进行保存到本地。

video=requests.get(video_url,headers=headers).content   # 对照片地址进行发送请求，获取二进制数据
    with open('./videos/'+video_name+'.mp4','wb') as f:        # 保存视频
        f.write(video)

完整源码

import requests  # 数据解析模块
import os   # 文件管理模块

if not os.path.exists("./videos"):  # 创建文件夹
    os.mkdir("./videos")
url='https://haokan.baidu.com/haokan/ui-web/video/feed?time=1723964149093&hk_nonce=915ae0476c308b550e98f6196331fd2a&hk_timestamp=1723964149&hk_sign=93837eec50add65f7ca64a95fb4eb8de&hk_token=aRYZdAVwdwNwCnwBcHNyAAkNAQA'  # 请求地址
headers={
    # UA伪装
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0'
}
html=requests.get(url,headers=headers).json()
data=html['data']['apiData']         # 取照片地址
for li in data:
    video_name=li['title']     # 照片名字
    video_url=li['previewUrlHttp']   # 照片地址
    video=requests.get(video_url,headers=headers).content   # 对照片地址进行发送请求，获取二进制数据
    with open('./videos/'+video_name+'.mp4','wb') as f:        # 保存视频
        f.write(video)
        print(video_name+'.mp4')

多页爬取的就要多去观察数据包，有什么规律，再这个案例中，就涉及到了时间戳js加密。

共勉

少就是多慢就是快

博客

本人是一个渗透爱好者，不时会在微信公众号（laity的渗透测试之路）更新一些实战渗透的实战案例，感兴趣的同学可以关注一下，大家一起进步。
- 之前在公众号发布了一个kali破解WiFi的文章，感兴趣的同学可以去看一下，在b站（up主:laity1717）也发布了相应的教学视频。

标签：视频,hk,url,爬虫,爬取,headers,video,requests
From： https://www.cnblogs.com/laity17/p/18405397

探索CSDN博客数据：使用Python爬虫技术
探索CSDN博客数据：使用Python爬虫技术在数字化时代，数据的获取和分析变得越来越重要。作为一名程序员或数据分析师，我们经常需要从各种在线平台抓取数据以进行进一步的分析或学习。CSDN作为中国最大的IT社区和服务平台，拥有大量的技术博客和文章，是一个丰富的数据源。本文将介绍......
Python3+requests搭建接口自动化测试框架_python3 import requests
框架理念：使用json文件编写测试用例，建一个脚本循环读取测试用例并执行，然后对比返回的接口和用例中的期望结果。将测试结果写入到一个excel表格中生成测试报告，最后使用发送邮件功能将测试报告发送到指定邮箱。其中对所有公共方法进行封装并放在common公共文件目录下。 ......
爬虫使用代理时判断IP是否使用成功
在近期的爬虫操作中，为了规避因同一IP频繁访问而导致的网站封禁，决定引入IP代理池机制，通过代理动态轮换以降低单一IP的访问频率。然而，面临的一个技术问题是：如何有效验证IP代理切换的成功性？查找资料发现一个网站：https://ip.smartproxy.com/json 可以发现打开就会显示当前IP。......
【python爬虫】从腾讯API爬取美国疫情数据+制表
最近（文章撰写时间为2020/6/118:40）疫情在中国情况好转，却在美国暴虐。本篇文章将爬取腾讯提供的美国疫情数据并制表。1.爬取数据调用API接口接口：https://api.inews.qq.com/newsqa/v1/automation/modules/list?modules=FAutoCountryMerge观察得到的数据：{ ..., "data":{ ......
这个爬虫工具可以解锁复杂网站，不错～
前几天Python抓取了一些社交网站评论数据，用的是一款低代码爬虫平台亮数据，可以生成python代码，既有现成的爬虫解锁框架，还提供代理服务。它有数据采集浏览器、网络解锁器、数据采集托管IDE三种方式，能通过简单的几十行Python代码实现复杂数据的采集。网站：https://get.brightd......
25届计算机专业选题推荐-基于python的线上拍卖会管理系统【python-爬虫-大数据定制】
......
【爬虫开发】爬虫开发从0到1全知识教程第10篇：Mongodb数据库,介绍【附代码文档】
本教程的知识点为：爬虫概要爬虫基础爬虫概述知识点：1.爬虫的概念requests模块requests模块知识点：1.requests模块介绍1.1requests模块的作用：数据提取概要数据提取概述知识点1.响应内容的分类知识点：了解响应内容的分类Selenium概要selenium的介绍知识点：1.sele......
大数据毕业设计-基于大数据爬虫+hive的热门旅游景点数据分析平台设计和实现，基于hive的
博主介绍：✌️码农一枚，专注于大学生项目实战开发、讲解和毕业......
【有源码】基于python+爬虫的短视频数据分析与可视化分析flask短视频推荐系统的设计与
注意：该项目只展示部分功能，如需了解，文末咨询即可。本文目录1.开发环境2系统设计2.1设计背景2.2设计内容3系统展示3.1功能展示视频3.2用户页面3.3管理员页面4更多推荐5部分功能代码1.开发环境开发语言：Python采用技术：flask、爬虫数据库：MySQL开发环境：P......
计算机毕业设计推荐-基于python的摄影社团管理系统【python-爬虫-大数据定制】
精彩专栏推荐订阅：在下方主页......

爬虫案例2-爬取视频的三种方式之一：requests篇(1)

前言