首页 > 其他分享 >简单爬虫案例——爬取快手视频

简单爬虫案例——爬取快手视频

时间:2024-07-07 22:28:00浏览次数:12  
标签:__ pcursor String typename 快手 爬虫 爬取 url json

网址:aHR0cHM6Ly93d3cua3VhaXNob3UuY29tL3NlYXJjaC92aWRlbz9zZWFyY2hLZXk9JUU2JThCJTg5JUU5JTlEJUEy

找到视频接口:

视频链接在photourl中

 

完整代码:

import requests

import re
url = 'https://www.kuaishou.com/graphql'
cookies = {
    'did': 'web_9e8cfa4403000587b9e7d67233e6b04c',
    'didv': '1719811812378',
    'kpf': 'PC_WEB',
    'clientid': '3',
    'kpn': 'KUAISHOU_VISION',
}

headers = {
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Cache-Control': 'no-cache',
    'Connection': 'keep-alive',
    # 'Cookie': 'did=web_9e8cfa4403000587b9e7d67233e6b04c; didv=1719811812378; kpf=PC_WEB; clientid=3; kpn=KUAISHOU_VISION',
    'Origin': 'https://www.kuaishou.com',
    'Pragma': 'no-cache',
    'Referer': 'https://www.kuaishou.com/search/video?searchKey=%E6%8B%89%E9%9D%A2',
    'Sec-Fetch-Dest': 'empty',
    'Sec-Fetch-Mode': 'cors',
    'Sec-Fetch-Site': 'same-origin',
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36',
    'accept': '*/*',
    'content-type': 'application/json',
    'sec-ch-ua': '"Not/A)Brand";v="8", "Chromium";v="126", "Google Chrome";v="126"',
    'sec-ch-ua-mobile': '?0',
    'sec-ch-ua-platform': '"Windows"',
}

json_data = {
    'operationName': 'visionSearchPhoto',
    'variables': {
        'keyword': '拉面',
        'pcursor': '',
        'page': 'search',
    },
    'query': 'fragment photoContent on PhotoEntity {\n  __typename\n  id\n  duration\n  caption\n  originCaption\n  likeCount\n  viewCount\n  commentCount\n  realLikeCount\n  coverUrl\n  photoUrl\n  photoH265Url\n  manifest\n  manifestH265\n  videoResource\n  coverUrls {\n    url\n    __typename\n  }\n  timestamp\n  expTag\n  animatedCoverUrl\n  distance\n  videoRatio\n  liked\n  stereoType\n  profileUserTopPhoto\n  musicBlocked\n  riskTagContent\n  riskTagUrl\n}\n\nfragment recoPhotoFragment on recoPhotoEntity {\n  __typename\n  id\n  duration\n  caption\n  originCaption\n  likeCount\n  viewCount\n  commentCount\n  realLikeCount\n  coverUrl\n  photoUrl\n  photoH265Url\n  manifest\n  manifestH265\n  videoResource\n  coverUrls {\n    url\n    __typename\n  }\n  timestamp\n  expTag\n  animatedCoverUrl\n  distance\n  videoRatio\n  liked\n  stereoType\n  profileUserTopPhoto\n  musicBlocked\n  riskTagContent\n  riskTagUrl\n}\n\nfragment feedContent on Feed {\n  type\n  author {\n    id\n    name\n    headerUrl\n    following\n    headerUrls {\n      url\n      __typename\n    }\n    __typename\n  }\n  photo {\n    ...photoContent\n    ...recoPhotoFragment\n    __typename\n  }\n  canAddComment\n  llsid\n  status\n  currentPcursor\n  tags {\n    type\n    name\n    __typename\n  }\n  __typename\n}\n\nquery visionSearchPhoto($keyword: String, $pcursor: String, $searchSessionId: String, $page: String, $webPageArea: String) {\n  visionSearchPhoto(keyword: $keyword, pcursor: $pcursor, searchSessionId: $searchSessionId, page: $page, webPageArea: $webPageArea) {\n    result\n    llsid\n    webPageArea\n    feeds {\n      ...feedContent\n      __typename\n    }\n    searchSessionId\n    pcursor\n    aladdinBanner {\n      imgUrl\n      link\n      __typename\n    }\n    __typename\n  }\n}\n',
}

response = requests.post(url=url, cookies=cookies, headers=headers, json=json_data)
for index in response.json()['data']['visionSearchPhoto']['feeds']:
    title = index['photo']['caption']
    newtitle = re.sub(r'[\\/?<>:*|\n\r]','',title)
    link = index['photo']['photoUrl']
    print(title,link)
    content = requests.get(url=link,headers=headers).content
    with open('快手video//'+title+'.mp4','wb') as f:
        f.write(content)

结果展现:

 

 

标签:__,pcursor,String,typename,快手,爬虫,爬取,url,json
From: https://blog.csdn.net/m0_57265868/article/details/140098714

相关文章

  • 【Scrapy】 Scrapy 爬虫框架
    准我快乐地重饰演某段美丽故事主人饰演你旧年共寻梦的恋人再去做没流着情泪的伊人假装再有从前演过的戏份重饰演某段美丽故事主人饰演你旧年共寻梦的恋人你纵是未明白仍夜深一人穿起你那无言毛衣当跟你接近                     ......
  • SpringBoot-校园疫情防控系统-93033(免费领源码+开发文档)可做计算机毕业设计JAVA、PHP
    springboot校园疫情防控系统摘 要信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对校园疫情防控等问题,对校园疫情防控进行研究分析,然后开发设计出......
  • 基于Django+微信小程序的旅游资源信息管理系统(免费领源码+数据库)可做计算机毕业设计JA
    django广西-东盟旅游资源信息管理系统小程序摘 要在社会快速发展和人们生活水平提高的影响下,旅游产业蓬勃发展,旅游形式也变得多样化,使旅游资源信息的管理变得比过去更加困难。依照这一现实为基础,设计一个快捷而又方便的基于小程序的旅游资源信息管理系统是一项十分重要并且......
  • 五、保存数据到Excel、sqlite(爬虫及数据可视化)
    五、保存数据到Excel、sqlite(爬虫及数据可视化)1,保存数据到excel1.1保存九九乘法表到excel(1)代码testXwlt.py(2)excel保存结果1.2爬取电影详情并保存到excel(1)代码spider.py(3)excel保存结果2,保存数据到sqlite2.1sqlite数据库2.2创建表2.3插入数据2.4查询数据2.5保存......
  • 六、数据可视化—flask框架入门(爬虫及数据可视化)
    六、数据可视化—flask框架入门(爬虫及数据可视化)1,数据可视化简介2,flask(1)创建flask项目(2)开启debug模式(3)通过访问路径传递参数(4)加入渲染模板,渲染HTML文件(4-1)普通变量(4-2)列表变量(4-3)字典变量(5)用户表单提交1,数据可视化简介  数据可视化主要旨在借助于图形化手段,清晰......
  • 抖音引流推广的几个方法,抖音全自动引流脚本软件详细使用教学,小红书截流软件,快手获客工
    抖音是目前很多商家都喜欢的一个销售平台,想要获取精准客户,那么高效的引流方法你一定要懂,特别是同城引流。那么抖音同城引流的话可以有哪些软件可以用呢?我们可以看一下这个软件,功能非常牛:抖音全自动曝光获客云科技V6.0保姆级教程,一天精准引流3000+精准粉创业粉【获客必备百......
  • 网络爬虫:如何应对反爬虫机制?
    在网站设计时,为了保证服务器的稳定运行,防止非法数据访问,通常会引入反爬虫机制。一般来说,网站的反爬虫机制包括以下几种:1.CAPTCHA:网站可能会向用户显示CAPTCHA,要求他们在访问网站或执行某些操作之前输入代码。2.IP封锁:网站可能会封锁那些频繁或异常访问模式或行为不符合......
  • 单/多线程--协程--异步爬虫
    免责声明:本文仅做技术交流与学习... 目录了解进程和线程单个线程(主线程)在执行多线程线程池协程(爬虫多用)假异步:(同步)真异步:爬虫代码模版异步-爬虫同步效果--19+秒异步效果--7+秒了解进程和线程​#-------------------->#------>#   ----......
  • Python爬虫获取视频
    验证电脑是否安装python        1.win+r输入cmd    2.在黑窗口输入python.exe         3.不是命令不存在就说明python环境安装完成抓取快手视频    1.在phcharm应用中新建一个项目    3.新建一个python文件 ......
  • 《从零开始学习Python爬虫:顶点小说全网爬取实战》
    顶点小说装xpathhelperGitHub-mic1on/xpath-helper-plus:这是一个xpath开发者的工具,可以帮助开发者快速的定位网页元素。Question:加载完插件点击没反应Answer:将开发人员模式关闭即可爬虫介绍分类:搜索引擎:爬取范围广聚焦爬虫:爬取范围聚焦介绍:程序发起请求(request),......