首页 > 编程语言 >Python爬虫爬取快手视频代码

Python爬虫爬取快手视频代码

时间:2024-10-09 12:18:17浏览次数:3  
标签:__ pcursor name typename 快手 爬取 Python url data

import pprint
import requests
import os
import re
import json

def get_response(url, keywords,pcursor):
hearders = {
‘Accept’: ‘/’,
‘Accept-Encoding’: ‘gzip, deflate, br’,
‘Accept-Language’: ‘zh-CN,zh;q=0.9’,
‘Connection’: ‘keep-alive’,
‘Content-Length’: ‘1839’,
‘Content-Type’: ‘application/json’,
‘Cookie’: ‘kpf=PC_WEB; clientid=3; did=web_713774521487450db89fcfc3892aae65; didv=1705562481178; ktrace-context=1|MS43NjQ1ODM2OTgyODY2OTgyLjQzOTc2MzU1LjE3MDU1NjM4MDkxNTEuNzUzNzYy|MS43NjQ1ODM2OTgyODY2OTgyLjk2MjU0NDIxLjE3MDU1NjM4MDkxNTEuNzUzNzYz|0|graphql-server|webservice|false|NA; kpn=KUAISHOU_VISION’,
‘Host’: ‘www.kuaishou.com’,
‘Origin’: ‘https://www.kuaishou.com’,
‘Referer’: ‘https://www.kuaishou.com/search/video?searchKey=%E6%85%A2%E6%91%87’,
‘Sec-Ch-Ua’: ‘“Not_A Brand”;v=“8”, “Chromium”;v=“120”, “Google Chrome”;v=“120”’,
‘Sec-Ch-Ua-Mobile’: ‘?0’,
‘Sec-Ch-Ua-Platform’: ‘“Windows”’,
‘Sec-Fetch-Dest’: ‘empty’,
‘Sec-Fetch-Mode’: ‘cors’,
‘Sec-Fetch-Site’: ‘same-origin’,
‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36’,
}
data = {
“operationName”: “visionSearchPhoto”,
“query”: “fragment photoContent on PhotoEntity {\n __typename\n id\n duration\n caption\n originCaption\n likeCount\n viewCount\n commentCount\n realLikeCount\n coverUrl\n photoUrl\n photoH265Url\n manifest\n manifestH265\n videoResource\n coverUrls {\n url\n __typename\n }\n timestamp\n expTag\n animatedCoverUrl\n distance\n videoRatio\n liked\n stereoType\n profileUserTopPhoto\n musicBlocked\n}\n\nfragment recoPhotoFragment on recoPhotoEntity {\n __typename\n id\n duration\n caption\n originCaption\n likeCount\n viewCount\n commentCount\n realLikeCount\n coverUrl\n photoUrl\n photoH265Url\n manifest\n manifestH265\n videoResource\n coverUrls {\n url\n __typename\n }\n timestamp\n expTag\n animatedCoverUrl\n distance\n videoRatio\n liked\n stereoType\n profileUserTopPhoto\n musicBlocked\n}\n\nfragment feedContent on Feed {\n type\n author {\n id\n name\n headerUrl\n following\n headerUrls {\n url\n __typename\n }\n __typename\n }\n photo {\n …photoContent\n …recoPhotoFragment\n __typename\n }\n canAddComment\n llsid\n status\n currentPcursor\n tags {\n type\n name\n __typename\n }\n __typename\n}\n\nquery visionSearchPhoto($keyword: String, $pcursor: String, $searchSessionId: String, $page: String, $webPageArea: String) {\n visionSearchPhoto(keyword: $keyword, pcursor: $pcursor, searchSessionId: $searchSessionId, page: $page, webPageArea: $webPageArea) {\n result\n llsid\n webPageArea\n feeds {\n …feedContent\n __typename\n }\n searchSessionId\n pcursor\n aladdinBanner {\n imgUrl\n link\n __typename\n }\n __typename\n }\n}\n”,
“variables”: {“keyword”: keywords, “pcursor”: pcursor, “page”: “search”}
}
data = json.dumps(data)
response = requests.post(url=url, data=data, headers=hearders)
return response

def save(url, dir_name,pcursor):
response = get_response(url, dir_name,pcursor)
json_data = response.json()
feed_list = json_data[‘data’][‘visionSearchPhoto’][‘feeds’] # 这是一个列表
for feeds in feed_list:
try:
video_url = feeds[‘photo’][‘photoUrl’]
title = feeds[‘photo’][‘caption’]
new_title = re.sub(r’[/

标签:__,pcursor,name,typename,快手,爬取,Python,url,data
From: https://blog.csdn.net/qq_32257509/article/details/142783431

相关文章

  • Python绘制--绘制心形曲线
    今天,我们将通过Python代码来绘制一个心形曲线,这是一个经典的数学表达。一、心形曲线的数学原理心形曲线,也被称为心脏曲线,是一个代数曲线,可以通过参数方程定义。其数学表达式如下:x=16sin⁡3(t)x=16sin3(t)y=13cos⁡(t)−5cos⁡(2t)−2cos⁡(3t)−cos⁡(4t)y=13cos(t)−5c......
  • 基于Python旅游指南系统的设计与实现-计算机毕设 附源码 24393
    基于Python旅游指南系统的设计与实现目 录1绪论1.1选题背景和意义1.2国内外研究现状1.3论文结构与章节安排2 系统分析2.1可行性分析2.1.1技术可行性分析2.1.2 操作可行性分析2.1.3经济可行性分析2.2系统功能分析2.2.1功能性分析2.2.2非......
  • 基于爬虫与文本挖掘的网络舆情监控系统python
    本网络舆情监控系统基于Java与SpringBoot技术,结合爬虫与文本挖掘功能,旨在高效地监测和分析网络舆情。系统设计上注重高效性与准确性。Java语言提供了稳定的基础开发环境,确保系统的可靠运行。SpringBoot框架使得系统易于构建和扩展,能快速集成各种相关组件。利用爬......
  • 用python写一个脚本:将指定目录下及其所有子文件夹的所有的“srt”文件的内容合并到一
    代码:importosdefmerge_srt_files(source_dir,output_file):"""合并指定目录及其子目录下的所有.srt文件到一个新文件中。:paramsource_dir:源目录路径:paramoutput_file:输出文件路径"""#确保输出文件的目录存在os.makedirs(os.p......
  • (分享源码)计算机毕业设计必看必学 上万套实战教程手把手教学JAVA、PHP,node.js,C++、pyth
    摘要信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题。针对社区防疫管理等问题,对社区防疫管理系统进行研究分析,然后开发设计出基于Django框架的社区防......
  • Python字符串基本操作
    目录一、字符串的创建1.1转义字符1.2原始字符串二、字符串的访问与切片2.1字符访问2.2切片(Slicing)三、字符串的连接与重复四、字符串的格式化4.1百分号格式化4.2 str.format() 方法4.3f-字符串(Python3.6及以上)五、字符串的方法5.1大小写转换5.2去除空......
  • Python 工具库每日推荐【openpyxl 】
    文章目录引言PythonExcel处理库的重要性今日推荐:openpyxl工具库主要功能:使用场景:安装与配置快速上手示例代码代码解释实际应用案例案例:自动生成月度销售报告案例分析高级特性条件格式数据验证扩展阅读与资源优缺点分析优点:缺......
  • <免费开题>基于Python二维码生成算法研究和实现|全套源码+文章lw+毕业设计+课程设计+数
    <免费开题>基于Python二维码生成算法研究和实现|全套源码+文章lw+毕业设计+课程设计+数据库+ppt摘要随着网络应用技术的普及和发展,计算机以及移动应用系统正在飞速的发展,通过互联网平台和移动端的应用技术帮助实现了智能化及数字化的管理模式,借助系统平台实现了高效便捷的管......
  • D29【python 接口自动化学习】- python基础之输入输出与文件操作
    day29格式化输出学习日期:20241006学习目标:输入输出与文件操作﹣-41格式化输出:如何将执行结果通过屏幕输出?学习笔记:三种常用的格式化输出方式 百分号方式 format函数方式 总结1.格式化输出是为了让提示信息和输出的结果更人性化2.可以根据输出的复杂度和特点,......
  • D30【python 接口自动化学习】- python基础之输入输出与文件操作
    day30F-strings输出学习日期:20241007学习目标:输入输出与文件操作﹣-42F-strings-如何通过定义好的格式进行输出?学习笔记:F-strings介绍F-strings的计算功能F-strings宽度和精度调整练习#宽度为10个字符,不足补0print(f'{number:010}')#000123.456#指定类......