首页 > 其他分享 >【GUI软件】抖音搜索结果批量采集,支持多个关键词、排序方式、发布时间筛选等!

【GUI软件】抖音搜索结果批量采集,支持多个关键词、排序方式、发布时间筛选等!

时间:2024-01-13 22:33:17浏览次数:31  
标签:count 视频 name GUI list 抖音 软件 排序 self

一、背景介绍

1.1 爬取目标

您好!我是@马哥python说,一名10年程序猿。

我用python开发了一个爬虫采集软件,可自动按关键词抓取抖音视频数据。

为什么有了源码还开发界面软件呢?方便不懂编程代码的小白用户使用,无需安装python,无需改代码,双击打开即用!

软件界面截图: 软件运行界面

爬取结果截图: 结果截图1:

结果截图2:

结果截图3:

以上。

1.2 演示视频

软件使用演示: 【软件演示】抖音搜索采集工具,支持多个关键词、排序方式、发布时间等

1.3 软件说明

几点重要说明:

  1. Windows用户可直接双击打开使用,无需Python运行环境,非常方便!
  2. 需要填入个人cookie和目标视频链接
  3. 支持筛选:排序方式(综合排序/最新发布/最多点赞)和发布时间(不限/一天内/一周内/半年内)
  4. 支持同时爬多个关键词
  5. 爬取过程中,有log文件详细记录运行过程,方便回溯
  6. 爬取完成后,自动导出结果到csv文件
  7. 可爬13个字段,含:关键词,页码,视频标题,视频链接,作者昵称,抖音号,作者链接,作者粉丝数,发布时间,点赞数,评论数,收藏数,转发数。

以上。

二、代码讲解

2.1 爬虫采集模块

首先,定义接口地址作为请求地址:

# 请求地址
url = 'https://www.douyin.com/aweme/v1/web/search/item/'

定义一个请求头,用于伪造浏览器:

# 请求头
h1 = {
	"Accept": 'application/json, text/plain, */*',
	"Accept-Encoding": "gzip, deflate",
	"Accept-Language": "zh-CN,zh;q=0.9,en;q=0.8",
	"Cookie": self.cookie_val,
	"Referer": "",
	"Sec-Ch-Ua": 'Not_A Brand";v="8", "Chromium";v="120", "Google Chrome";v="120',
	"Sec-Ch-Ua-Mobile": "?0",
	"Sec-Ch-Ua-Platform": "Windows",
	"Sec-Fetch-Dest": "empty",
	"Sec-Fetch-Mode": "cors",
	"Sec-Fetch-Site": "same-origin",
	"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
}

说明一下,cookie是个关键参数。 cookie的获取方法,如下:

这个值非常重要,软件界面需要填写!!

加上请求参数,告诉程序你的爬取条件是什么:

# 请求参数
params = {
	"device_platform": "webapp",
	"aid": "6383",
	"channel": "channel_pc_web",
	"search_channel": "aweme_video_web",
	"sort_type": self.trans_sort_type(v_str=self.sort_type),
	"publish_time": self.trans_time_range(v_str=self.time_range),
	"keyword": search_keyword,
	"search_source": "tab_search",
	"query_correct_type": "1",
	"is_filter_search": "1",
	"from_group_id": "",
	"offset": cursor,
	"count": "20",
	"pc_client_type": "1",
	"version_code": "170400",
	"version_name": "17.4.0",
	"cookie_enabled": "true",
	"screen_width": "1536",
	"screen_height": "864",
	"browser_language": "zh-CN",
	"browser_platform": "Win32",
	"browser_name": "Chrome",
	"browser_version": "120.0.0.0",
	"browser_online": "true",
	"engine_name": "Blink",
	"engine_version": "120.0.0.0",
	"os_name": "Windows",
	"os_version": "10",
	"cpu_core_num": "8",
	"device_memory": "8",
	"platform": "PC",
	"downlink": "10",
	"effective_type": "4g",
	"round_trip_time": "50",
	"webid": "7249265465250973217",
	"msToken": "Sx2PzLIz0YGvM_wrIkaUaaeUb1JUutgo3ERiWmwV1w6VC1naW15lFM6N3nanMZRZYfaHLvXrDNzGqkAyvvCpdO3d6u0u_kNmmZZHeMIsDqga2eWnjTzp5g==",
	"X-Bogus": "DFSzswVuketAN9oEt7PfdSlls7YT"
}

下面就是发送请求和接收数据:

# 发送请求
r = requests.get(url, headers=h1, params=params)
print(r.status_code)
# 以json格式接收返回数据
json_data = r.json()

定义一些空列表,用于存放解析后字段数据:

# 定义空列表
title_list = []  # 视频标题
link_list = []  # 视频链接
author_name_list = []  # 作者昵称
author_id_list = []  # 抖音号
author_link_list = []  # 作者链接
follower_count_list = []  # 作者粉丝数
create_time_list = []  # 发布时间
like_count_list = []  # 点赞数
comment_count_list = []  # 评论数
collect_count_list = []  # 收藏数
share_count_list = []  # 转发数

循环解析字段数据,以"视频标题"为例:

for v in video_list:
	# 视频标题
	title = v['aweme_info']['desc']
	self.tk_show('视频标题:' + title)
	title_list.append(title)

其他字段同理,不再赘述。

最后,是把数据保存到csv文件:

# 保存数据到DF
df = pd.DataFrame(
	{
		'关键词': search_keyword,
		'页码': page,
		'视频标题': title_list,
		'视频链接': link_list,
		'作者昵称': author_name_list,
		'抖音号': author_id_list,
		'作者链接': author_link_list,
		'作者粉丝数': follower_count_list,
		'发布时间': create_time_list,
		'点赞数': like_count_list,
		'评论数': comment_count_list,
		'收藏数': collect_count_list,
		'转发数': share_count_list,
	}
)
if os.path.exists(self.result_file):  # 如果文件存在,不再设置表头
	header = False
else:  # 否则,设置csv文件表头
	header = True
df.to_csv(self.result_file, mode='a+', index=False, header=header, encoding='utf_8_sig')
self.tk_show('保存csv文件成功:' + self.result_file)

完整代码中,还含有:判断循环结束条件、排序方式(综合排序/最新发布/最多点赞)、发布时间(不限/一天内/一周内/半年内)等关键实现逻辑。

2.2 软件界面模块

主窗口部分:

# 创建主窗口
root = tk.Tk()
root.title('抖音搜索采集软件v1.1 | 马哥python说 |')
# 设置窗口大小
root.minsize(width=850, height=650)

输入控件部分:

# 搜索关键词
tk.Label(root, justify='left', text='搜索关键词:').place(x=30, y=160)
entry_kw = tk.Text(root, bg='#ffffff', width=60, height=2, )
entry_kw.place(x=125, y=160, anchor='nw')  # 摆放位置

底部版权部分:

# 版权信息
copyright = tk.Label(root, text='@马哥python说 All rights reserved.', font=('仿宋', 10), fg='grey')
copyright.place(x=290, y=625)

以上。

2.3 日志模块

好的日志功能,方便软件运行出问题后快速定位原因,修复bug。

核心代码:

def get_logger(self):
	self.logger = logging.getLogger(__name__)
	# 日志格式
	formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
	# 日志级别
	self.logger.setLevel(logging.DEBUG)
	# 控制台日志
	sh = logging.StreamHandler()
	log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
	# info日志文件名
	info_file_name = time.strftime("%Y-%m-%d") + '.log'
	# 将其保存到特定目录,ap方法就是寻找项目根目录,该方法博主前期已经写好。
	case_dir = r'./logs/'
	info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
						when='MIDNIGHT',
						interval=1,
						backupCount=7,
						encoding='utf-8')

日志文件截图:

以上。

三、演示视频

软件运行演示:(很重要!一定要看!!) 【软件演示】抖音搜索采集工具,支持多个关键词、排序方式、发布时间等


推荐阅读: 【GUI界面软件】抖音评论采集:自动采集10000多条,含二级评论、展开评论!


我是@马哥python说,一名10年程序猿,持续分享python干货中!

标签:count,视频,name,GUI,list,抖音,软件,排序,self
From: https://blog.51cto.com/mgnb/9233807

相关文章

  • python | 小游戏 开局托儿所 自动化脚本 pyautogui
    小游戏开局托儿所自动化脚本pyautogui纯sb游戏,我脚本都不是总能上100分。当然,跟我算法不是最优肯定也有关系。别玩这游戏,纯浪费时间。好久不写这种带算法的代码了,调了半天。importpyautoguideflike(boxa,boxb): ifabs(boxa.top-boxb.top)<10andabs(boxa.left-box......
  • js 排序方法
    数组有两个方法可以用来对元素重新排序:reverse()和sort()。顾名思义,reverse()方法就是将数组元素反向排列。比如:letvalues=[1,2,3,4,5];values.reverse();alert(values);//5,4,3,2,1这里,数组values的初始状态为[1,2,3,4,5]。通过调用reverse()反向排序,......
  • 图片特效/增强GUI程序
    程序下载地址:mendianyu/pictureConvert:图片特效/增强GUI程序,借助百度接口实现人像动漫化,模糊图片变清晰等等功能(github.com)图片特效/增强GUI程序借助百度接口实现人像动漫化,模糊图片变清晰等等功能程序介绍运行ImageConverterGul这个java文件进入程序页面可以选择图像特效......
  • 拖曳排序
    <!DOCTYPEhtml><htmllang="en"><head><metacharset="UTF-8"><metahttp-equiv="X-UA-Compatible"content="IE=edge"><metaname="viewport"content="width=......
  • 如何在SAP GUI中快速执行新的事务代码
    当我们成功登录SAP的某个连接后,在SAPGUI起始页(SAP轻松访问),我们可以通过点击【收藏夹】或者在界面左上角的输入框输入对应的事务代码,直接进入对应事务的界面。但是下面列举的场景,你是否知道如何快速应对? 场景一:当前已处于某个事务代码中,如何进入新的事务代码?场景二:当前SA......
  • python 2数组同时排序
    Python2数组同时排序在Python中,排序是一种常见的操作。当我们想要对多个数组进行排序时,可以使用zip()函数和sorted()函数来实现。本文将详细介绍如何使用这两个函数对数组进行排序,并提供相应的代码示例。首先,我们需要了解zip()函数的作用。zip()函数可以将多个数组中的元素一一......
  • 【GUI软件】抖音搜索结果批量采集,支持多个关键词、排序方式、发布时间筛选等!
    目录一、背景介绍1.1爬取目标1.2演示视频1.3软件说明二、代码讲解2.1爬虫采集模块2.2软件界面模块2.3日志模块三、获取源码及软件一、背景介绍1.1爬取目标您好!我是@马哥python说,一名10年程序猿。我用python开发了一个爬虫采集软件,可自动按关键词抓取抖音视频数据。为......
  • 抖音利用人工智能操控用户行为?商家、达人该乐了
    文|新熔财经作者|一城字节跳动早期投资人陈伟星在社交平台上狂喷抖音,引发不小的震动。“运用人工智能对用户进行操控,引导其行为,最终实现抖音自身的意图目标”、“控制人类意识,沉迷于意识形态的皇帝之位”,这样的指控不可谓不尖锐。事实上,早在漂亮国大选期间,tiktok就被指控有类似的行动......
  • 抖音APP如何实现用户生命周期提升
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群近日,在火山引擎数智平台在北京举办的“超话数据:企业产品优化分享”的活动上,抖音策略产品经理分享了抖音产品提升用户生命周期的难点及解决办法。他提到,抖音产品优化涉及到性能、交互、内容和业务......
  • 排序算法,冒泡,选择,插入
    比较慢:冒泡排序:列表每两个相邻的数,如果前⾯⽐后⾯⼤,则交换这两个数。⼀趟排序完成后,则⽆序区减少⼀个数,有序区增加⼀个数。代码关键点:趟、⽆序区范围#include"stdio.h"intmain(){intarr[]={8,32,22,73,95,13,9,82,23,46,71,52,90,53,77,75,65,64,......