首页 > 其他分享 >【GUI软件开发】小红书评论采集:自动采集1w多条,含二级评论!

【GUI软件开发】小红书评论采集:自动采集1w多条,含二级评论!

时间:2023-11-10 14:11:24浏览次数:32  
标签:1w 采集 评论 tk 软件 日志 root

目录

一、爬取目标

您好!我是@马哥python说 ,一名10年程序猿。

我用python开发了一个爬虫采集软件,可自动抓取小红书评论数据,并且含二级评论数据。

为什么有了源码还开发界面软件呢?方便不懂编程代码的小白用户使用,无需安装python,无需改代码,双击打开即用!

1.1 效果截图

软件界面截图:

结果截图1:

结果截图2:

结果截图3:

1.2 演示视频

软件运行演示:【软件演示】小红书评论采集工具,可爬取上万条,含二级评论!

1.3 软件说明

几点重要说明:

  1. Windows用户可直接双击打开使用,无需Python运行环境,非常方便
  2. 需要填入cookie和爬取目标笔记链接
  3. 支持同时爬多个笔记的评论
  4. 可爬取10个关键字段,含:笔记链接,页码,评论者昵称,评论者id,评论者主页链接,评论时间,评论IP属地,评论点赞数,评论级别,评论内容。
  5. 评论中包含二级评论及二级展开评论。

二、代码讲解

2.1 爬虫采集模块

通过把已有代码部分封装成class类,供tkinter界面调用。

详细爬虫实现逻辑,请见:

【爬虫实战】用Python采集任意小红书笔记下的评论,爬了10000多条,含二级评论!

2.2 软件界面模块

软件界面采用tkinter开发。
主窗口部分:

# 创建日志目录
work_path = os.getcwd()
if not os.path.exists(work_path + "/logs"):
	os.makedirs(work_path + "/logs")
# 创建主窗口
root = tk.Tk()
root.title('小红书评论采集软件 | 马哥python说')
# 设置窗口大小
root.minsize(width=850, height=650)

填写cookie控件:

# 【填入Cookie】
tk.Label(root, justify='left', font=('微软', 14), text='个人Cookie:').place(x=30, y=75)
entry_ck = tk.Text(root, bg='#ffffff', width=110, height=2, )
entry_ck.place(x=30, y=100, anchor='nw')  # 摆放位置

填写笔记链接控件:

# 【笔记链接】
tk.Label(root, justify='left', font=('微软', 14), text='笔记链接:').place(x=30, y=145)
note_ids = tk.StringVar()
note_ids.set('')
entry_nt = tk.Text(root, bg='#ffffff', width=110, height=14, )
entry_nt.place(x=30, y=170, anchor='nw')  # 摆放位置

底部软件版权说明:

# 版权信息
copyright = tk.Label(root, text='@马哥python说 All rights reserved.', font=('仿宋', 10), fg='grey')
copyright.place(x=290, y=625)

以上。

2.3 日志模块

好的日志功能,方便软件运行出问题后快速定位原因,修复bug。
核心代码:

def get_logger(self):
	self.logger = logging.getLogger(__name__)
	# 日志格式
	formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
	# 日志级别
	self.logger.setLevel(logging.DEBUG)
	# 控制台日志
	sh = logging.StreamHandler()
	log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
	# info日志文件名
	info_file_name = time.strftime("%Y-%m-%d") + '.log'
	case_dir = r'./logs/'
	info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
											when='MIDNIGHT',
											interval=1,
											backupCount=7,
											encoding='utf-8')

日志文件截图:

三、获取源码及软件

get完整源码:【GUI软件开发】小红书评论采集:自动采集1w多条,含二级评论!


我是@马哥python说 ,一名10年程序猿,持续分享python干货中!

标签:1w,采集,评论,tk,软件,日志,root
From: https://www.cnblogs.com/mashukui/p/xhs_comment_tool.html

相关文章

  • PHP编写采集药品官方数据的程序
    在PHP中编写爬虫程序,首先我们需要引入一些必要的库,如curl和file_get_contents。然后,我们需要设置爬虫ip信息,以便我们可以从指定的爬虫ip服务器上获取数据。//引入必要的库require_once'curl.php';//设置爬虫ip信息$proxy_host='duoip';$proxy_port=8000;//创建......
  • 选择振弦采集仪进行岩土工程监测时,根据不同工况选择合适的种类
    选择振弦采集仪进行岩土工程监测时,根据不同工况选择合适的种类岩土工程监测是保证工程质量和安全的重要手段。振弦采集仪是一种常用的岩土工程监测仪器,可用于对岩土工程场地振动环境的监测。它具有测量精度高、实时性强、易于安装、使用方便等特点。然而,在使用中要针对不同的工程......
  • 当前大数据时代的一个流式日志采集工具——Flume
    1.什么是流式日志?大数据时代的数据大概的说可以分为流式的data以及批式的data什么意思呢?顾名思义就是,对data进行处理的方式不一样,流式就是像流水一样,不断流入,它是每时每刻都有的,实时的都需要进行收集然后处理;反观批式data,它是一批一批的来,等到收集到一批(达到某个阈值)data再统......
  • PHP采集
    https://querylist.cc/v3/guide/overview.html使用QueryList,从学习安装开始。环境要求​bashPHP>=5.3安装QueryList​QueryList V3支持2种安装方式:使用Composer安装和手动安装。###使用Composer安装执行Composer安装命令:composerrequirejaeger/querylist:V3.2.......
  • 数据采集与融合技术实践四
    一、作业内容作业①:熟练掌握Selenium查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。使用Selenium框架+MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。候选网站:东方财富网:http://quote.eastmoney.com/center/gridlist.......
  • postman在数据采集过程中的调试注意事项
    Postman是一个强大的API调试工具,它可以帮助开发人员测试和调试API端点,以确保它们按预期工作。在使用Postman进行接口调试时,以下是一些注意事项和可能出现的问题,以及如何解决这些问题。 1.确保请求参数正确在测试API接口时,确保您提供了正确的请求参数非常重要。Postman......
  • Kubernetes日志采集Sidecar模式介绍
    Kubernetes(K8S)作为CNCF(cloudnativecomputingfoundation)的一个核心项目,背靠Google和Redhat的强大社区,近两年发展十分迅速,在成为容器编排领域中领导者的同时,也正在朝着PAAS底座标配的方向发展。日志采集方式日志作为任一系统不可或缺的部分,在K8S的官方文档中也介绍了多种的日......
  • loki采集k8s日志
    前言loki是轻量、易用的日志聚合系统。如果你的k8s集群规模并不大,推荐使用grafana+loki的方案来做微服务日志的采集;Loki组成loki架构很简单,主要由3部分组成:loki:服务端,负责存储日志和处理查询;promtail:采集端,负责采集日志发送给loki;grafana:负责采集日志的展示;promtail.ymlkubectl......
  • 数据采集与融合技术实践四
    第四次作业一、作业内容作业①:要求:熟练掌握Selenium查找HTML元素、爬取Ajax网页数据、等待HTML元素等内容。使用Selenium框架+MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、“深证A股”3个板块的股票数据信息。候选网站:东方财富网:http://quote.eastmoney.com/......
  • 应急电源车:车载UPS系统如何进行数据采集远程监控
    随着电力需求的日益增长,不仅需要大规模的电厂来满足日常生产、生活的需要,而且还要在重要场所、灾害现场等环境中,随时准备备用电源来更好地面对突发状况,应急电源车便是这一类型的特种车辆。 UPS应急电源车是一种搭载UPS系统的特种车辆,能够为特殊场合提供稳定、可靠、不间断电源,一般......