首页 > 其他分享 >【GUI软件开发】小红书评论采集:自动采集1w多条,含二级评论!

【GUI软件开发】小红书评论采集:自动采集1w多条,含二级评论!

时间:2024-03-23 19:33:05浏览次数:30  
标签:1w 小红书 采集 评论 tk 日志 root

一、爬取目标

用python开发的爬虫采集软件,可自动抓取小红书评论区,并且含二级评论。

方便不懂编程代码的小白使用,无需安装python、无需改代码,双击打开exe即用!

1.1 效果截图

软件界面截图:

结果截图1:

结果截图2:

结果截图3:

1.2 演示视频

软件运行演示:【软件演示】小红书评论采集工具,可爬取上万条,含二级评论!

1.3 软件说明

几点重要说明:

  1. Windows用户可直接双击打开使用,无需Python运行环境,非常方便
  2. 需要填入cookie和爬取目标笔记链接
  3. 支持同时爬多个笔记的评论
  4. 可爬取10个关键字段,含:笔记链接,页码,评论者昵称,评论者id,评论者主页链接,评论时间,评论IP属地,评论点赞数,评论级别,评论内容。
  5. 评论中包含二级评论及二级展开评论。

二、代码讲解

2.1 爬虫采集模块

通过把已有代码部分封装成class类,供tkinter界面调用。

详细爬虫实现逻辑,请见:

【爬虫实战】用Python采集任意小红书笔记下的评论,爬了10000多条,含二级评论!

2.2 软件界面模块

软件界面采用tkinter开发。
主窗口部分:

# 创建日志目录
work_path = os.getcwd()
if not os.path.exists(work_path + "/logs"):
	os.makedirs(work_path + "/logs")
# 创建主窗口
root = tk.Tk()
root.title('小红书评论采集软件 | 马哥python说')
# 设置窗口大小
root.minsize(width=850, height=650)

填写cookie控件:

# 【填入Cookie】
tk.Label(root, justify='left', font=('微软', 14), text='个人Cookie:').place(x=30, y=75)
entry_ck = tk.Text(root, bg='#ffffff', width=110, height=2, )
entry_ck.place(x=30, y=100, anchor='nw')  # 摆放位置

填写笔记链接控件:

# 【笔记链接】
tk.Label(root, justify='left', font=('微软', 14), text='笔记链接:').place(x=30, y=145)
note_ids = tk.StringVar()
note_ids.set('')
entry_nt = tk.Text(root, bg='#ffffff', width=110, height=14, )
entry_nt.place(x=30, y=170, anchor='nw')  # 摆放位置

底部软件版权说明:

# 版权信息
copyright = tk.Label(root, text='@马哥python说 All rights reserved.', font=('仿宋', 10), fg='grey')
copyright.place(x=290, y=625)

以上。

2.3 日志模块

好的日志功能,方便软件运行出问题后快速定位原因,修复bug。
核心代码:

def get_logger(self):
	self.logger = logging.getLogger(__name__)
	# 日志格式
	formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
	# 日志级别
	self.logger.setLevel(logging.DEBUG)
	# 控制台日志
	sh = logging.StreamHandler()
	log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
	# info日志文件名
	info_file_name = time.strftime("%Y-%m-%d") + '.log'
	case_dir = r'./logs/'
	info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
											when='MIDNIGHT',
											interval=1,
											backupCount=7,
											encoding='utf-8')

日志文件截图:

三、获取源码及软件

Get完整源码:【GUI软件开发】小红书评论采集:自动采集1w多条,含二级评论!

标签:1w,小红书,采集,评论,tk,日志,root
From: https://www.cnblogs.com/ws235/p/18091575

相关文章

  • 基于FPGA温度采集的方案
    1.使用温度传感器与FPGA连接:FPGA可以通过接口与外部温度传感器进行通信,实时读取温度数据并进行处理。其中一种常用的温度传感器是LM75系列传感器,如LM75A、LM75B等。这些传感器具有高精度、温度测量范围广、低功耗等特点。                 ......
  • 关于“吉吉巳资源采集站点”的分享,我想说......
    前段时间我分享了一个影视资源采集站,惹来不少“非议”。本来没怎么当回事,可今天无意看了下评论,发现居然还有人出口成脏,真是无语了,为此觉得有必要向那些无聊的“朋友”说点什么......不知道原由的朋友可以先看下我之前分享的这资源采集站:https://blog.csdn.net/YUMENG_FLY/art......
  • 奇客PDF评论:优点、缺点和个人的结论
    作为一个在职业中接触大量PDF文档的人,PDF编辑器对我来说是基本必需品。我希望我的PDF编辑器使用起来非常简单,同时还提供普通的编辑和转换功能。我对功能足够强大、又不失简单性的PDF编辑器的追求最初让我想到了奇客PDF。在过去的1年里我一直在使用奇客PDF,并且一直发现它......
  • 蓝桥杯嵌入式(STM32G431RBT6)——扩展板——IC采集频率(PUSL1、PUSL2)
    1.原理图2.Cubemx配置3.代码(1)timer.c#include"timer.h"unsignedintPUSL1_frq_T2CH2=0;unsignedintPUSL2_frq_T2CH3=0;uint32_tuwIC2Value1_T2CH2=0;//第一次捕获上升沿的时间uint32_tuwIC2Value2_T2CH2=0;//第二次捕获上升沿的时间uint32_tu......
  • Python实战:爬取小红书-采集笔记详情
    上一篇文章发出后,有读者问能不能爬到小红书笔记详情数据,今天他来了。一、先看效果程序输入:在一个txt文件内粘贴要爬取的笔记链接,每行放1个链接。程序输出:输出是一个所有笔记详情数据的excel表格,包含”采集日期、作者、笔记标题、发布日期、IP属地、点赞数、收藏数、......
  • Python爬虫-数据采集和处理
    文章目录数据数据类型数据分析过程数据采集数据采集源数据采集方法数据清洗清洗数据数据集成数据转换数据脱敏数据《春秋左传集解》云:“事大大其绳,事小小其绳。”体现了早期人类将事情的“大小”这一性质抽象到“绳结大小”这一符号上从而产生数据的过程。数据......
  • tomcat采集阿里云slb真实客户端ip
    tomcat采集阿里云slb真实客户端ip......
  • 【GUI界面软件】快手评论区采集:自动采集10000多条,含二级评论、展开评论!
    目录一、背景说明1.1效果演示1.2演示视频1.3软件说明二、代码讲解2.1爬虫采集模块2.2软件界面模块2.3日志模块三、获取源码及软件一、背景说明1.1效果演示您好!我是@马哥python说,一名10年程序猿。我用python开发了一个爬虫采集软件,可自动抓取快手评论数据,并且含二级评论......
  • Python爬虫实战系列4:天眼查公司工商信息采集
    Python爬虫实战系列1:博客园cnblogs热门新闻采集Python爬虫实战系列2:虎嗅网24小时热门新闻采集Python爬虫实战系列3:今日BBNews编程新闻采集Python爬虫实战系列4:天眼查公司工商信息采集一、分析页面打开天眼查网址https://www.tianyancha.com/,随便搜索一个公司【比亚迪】查......
  • snownlp的原始评论文件直方图分析
    SnowNLP是一个专门为处理中文文本而创建的Python自然语言处理库。它是由isnowfy开发并在GitHub上开源的一个项目,地址为 https://github.com/isnowfy/snownlp 。SnowNLP受TextBlob库的启发,但针对中文文本处理的特点进行了定制化设计,并且没有依赖NLTK(NaturalLanguage......