首页 > 其他分享 >【采集软件】爬取小红书关键词笔记下的评论

【采集软件】爬取小红书关键词笔记下的评论

时间:2024-09-23 12:50:52浏览次数:3  
标签:cookie 关键词 取小红书 笔记 爬取 评论 软件 链接

一、背景分析

1.1 开发背景

众所周知,小红薯是国内流量数一数二的社区种草平台,拥有海量用户和上亿日活,尤其笔记下方的评论区有重大挖掘价值。采集小红书评论数据可以帮助客户了解消费者对商品和品牌的评价和反馈,从而更好地洞悉消费者的喜好、需求和购买意向。

基于此,我用python开发了一个爬虫采集软件,叫【爬小红书搜索评论软件】,支持2种模式的评论采集:

1. 根据关键词采集评论,爬取思路:笔记关键词->笔记链接->评论
2. 根据笔记链接采集评论,爬取思路:笔记链接->评论

可按需选择其中一种模式,进行评论采集。

1.2 软件界面

软件界面,如下:

【采集软件】爬取小红书关键词笔记下的评论_数据

软件运行界面

1.3 结果展示

爬取结果1-笔记数据:

【采集软件】爬取小红书关键词笔记下的评论_数据_02

爬取结果2-评论数据:

【采集软件】爬取小红书关键词笔记下的评论_爬虫软件_03

1.4 演示视频

软件运行演示: https://www.bilibili.com/video/BV1uDtneqEhA/

1.5 软件说明

几点重要说明,请详读了解:

1. Windows用户可直接双击打开使用,无需Python运行环境,非常方便!
2. 软件通过接口协议爬取,并非通过模拟浏览器等RPA类工具,稳定性较高!
3. 先在cookie.txt中填入自己的cookie值,方便重复使用(内附cookie获取方法)
4. 支持按笔记类型(综合/视频/图文)和排序方式(综合/最新/最热)爬取
5. 支持多个的设置项有:笔记关键词、笔记链接、评论关键词、IP属地
6. 每个关键词最多可采集220条笔记,与网页端搜索数量一致
7. 爬取过程中,每爬一页,存一次csv。并非爬完最后一次性保存!防止因异常中断导致丢失前面的数据(每条间隔1~2s)
8. 爬取过程中,有log文件详细记录运行过程,方便回溯
9. 爬取过程中,评论筛选同时进行。并非全部评论爬完再一次性筛选!所以效率较高!
10. 笔记csv含10个字段,有:关键词,页码,笔记id,笔记链接,笔记标题,笔记类型,点赞数,用户id,用户主页链接,用户昵称。
11. 评论csv含10个字段,有:笔记链接,页码,评论者昵称,评论者id,评论者主页链接,评论时间,评论IP属地,评论点赞数,评论级别,评论内容。

以上。

二、主要技术

软件全部模块采用python语言开发,主要分工如下:

tkinter:GUI软件界面
requests:爬虫请求
json:解析响应数据
pandas:保存csv结果、数据清洗
logging:日志记录

出于版权考虑,暂不公开源码,仅向用户提供软件使用。

三、功能介绍

3.0 填写cookie

开始采集前,先把自己的cookie值填入cookie.txt文件。

cookie获取说明1:

【采集软件】爬取小红书关键词笔记下的评论_搜索_04

cookie获取说明2:

演示视频: 小红书cookie获取方法 视频从00:48到01:06看!

3.1 根据关键词爬评论

爬取思路:笔记关键词->笔记链接->评论

先填写左上区的笔记筛选项,再填写右上区的评论筛选项,点击按钮1爬取。

3.2 根据笔记链接爬评论

爬取思路:笔记链接->评论

先填写中上区的笔记链接,再填写右上区的评论筛选项,点击按钮2爬取。

四、付费说明

4.1 卡密说明

付费如下:

日卡:使用期限1天,29元。日卡仅能购买一次。适合试用等临时需求
月卡:使用期限1个月,149元。月卡可多次购买。适合短期采集需求
季卡:使用期限3个月,399元。季卡可多次购买。适合中期采集需求
年卡:使用期限1年,1499元。年卡可多次购买。适合长期采集需求

暂不支持自动化付费,直接与我对接即可。

4.2 一机一码

软件采用一机一码机制,一个卡密只能在一台电脑运行、不可多电脑运行。

4.3 软件多开

一台电脑仅允许运行一个软件,不支持软件多开。

五、软件首发

软件首发于微信公众号"老男孩的平凡之路",欢迎交流!

标签:cookie,关键词,取小红书,笔记,爬取,评论,软件,链接
From: https://blog.51cto.com/u_16186703/12088552

相关文章

  • Navicat中一些查找操作 笔记07
    一、单表查询1.查找所有(*)slect*fromst01  【注:以下操作代码中的st01是表格名字】 2.where子语句中的一些运算符--=等于-->大于-->=大于等于--<小于--<=小于等于--!=不等于select*fromst01whereage=21select*fromst01whereage>18select*fro......
  • 关于bldc的学习笔记(三)无刷测速原理
    第一步:可以看出当只有一对级时,旋转一圈霍尔输出一个完整脉冲(一N一S)第二步:计算其中高电平的持续时间,即:t=C/Ft (其中Ft是计数频率,C为计数次数第三步:所以旋转一圈,需要的总时间为T=2*C/Ft所得出的结果就为:s/圈,倒数就为:圈/s,转化为RPM即:Ft/(2*C)*60即可值得注意的是,......
  • 关于​​Vue学习笔记6中纯JavaScript实现的改进优化2
    0前言在 关于Vue学习笔记6中纯JavaScript实现的改进优化1_PurpleEndurer@5lcto的技术博客_51CTO博客 中,我们提到了一个进一步优化的方向,把表示水果的选项信息存在一个数组里,通过JavaScript输出<li>元素描述代码给用户进行选择。现在我们就来实现这种改进。1提取信息来定义数组......
  • 2024/09/22:TypeScript 学习笔记二
    1、类型注解在TypeScript中,可以使用类型注解来明确标识类型。如:constgreeting:string='helloworld' 2、类型检查静态类型检查:在程序编译时进行——(两种静态类型检查模式:非严格类型检查【默认方式】;严格类型检查)动态类型检查:在程序运行时进行3、TypeScri......
  • javase笔记4----常用类型
    常用类型包装类简介java语言是面向对象的语言,但是其中的八大基本数据类型不符合面向对象的特征。因此java为了弥补这样的缺点,为这八种基本数据类型专门设计了八种符合面向对象特征的的类型,这八种具有面向对象特征的类型,统称为包装类。包装类,就是在类的内部,维护了一个基本......
  • 【做题笔记】收集邮票 做题笔记
    P4550收集邮票展开目录目录P4550收集邮票ReadingStep1Step2Code彩蛋Reading\(k\ge1\)时,可以通过支付\(k\)元钱获得一张\(n\)种邮票中的某种邮票。这\(n\)种邮票等概率出现,求买到全部\(n\)种邮票的花费期望。Step1\(k\)次\(k\)元太难搞了,干脆直接全打成......
  • leetcode 算法题目学习笔记 - 序号2
    2.两数相加给你两个非空的链表,表示两个非负的整数。它们每位数字都是按照逆序的方式存储的,并且每个节点只能存储一位数字。请你将两个数相加,并以相同形式返回一个表示和的链表。你可以假设除了数字0之外,这两个数都不会以0开头。可用的模板#include<iostream>#in......
  • CL260 学习笔记(六)
    RBD基础使用clienta:umount/mntserverc:rados-ppool01ls扩容时同时发起读写操作:vim/etc/fstabmount-a......
  • 【笔记】材料分析测试:晶体学
    晶体与晶体结构CrystalandCrystalStructure1.晶体主要特征固态物质可以分为晶态和非晶态两大类,分别称为晶体和非晶体。晶体和非晶体在微观结构上的区别在于是否具有长程有序。晶体(长程有序)非晶(短程有序)准晶:介于晶体和非晶体之间。准晶体具有与晶体相似的长程有序的......
  • 【笔记】第二节 轧制、热处理和焊接工艺
    2.2钢轨的轧制工艺坯料进厂按标准验收,然后装加热炉加热,加热好的钢坯经高压水除鳞后进行轧制。轧出的钢轨经锯切、打印到中央冷床冷却,然后装缓冷坑进行缓冷。缓冷后的钢轨进行矫直、轨端加工和端头淬火。钢轨入库前逐根进行探伤和外观检查。钢轨的轧制......