首页 > 其他分享 >2024版蒲公英平台采集软件,批量爬取小红书优质博主!

2024版蒲公英平台采集软件,批量爬取小红书优质博主!

时间:2024-06-22 09:02:36浏览次数:14  
标签:合作 取小红书 笔记 阅读数 2024 接口 阅读 博主

目录

一、背景介绍

1.0 爬取目标

爬取目标

众所周知,蒲公英是小红书推出的优质创作者商业合作服务平台,致力于为品牌和博主提供内容合作服务,可以高效的为品牌匹配出最符合的优质博主。

蒲公英平台,需要有一定权限的企业资质账号才能申请开通。开通之后,进入【寻找博主】页面,即可根据一定的筛选条件过滤出满足的博主列表,如下:
寻找博主页面

上面是筛选条件,下面是筛选结果。

爬虫功能分为2大类模块:第一是根据筛选条件爬取博主列表,第二是根据爬取到的博主id进入详情页面爬取详细数据,详情页如下:
某个博主的详情页

通过分析网页接口,开发出了爬虫GUI软件,界面如下:
软件运行界面

共爬取到34个字段,字段如下:

1	关键词
2	页码
3	小红书昵称
4	小红书号
5	地址
6	机构
7	数据更新至
8	小红书链接
9	粉丝数
10	账号类型
11	图文报价
12	视频报价
13	合作笔记数
14	预估阅读单价_图文
15	图文3秒阅读
16	日常_阅读中位数
17	日常_互动中位数
18	日常_阅读来源发现页占比
19	日常_阅读来源搜索页占比
20	合作_阅读中位数
21	合作_互动中位数
22	合作_阅读来源发现页占比
23	合作_阅读来源搜索页占比
24	女性粉丝占比
25	年龄占比最多的
26	账号评估
27	合作笔记1阅读数
28	合作笔记2阅读数
29	合作笔记3阅读数
30	合作笔记4阅读数
31	合作笔记5阅读数
32	合作笔记6阅读数
33	合作笔记7阅读数
34	合作笔记8阅读数

详细演示数据:(看《蒲公英》这个sheet页)

见原文

1.1 演示视频

软件操作演示视频:见原文

1.2 软件说明

重要说明,请详读:

  1. Windows用户可直接双击打开使用,无需Python运行环境,非常方便!
  2. 需要在cookie.txt中填入cookie值,持久存储,方便长期使用
  3. 支持筛选笔记搜索关键词、笔记类型(不限/图文笔记为主/视频笔记为主)、粉丝数量、图文报价、搜索页范围。其他个性化筛选条件,可以和我沟通定制
  4. 爬取过程中,有log文件详细记录运行过程,方便回溯
  5. 爬取过程中,自动保存结果到csv文件(每爬一条存一次,防止数据丢失)
  6. 可爬34个关键字段,含:关键词,页码,小红书昵称,小红书号,地址,机构,数据更新至,小红书链接,粉丝数,账号类型,图文报价,视频报价,合作笔记数,预估阅读单价_图文,图文3秒阅读,日常_阅读中位数,日常_互动中位数,日常_阅读来源发现页占比,日常_阅读来源搜索页占比,合作_阅读中位数,合作_互动中位数,合作_阅读来源发现页占比,合作_阅读来源搜索页占比,女性粉丝占比,年龄占比最多的,账号评估,合作笔记1阅读数,合作笔记2阅读数,合作笔记3阅读数,合作笔记4阅读数,合作笔记5阅读数,合作笔记6阅读数,合作笔记7阅读数,合作笔记8阅读数。
  7. 以上爬取字段已经包含,如无法满足个性化要求,可定制开发(接口已调通)
    以上。

二、代码讲解

2.0 关于接口

由于采集字段较多,开发者模式中分析接口不止一个,采集程序整合多个接口开发而成,归纳如下:

  1. 博主列表接口
  2. 日常笔记接口
  3. 合作笔记接口
  4. 粉丝数接口
  5. 阅读单价接口
  6. 合作笔记阅读数接口
  7. 所属机构接口

以上。

2.1 爬虫采集模块

此软件开发成本较高,代码量大、实现逻辑复杂,为保护个人知识版权,防止恶意盗版软件,不展示爬虫核心代码。

2.2 cookie获取

运行软件之前,需要填写cookie值到txt配置文件中,获取方法如下:
开发者模式中获取cookie

2.3 软件界面模块

主窗口部分:

# 创建主窗口
root = tk.Tk()
root.title('蒲公英爬虫-公开版p1.4 | 马哥python说 | 定制')
# 设置窗口大小
root.minsize(width=850, height=650)

部分界面控件:

# 笔记关键词
tk.Label(root, justify='left', text='笔记关键词:').place(x=30, y=65)
entry_kw = tk.Text(root, bg='#ffffff', width=22, height=2, )
entry_kw.place(x=105, y=65, anchor='nw')  # 摆放位置

日志输出控件:

# 运行日志
tk.Label(root, justify='left', text='运行日志:').place(x=30, y=250)
show_list_Frame = tk.Frame(width=780, height=300)  # 创建<消息列表分区>
show_list_Frame.pack_propagate(0)
show_list_Frame.place(x=30, y=270, anchor='nw')  # 摆放位置

2.4 日志模块

好的日志功能,方便软件运行出问题后快速定位原因,修复bug。

核心代码:

def get_logger(self):
	self.logger = logging.getLogger(__name__)
	# 日志格式
	formatter = '[%(asctime)s-%(filename)s][%(funcName)s-%(lineno)d]--%(message)s'
	# 日志级别
	self.logger.setLevel(logging.DEBUG)
	# 控制台日志
	sh = logging.StreamHandler()
	log_formatter = logging.Formatter(formatter, datefmt='%Y-%m-%d %H:%M:%S')
	# info日志文件名
	info_file_name = time.strftime("%Y-%m-%d") + '.log'
	# 将其保存到特定目录
	case_dir = r'./logs/'
	info_handler = TimedRotatingFileHandler(filename=case_dir + info_file_name,
						when='MIDNIGHT',
						interval=1,
						backupCount=7,
						encoding='utf-8')

软件运行过程中生成的日志文件:
log文件

三、转载声明

转载已获原作者@马哥python说授权:

博客园原文链接: 【GUI软件】小红书蒲公英数据批量爬取!高效筛选优质博主,助力品牌商!

标签:合作,取小红书,笔记,阅读数,2024,接口,阅读,博主
From: https://www.cnblogs.com/ws235/p/18261827/pgy

相关文章

  • PE工具 -- EasyU(优启通) v3.7.2024.0515 VIP版
    软件简介优启通(EasyU),也称为EU,是由IT天空开发的一款专业U盘启动盘制作工具。它以U盘作为使用载体,提供了一种便携、高效的系统预安装环境(PE)。优启通的特点包括简约易操作的用户界面,以及广泛的硬件兼容性。它支持BIOS(Legacy)与UEFI两种启动模式,并在主流硬件的基础上兼容早期多数......
  • 2024年华为OD机试真题-分披萨-(C++/Java/python)-OD统一考试(C卷D卷)
    题目描述"吃货"和"馋嘴"两人到披萨店点了一份铁盘(圆形)披萨,并嘱咐店员将披萨按放射状切成大小相同的偶数个小块。但是粗心的服务员将披萨切成了每块大小都完全不同奇数块,且肉眼能分辨出大小。由于两人都想吃到最多的披萨,他们商量了一个他们认为公平的分法:从"吃货"开始,轮流......
  • sprintboot开发环境的热部署(IDEA2024)
    文章目录1.增加pom.xml内容2.修改application.poperties的内容3.IDEA2024软件的其他配置测试是否热部署成功1.增加pom.xml内容供复制<dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-devtools</ar......
  • 20240621维护记录
     dockerrun-d--namepause-1k8s.gcr.io/pause:3.2 注意:RunningError请看pods什么周期介绍https://www.jianshu.com/p/0bb8572e34f#!/bin/bashKEY=`cat/proc/sys/kernel/random/uuid`USER=`echo$KEY|cut-d"-"-f1`ACCESS_KEY=`uuidgen`SECRET_KEY=$KEYROLE_NAME......
  • 2024.6.21 国学社最后一课有感
    开端盼望着,犹豫着,来到了最后一课。作为学校的“大社”之一,十余社员尽皆到场;说尽琅然轩的前世今生,倾诉对国学的热爱满怀;三首送别词,道尽一年来日日夜夜;诗词别董大千里黄云白日曛,北风吹雁雪纷纷。莫愁前路无知己,天下谁人不识君。 临江仙·送钱穆父一别都门三改火,天涯踏尽......
  • 2024最新梦想贩卖机,变现宝知识付费小程序(修改版本+前后端)
    梦想贩卖机升级版,变现宝吸取了资源变现类产品的很多优点,摒弃了那些无关紧要的东西,使本产品在运营和变现能力上,实现了质的超越。多领域素材资源知识变现营销裂变独立版。2024最新梦想贩卖机,变现宝知识付费小程序(修改版本+前后端)-资源吧——资源下载实现流量互导,多渠道变现。独......
  • JOISC 2024 Day3 T1 : Card Collection / 卡牌收集
    首先,注意到对于一组询问,我们只需要关注每个数与\((T_j,W_j)\)的相对大小关系。这一共有\(9\)种情况,于是我们直接做区间DP,设一个形如\(f(l,r,0/1/2,0/1/2)\)的状态,即可得到\(O(N^3M)\)的做法;进一步使用bitset优化可以做到\(O(\frac{N^3M}{w})\),但是无法通过(甚至\(N=20......
  • ToonBoom Storyboard Pro 2024分镜头故事板软件 安装教程
    ToonBoomStoryboardPro2024的功能提供一系列角色发展和素描选项。允许集成声音、着色、编辑操作和变量配置。兼容二维和三维动画任务。提供可调整的图层选择以改进项目管理。允许用户在没高级艺术能力的情况下创建人物和动画。简化的用户界面加快了动画和设计操......
  • 布尔约束传播蕴含图绘制-2024-6-21
      1.gml格式蕴含图格式的获取(1)在主函数main的代码中增加设置外部输出文件通道——打开、结束前、关闭三个函数的调用。参考所涉及的代码:1parseOptions(argc,argv,true);23SimpSolverS;4doubleinitial_time......
  • Windows Server 2025 中文版、英文版下载 (Inside Preview, updated Jun 2024) - 下一
    WindowsServer2025中文版、英文版下载(InsidePreview,updatedJun2024)-下一代Windows11ServerWindowsServer2025正式版发布在即请访问原文链接:https://sysin.org/blog/windows-server-2025/,查看最新版。原创作品,转载请保留出处。作者主页:sysin.org我们知道W......