首页 > 编程语言 >【爬虫实战】用Python采集任意小红书笔记下的评论,爬了10000多条,含二级评论!

【爬虫实战】用Python采集任意小红书笔记下的评论,爬了10000多条,含二级评论!

时间:2023-11-01 09:00:10浏览次数:43  
标签:10000 Python list 爬虫 cursor 评论 data id

目录

一、爬取目标

您好!我是@马哥python说 ,一名10年程序猿。

我们继续分享Python爬虫的案例,今天爬取小红书上指定笔记("巴勒斯坦"相关笔记)下的评论数据。

老规矩,先展示结果:

截图1:
截图1

截图2:
截图2

截图3:
截图3

共爬取了1w多条"巴勒斯坦"相关评论,每条评论含10个关键字段,包括:

笔记链接, 页码, 评论者昵称, 评论者id, 评论者主页链接, 评论时间, 评论IP属地, 评论点赞数, 评论级别, 评论内容。

其中,评论级别包括:根评论、二级评论及二级展开评论。

二、爬虫代码讲解

2.1 分析过程

任意打开一个小红书笔记的评论,打开浏览器的开发者模式,网络,XHR,找到目标链接的预览数据,如下:
开发者模式

由此便得到了前端请求链接,下面开始开发爬虫代码。

2.2 爬虫代码

首先,导入需要用到的库:

import requests
from time import sleep
import pandas as pd
import os
import time
import datetime
import random

定义一个请求头:

# 请求头
h1 = {
	'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36',
	# cookie需定期更换
	'Cookie': '换成自己的cookie值',
}

经过我的实际测试,请求头包含User-Agent和Cookie这两项,即可实现爬取。
其中,Cookie很关键,需要定期更换。那么Cookie从哪里获得呢?方法如下:
获取Cookie方法

下面,开发翻页逻辑。

由于我并不知道一共有多少页,往下翻多少次,所以采用while循环,直到触发终止条件,循环才结束。

那么怎么定义终止条件呢?我注意到,在返回数据里有一个叫做"has_more"的参数,大胆猜测它的含义,是否有更多数据,正常情况它的值是true。如果它的值是false,代表没有更多数据了,即到达最后一页了,也就该终止循环了。

因此,核心代码结构应该是这样(以下是伪代码,主要是表达逻辑,请勿直接copy):

while True:
	# 发送请求
	r = requests.get(url, headers=h1)
	# 解析数据
	json_data = r.json()
	# 逐条解析
	for c in json_data['data']['comments']:
		# 评论内容
		content = c['content']
		content_list.append(content)
	# 保存数据到csv
	。。。
	# 判断终止条件
	next_cursor = json_data['data']['cursor']
	if not json_data['data']['has_more']:
		print('没有下一页了,终止循环!')
		break
	page += 1

另外,还有一个关键问题,如何进行翻页。

查看请求参数,如下:
请求参数中的cursor

这里的游标,就是向下翻页的依据,因为每次请求的返回数据中,也有一个cursor:
返回数据中的cursor

大胆猜测,返回数据中的cursor,就是给下一页请求用的cursor,所以,这部分的逻辑实现应该如下(以下是伪代码,主要是表达逻辑,请勿直接copy):

while True:
	if page == 1:
		url = 'https://edith.xiaohongshu.com/api/sns/web/v2/comment/page?note_id={}&top_comment_id=&image_scenes=FD_WM_WEBP,CRD_WM_WEBP'.format(
			note_id)
	else:
		url = 'https://edith.xiaohongshu.com/api/sns/web/v2/comment/page?note_id={}&top_comment_id=&image_scenes=FD_WM_WEBP,CRD_WM_WEBP&cursor={}'.format(
			note_id, next_cursor)
	# 发送请求
	r = requests.get(url, headers=h1)
	# 解析数据
	json_data = r.json()
	# 得到下一页的游标
	next_cursor = json_data['data']['cursor']

另外,我在第一章节提到,还爬到了二级评论及二级展开评论,怎么做到的呢?
经过分析,返回数据中有个节点sub_comment_count代表子评论数量,如果大于0代表该评论有子评论,进而可以从sub_comments节点中爬取二级评论。

其中,二级展开评论,请求参数中的root_comment_id代表父评论的id,其他逻辑同理,不再赘述。

最后,是顺理成章的保存csv数据:

# 保存数据到DF
df = pd.DataFrame(
	{
		'笔记链接': 'https://www.xiaohongshu.com/explore/' + note_id,
		'页码': page,
		'评论者昵称': nickname_list,
		'评论者id': user_id_list,
		'评论者主页链接': user_link_list,
		'评论时间': create_time_list,
		'评论IP属地': ip_list,
		'评论点赞数': like_count_list,
		'评论级别': comment_level_list,
		'评论内容': content_list,
	}
)
# 设置csv文件表头
if os.path.exists(result_file):
	header = False
else:
	header = True
# 保存到csv
df.to_csv(result_file, mode='a+', header=header, index=False, encoding='utf_8_sig')

至此,爬虫代码开发完毕。

完整代码中,还包含转换时间戳、随机等待时长、解析其他字段、保存Dataframe数据、多个笔记同时循环爬取等关键逻辑,详见演示视频。

三、演示视频

代码演示:【Python爬虫】用python爬了10000条小红书评论,以#巴勒斯坦#为例


我是@马哥python说,一名10年程序猿,持续分享python干货中!

标签:10000,Python,list,爬虫,cursor,评论,data,id
From: https://www.cnblogs.com/mashukui/p/xhs_comment.html

相关文章

  • python求Π
    fromrandomimportrandomfromtimeimportperf_counterpi=0N=100start=perf_counter()forkinrange(N):pi+=1/pow(16,k)*(4/(8*k+1)-2/(8*k+4)-1/(8*k+5)-1/(8*k+6))print('公式法:')print("圆周率值是{}......
  • 使用Python批量发送个性化邮件
    前言在现代工作环境中,我们经常需要向多个收件人发送个性化的邮件。通过使用Python编程语言,我们可以自动化这个过程,从Excel文件中读取收件人和相关数据,并发送定制的邮件。首先,导入所需的库:importpandasaspdimportsmtplibfromemail.mime.multipartimportMIMEMultipart......
  • Python算圆周率
    importsysimporttimedefprogress_bar():    foriinrange(1,101):        print("\r",end="")        print("Downloadprogress:{}%:".format(i),"▋"*(i//2),end="")        s......
  • Python 数学函数和 math 模块指南
    Python提供了一组内置的数学函数,包括一个广泛的数学模块,可以让您对数字执行数学任务。内置数学函数。min()和max()函数可用于在可迭代对象中查找最低或最高值:示例:查找可迭代对象中的最低或最高值:x=min(5,10,25)y=max(5,10,25)print(x)print(y)abs()函数返回......
  • python、R语言ARIMA-GARCH分析南方恒生中国企业ETF基金净值时间序列分析
    全文链接:https://tecdat.cn/?p=34123原文出处:拓端数据部落公众号分析师:YuyanWang虽然中国股票市场日益完善,但还不完全是弱有效市场,因此中国股票市场存在比较明显的通过技术分析达到的套利机会。解决方案任务/目标根据基金净值的要求,运用多种模型分析实现股票走势的预测。......
  • python__re模块&正则表达式*正则表达式练习题
    1、如下图是python中的re模块的讲解,已经正则表达式的基础知识2、python正则表达式训练题(网上找的,最后附上了地址)1.\d,\W,\s,\B,.,*,+,?分别是什么?\d:数字\W:非英文数字下划线的任意字符\s:任意空白字符\B:非单词开始或结尾的位置.表示非换行符的任意字符*表示匹配前面子表达式0次或多次......
  • Python - pip 加速
    #持久加速mkdir-p~/.pip#清华sourcecat<<EOF>~/.pip/pip.conf[global]index-url=https://pypi.tuna.tsinghua.edu.cn/simple[install]trusted-host=pypi.tuna.tsinghua.edu.cnEOF#豆瓣源sourcecat<<EOF>~/.pip/pip.conf[global]inde......
  • linux 安装 python3.10
    aptupdateaptinstallbuild-essentialzlib1g-devlibncurses5-devlibgdbm-devlibnss3-devlibssl-devlibreadline-devlibffi-devlibsqlite3-devwgetcurlllvmlibncurses5-devlibncursesw5-devxz-utilstk-devlibffi-devliblzma-devpython3-opensslgitwget......
  • Python自动化办公——3个Excel表格中每个门店物品不同,想要汇总在一起(方法二)
    大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Python自动化办公处理的问题,一起来看看吧。上一篇文章中,我们已经看到了两种解决办法了,这一篇文章我们一起来看看另外一种方法。二、实现过程这里【瑜亮老师】另外再给了一个代码和思路,如下所示:#读......
  • # yyds干货盘点 # Python自动化办公——3个Excel表格中每个门店物品不同,想要汇总在一
    大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Python自动化办公处理的问题,一起来看看吧。上一篇文章中,我们已经看到了两种解决办法了,这一篇文章我们一起来看看另外一种方法。二、实现过程这里【瑜亮老师】另外再给了一个代码和思路,如下所示:#读取Excel......