首页 > 编程语言 >【2022知乎爬虫】我用Python爬虫爬了2300多条知乎评论!

【2022知乎爬虫】我用Python爬虫爬了2300多条知乎评论!

时间:2022-08-25 08:23:14浏览次数:94  
标签:www 知乎 author Python gender 爬虫 评论

您好,我是 @马哥python说,一枚10年程序猿。

一、爬取目标

前些天我分享过一篇微博的爬虫:
https://www.cnblogs.com/mashukui/p/16414027.html
但是知乎平台和微博平台的不同之处在于,微博平台的数据用于分析社会舆论热点事件是极好的,毕竟是个偏娱乐化的社交平台。但知乎平台的评论更加客观、讨论内容更加有深度,更加有专业性,基于此想法,我开发出了这个知乎评论的爬虫。

二、展示爬取结果

我在知乎上搜索了5个关于”考研“的知乎回答,爬取了回答下方的评论数据,共计2300+条数据。

https://www.zhihu.com/question/291278869/answer/930193847
https://www.zhihu.com/question/291278869/answer/802226501
https://www.zhihu.com/question/291278869/answer/857896805
https://www.zhihu.com/question/291278869/answer/910489150
https://www.zhihu.com/question/291278869/answer/935352960

爬取字段,含:
回答url、页码、评论作者、作者性别、作者主页、作者头像、评论时间、评论内容、评论级别。

部分数据截图:
爬取结果

三、爬虫代码讲解

3.1 分析知乎页面

任意打开一个知乎回答,点开评论界面:

同时打开chrome浏览器的开发者模式,评论往下翻页,就会找到目标链接:

作为爬虫开发者,看到这种0-19的json数据,一定要敏感,这大概率就是评论数据了。猜测一下,每页有20条评论,逐级打开json数据:

基于此数据结构,开发爬虫代码。

3.2 爬虫代码

首先,导入用到的库:

import requests
import time
import pandas as pd
import os

从上面的截图可以看到,评论时间created_time是个10位时间戳,因此,定义一个转换时间的函数:

def trans_date(v_timestamp):
	"""10位时间戳转换为时间字符串"""
	timeArray = time.localtime(v_timestamp)
	otherStyleTime = time.strftime("%Y-%m-%d %H:%M:%S", timeArray)
	return otherStyleTime

作者的性别gender是0、1,所以也定义一个转换函数:

def tran_gender(gender_tag):
	"""转换性别"""
	if gender_tag == 1:
		return '男'
	elif gender_tag == 0:
		return '女'
	else:  # -1
		return '未知'

准备工作做好了,下面开始写爬虫。
请求地址url,从哪里得到呢?
打开Headers,找到Request URL,直接复制下来,然后替换:

先提取出一共多少评论,用于计算后面的翻页次数:

url0 = 'https://www.zhihu.com/api/v4/answers/{}/root_comments?order=normal&limit=20&offset=0&status=open'.format(answer_id)
r0 = requests.get(url0, headers=headers)  # 发送请求
total = r0.json()['common_counts']  # 一共多少条评论
print('一共{}条评论'.format(total))

计算翻页次数,直接用评论总数除以20就好了:

# 判断一共多少页(每页20条评论)
max_page = int(total / 20)
print('max_page:', max_page)

下面,再次发送请求,获取评论数据:

url = 'https://www.zhihu.com/api/v4/answers/{}/root_comments?order=normal&limit=20&offset={}&status=open'.format(answer_id,str(offset))
r = requests.get(url, headers=headers)
print('正在爬取第{}页'.format(i + 1))
j_data = r.json()
comments = j_data['data']

现在,所有数据都在comments里面了,开始for循环遍历处理:
字段过多,这里以评论作者、评论性别为例,其他字段同理:

for c in comments:  # 一级评论
	# 评论作者
	author = c['author']['member']['name']
	authors.append(author)
	print('作者:', author)
	# 作者性别
	gender_tag = c['author']['member']['gender']
	genders.append(tran_gender(gender_tag))

其他字段不再赘述。
需要注意的是,知乎评论分为一级评论和二级评论(二级评论就是一级评论的回复评论),所以,为了同时爬取到二级评论,开发以下逻辑:(同样以评论作者、评论性别为例,其他字段同理)

if c['child_comments']:  # 如果二级评论存在
	for child in c['child_comments']:  # 二级评论
		# 评论作者
		print('子评论作者:', child['author']['member']['name'])
		authors.append(child['author']['member']['name'])
		# 作者性别
		genders.append(tran_gender(child['author']['member']['gender']))

待所有字段处理好之后,把所有字段的列表数据拼装到DataFrame,to_csv保存到csv文件里,完毕!

df = pd.DataFrame(
	{
		'回答url': answer_urls,
		'页码': [i + 1] * len(answer_urls),
		'评论作者': authors,
		'作者性别': genders,
		'作者主页': author_homepages,
		'作者头像': author_pics,
		'评论时间': create_times,
		'评论内容': contents,
		'评论级别': child_tag,
	}
)
# 保存到csv文件
df.to_csv(v_result_file, mode='a+', index=False, header=header, encoding='utf_8_sig')

完整代码中还涉及到避免数据重复、字段值拼接、判断翻页终止等细节逻辑,详细了解请见文末。

四、同步视频

演示视频:
https://www.zhihu.com/zvideo/1545723927430979584


我是 @马哥python说, 感谢您的阅读。

标签:www,知乎,author,Python,gender,爬虫,评论
From: https://www.cnblogs.com/mashukui/p/16622995.html

相关文章

  • 9、Python基础夯实篇——数据的常用操作
    数据拷贝数据引用产生的问题(1)下面的代码会发生什么情况呢?L1=[1,2[3,4,5]]L2=L1L2[0]=6print('L1':L1)print('L2':L2)输出:L1:[......
  • python学习Day52
    Day52今日内容概要CSS属性盒子模型浮动布局overflow溢出属性定位属性z-index层叠顺序opacity透明效果手搭页面练习JavaScript简介JS变量与常量JS数据类......
  • 【2022-08-24】python前端开发(三)
    python前端开发(三)CSS盒子模型margin:用于控制元素与元素之间的距离;margin的最基本用途就是控制元素周围空间的间隔,从视觉角度上达到相互隔开的目的。......
  • 【python】numpy数组升维函数expand_dims()
    expand_dims(a,axis),其中a为输入的数组,axis为整型指定要增加的维数位置可以结合shape()来看,shape()返回的是一个tuple,把其看成一个数组并指定下标。如果shape为(1,2),则......
  • python 数据库建表操作
    fromdjango.dbimportmodels#Createyourmodelshere.classUser(models.Model):name=models.CharField(max_length=32)age=models.IntegerField()reg......
  • 《Python源码剖析》PDF高清版试读
      《Python源码剖析》PDF高清版免费下载地址  内容简介  · · · · · ·作为主流的动态语言,Python不仅简单易学、移植性好,而且拥有强大丰富的库的......
  • Python小游戏——外星人入侵(保姆级教程)第一章 09重构check_events()
    系列文章目录第一章:武装飞船09重构check_events()一、重构1.重构原因随着游戏的开发,方法_check_events()将越来越长。因此将其部分代码放在两个方法中,其中一个处理KEY......
  • python基础——字典 集合
    字典集合字典列表的延伸,列表只能通过下标找,不好找,指点可以通过名字查找信息,就像查字典一样。创建dict1={}dict2={'key1':'value1','key2':'value2'}dict3=dic......
  • Pybind11实现python调取C++
    1、一些处理矩阵运算,图像处理算法,直接采用python实现可能速度稍微慢,效率不高,或者为了直接在python中调用其他C++第三方库。图像,矩阵在python中通常表示为numpy.ndarray,......
  • python基础——列表 元组
    列表和元组列表的作用是一次性存储多个数据,可以对这些数据进行的操作有:增,删,改,查列表格式[数据1,数据2,数据3,....]创建方式#创建空列表li1=[]#创建空列表li2......