最近需要用到淘宝评论数据,电脑登陆淘宝账号后查看评论仅能看到前两页,故只爬取了两页评论数据,好在影响不大
上网随手百度发现有大佬给出方法,照着试验发现现在找不到带有list_detail_rate.htm的json,但按照同样方法可以获取到json文件,且该json文件pageNum乱码,索性就手动拉了(需要数据量不大),拉好后,整理放在文件夹里,提取出评论数据即可
具体方法如下:
1.
找到json路径后,下载下来
2. 提取评论数据
import json import glob comment = [] path = "json保存路径\\json" filenames = glob.glob(path + "\\*.json") for filename in filenames: print(filename) with open(filename, "r", encoding='utf-8') as fp: json_data = json.load(fp) for v in json_data['data'].values(): for i in v['reviewVOList']: comment.append(i['reviewWordContent']) result = open("评论数据保存路径\\评论数据.txt",'a+',encoding='utf-8') for i in range(0,len(comment)): result.write(comment[i]) result.write('\n') result.write("\n") result.close()
ennnn,突然发现评论数据在电脑上又可以访问多页了,可能是当时账号涉及风险了吧,这个方法比较比较笨,但是当时急用,人又菜,哈哈
标签:comment,write,filename,爬取,json,评论,result,淘宝 From: https://www.cnblogs.com/siberianhusky/p/17055732.html