首页 > 编程语言 >Python爬虫采集商品评价信息--京东

Python爬虫采集商品评价信息--京东

时间:2023-03-18 09:34:09浏览次数:54  
标签:productColor Python productSize creationTime 爬虫 content -- score page

1.数据采集逻辑

在进行数据采集之前,明确哪些数据为所需,制定数据Schema为爬取工作做出要求,并根据数据Schema制定出有针对性的爬取方案和采集逻辑。

 

 

2.数据Schema

3.数据爬取

抓取京东平台任一商品的评论信息,此案例抓取的商品是某一店铺的车厘子评价信息。

评论信息是由JS动态加载的,所以直接抓取商品详情页的URL并不能获得商品评论信息。因此我们需要先找到存放商品评价信息的文件,通过使用浏览器的开发者工具进行查找。

目标URL地址:

https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10056364088483&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1

 

通过发现可知,productId为当前商品的商品Id,page为页码(从0开始),爬取该商品的所有评价信息只需要改变page参数即可。(京东商品评价页只显示前100页,所以page最大值为99)

  1. 导入库
import random
import requests
import json
import re
import csv
import time
import pymysql

   2.对爬虫程序进行伪装

header = {
        'refer': 'https: // item.jd.com /',
        'cookie': '',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50'
    }

   3.抓取商品评论信息

将python程序伪装成浏览器后,就可以对评论信息进行爬取,在前面的分析中,productId和page为重要参数,在本案例中爬取的商品为车厘子,productId已确定,只需要对page进行更改即可达到需要。通过parms提交参数,使代码更有逻辑感并方便更改两个重要参数。

parm = {
        'callback': 'fetchJSON_comment98',
        'productId': '10056364088483',
        'score': '0',
        'sortType': '5',
        'page': page,
        'pageSize': '10',
        'isShadowSku': '0',
        'fold': '1'
    }
url = 'https://club.jd.com/comment/productPageComments.action'
res = requests.get(url, params=parm, headers=header)

  4.防止反爬,每爬取一页数据后,设置程序休眠环节

# 程序休眠
time.sleep(random.randint(40, 80) * 0.1)
print('第%d页正在爬取' % (page + 1))
 
  爬取完成后,需要对页面进行编码,不影响后期的数据提取和数据清洗工作。
  使用正则对数据进行提取,返回字符串。
  字符串转换为json格式数据。
 
res.encoding = 'gb18030'
html = res.text
data = re.findall('fetchJSON_comment98\((.*?)\);', html)
data = json.loads(data[0])  # 将处理的数据进行解析
comments = data['comments']
print(data['comments'])

4.数据存储

  1. 存储到csv
# 写入csv文件
f = open("evalution_data.csv", "a", newline='', encoding='gb18030')
header = ["id", "content", "creationTime", "score", "productColor", "productSize"]
# 创建一个DictWriter对象,第二个参数就是上面创建的表头
writer = csv.DictWriter(f, header)
writer.writeheader()
    for i in comments:
        id = i['id']
        content = i['content']
        creationTime = i['creationTime']
        score = i['score']
        productColor = i['productColor']
        productSize = i['productSize']
        writer.writerow(
            {"id": id, "content": content, "creationTime": creationTime, "score": score, "productColor": productColor,
             "productSize": productSize})
f.close()

   2.存储到数据库

# 写入数据库
conn = pymysql.connect(host='', user='', password='', port=, db='')
cursor = conn.cursor()
    for i in comments:
        id = i['id']
        content = i['content']
        creationTime = i['creationTime']
        score = i['score']
        productColor = i['productColor']
        productSize = i['productSize']
        sql = "insert into evalution_data(id,content,creationTime,score,productColor,productSize) values('%d','%s','%s','%d','%s','%s')"
        cursor.execute(sql)
        conn.commit()
 
cursor.close()
conn.close()

 

标签:productColor,Python,productSize,creationTime,爬虫,content,--,score,page
From: https://www.cnblogs.com/i-zhongyi-you/p/17229393.html

相关文章

  • Eggjs 学习笔记 02
    Service层如果把Controller层看作是与客户端交互并接收请求数据然后返回数据的作用,那么Service层则是处理数据、查询数据(包括数据库的查询,第三方服务的调用)、或者......
  • 基于.Net开发的、支持多平台、多语言餐厅点餐系统
    今天给大家推荐一套支持多平台、多语言版本的订单系统,适合餐厅、酒店等场景。项目简介这是基于.NetFramework开发的,支持手机、平板、PC等平台、多语言版本开源的点餐系......
  • 07、Qt5中文乱码
    使用MSVC编译时出现中文乱码问题,将文件格式改为utf-8,并在头文件添加#pragmaexecution_character_set("utf-8")仍然未解决问题,修改一下电脑区域设置。win10修改区域设置......
  • 线程停止
    packageedu.wtbu;publicclassDemo01implementsRunnable{//1.设置一个标识位privatebooleanflag=true;@Overridepublicvoidrun(){inti......
  • 一次.net code中的placeholder导致的高cpu诊断
    背景最近一位朋友找到我,让我帮看他们的一个aspnetcoreservice无端cpu高的问题。从描述上看,这个service之前没有出现过cpu高的情况,最近也没有改过实际的什么code。很奇怪......
  • docker 安装 MinIO
    MinIO安装官网地址:https://min.io/文档地址:https://min.io/docs一、Docker环境安装安装docker镜像dockerpullminio/minio运行容器dockerrun-p19000:9000......
  • StringBuffer和StringBulider
    高效的可变长字符串拼接工具(极快)StringBuilder比StringBuffer效率高StringBuffer线程安全建议:只用StringBuffe点击查看代码publicstaticvoidmain(String[]args......
  • Docker Mysql限制内存
    买了个阿里云的1G单核的服务器,运行了Docker装了数据库占用内存2/3的内存,然后再跑个Java小型程序直接死机,无奈只能减小mysql内存解决后效果:查询了网上资料总结解决方案:......
  • 对n个整数冒泡排序
    对n个整数数进行冒泡排序步骤:首先需要一个整形数组来存放整数,然后输入n个数到数组中去然后对数组中的值两两比较,把最大(小)的放到最后去#include<stdio.h>#defineMAX......
  • 蓝桥杯嵌入式——输入捕获的补充
    输入捕获除了可以测量频率,也可以测量占空比配置 首先是定时器2的配置,通道一直接捕获,测量上升沿,通道二间接捕获,测量下降沿    定时器3同上编程(中断部分)这个程......