首页 > 编程语言 >当我用Python爬取了京东商品所有评论后发现....

当我用Python爬取了京东商品所有评论后发现....

时间:2023-06-28 21:46:46浏览次数:57  
标签:content productColor Python creationTime .... 爬取 score productSize id

不知道各位网购的时候,是否会去留意商品评价,有些小伙伴是很在意评价的,看到差评就不想买了,而有些小伙伴则是会对差评进行理性分析,而还有一类人不在乎这个。

当然这都是题外话,咱们今天主要的目的是使用Python来爬取某东商品的评价,并保存到CSV表格。

1、数据采集逻辑

在进行数据采集之前,明确哪些数据为所需,制定数据Schema为爬取工作做出要求,并根据数据Schema制定出有针对性的爬取方案和采集逻辑。

2、数据Schema

3、数据爬取

抓取平台任一商品的评论信息,此案例抓取的商品是某一店铺的车厘子评价信息。

评论信息是由JS动态加载的,所以直接抓取商品详情页的URL并不能获得商品评论信息。因此我们需要先找到存放商品评价信息的文件,通过使用浏览器的开发者工具进行查找。

目标URL地址:

通过发现可知,productId为当前商品的商品Id,page为页码(从0开始),爬取该商品的所有评价信息只需要改变page参数即可。(商品评价页只显示前100页,所以page最大值为99)

导入库

import random
import requests
import json
import re
import csv
import time
import pymysql

 

对爬虫程序进行伪装

header = {
        'refer': 'https: // item.jd.com /',
        'cookie': '',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.50'
    }

 

抓取商品评论信息

将python程序伪装成浏览器后,就可以对评论信息进行爬取,在前面的分析中,productId和page为重要参数,在本案例中爬取的商品为车厘子,productId已确定,只需要对page进行更改即可达到需要。通过parms提交参数,使代码更有逻辑感并方便更改两个重要参数。

防止反爬,每爬取一页数据后,设置程序休眠环节。

# 程序休眠
time.sleep(random.randint(40, 80) * 0.1)
print('第%d页正在爬取' % (page + 1))
'''
  爬取完成后,需要对页面进行编码,不影响后期的数据提取和数据清洗工作。
  使用正则对数据进行提取,返回字符串。
  字符串转换为json格式数据。
''' 
res.encoding = 'gb18030'
html = res.text
data = re.findall('fetchJSON_comment98\((.*?)\);', html)
data = json.loads(data[0])  # 将处理的数据进行解析
comments = data['comments']
print(data['comments'])

 

4、数据存储

存储到csv

# 写入csv文件
f = open("evalution_data.csv", "a", newline='', encoding='gb18030')
header = ["id", "content", "creationTime", "score", "productColor", "productSize"]
# 创建一个DictWriter对象,第二个参数就是上面创建的表头
writer = csv.DictWriter(f, header)
writer.writeheader()
    for i in comments:
        id = i['id']
        content = i['content']
        creationTime = i['creationTime']
        score = i['score']
        productColor = i['productColor']
        productSize = i['productSize']
        writer.writerow(
            {"id": id, "content": content, "creationTime": creationTime, "score": score, "productColor": productColor,
             "productSize": productSize})
f.close()

 

存储到数据库

# 写入数据库
conn = pymysql.connect(host='', user='', password='', port=, db='')
cursor = conn.cursor()
    for i in comments:
        id = i['id']
        content = i['content']
        creationTime = i['creationTime']
        score = i['score']
        productColor = i['productColor']
        productSize = i['productSize']
        sql = "insert into evalution_data(id,content,creationTime,score,productColor,productSize) values('%d','%s','%s','%d','%s','%s')"
        cursor.execute(sql)
        conn.commit()
# 我还专门录制了视频讲解,以及进行可视化分析,完整代码和视频讲解都在这个扣裙了:708525271
 
cursor.close()
conn.close()

 

 

好了,今天的分享就到这里结束了,咱们下次见!

标签:content,productColor,Python,creationTime,....,爬取,score,productSize,id
From: https://www.cnblogs.com/hahaa/p/17512621.html

相关文章

  • Python教程(1)——python环境的下载与安装
    下面是下载并安装Python解释器的具体步骤,非常详细,保姆级别的教程,初学者一步一步的按照操作。下载python运行环境访问官方网站在浏览器中打开Python的官方网站,网址为https://www.python.org不要去其他乱七八糟的地方下啊。当然很多时候可能受限于网速的因素,建议挂个梯子。选择......
  • python: more Layer Architecture and its Implementation in Python
     python.exe-mpipinstall--upgradepippipinstallpymssqlpipinstallpymysqlpipinstallpyodbcpipinstallDBUtilspipinstallxlrdpipinstallxlwtpipinstallxlutilspipinstallxlwingspipinstallXlsxWriterpipinstallopenpyxlpipinstallpandaspipinst......
  • Python高阶基础之魔术方法、反射、异常
    魔术方法(内置方法)#类里面内置的双下划线开头的一些方法,他们具有特殊的功能,我们称之为魔术方法:简称魔术"""魔术方法的学习只需要掌握每个方法什么时候触发或者执行就行了"""1、__str__,__repr__方法classStudent:def__init__(self,name,age):self.name......
  • python基础 内置方法、反射,异常剩余内容
    魔术方法(内置方法)类类里面内置的双下划线开头的一些地方,它们具有特殊的功能,我们称之为魔术方法,简称魔法比如:__init__1.__str__,__repr__方法__str__:当打印和输出对象时,自动触发str方法,但还是str必须要有返回值,不然会报错,而且返回值必须是字符串。__repr__:它的使用......
  • python实现定时任务
    第一种方式:立即执行,间隔时间 第二种方式:具体到某个时间 参考:https://blog.csdn.net/weixin_44799217/article/details/127352531https://blog.csdn.net/u013302168/article/details/123420582 ......
  • [重要] 用python写一个可变长参数的累加函数
    [重要]用python写一个可变长参数的累加函数━━━━━━━━━━━━━━━━━━━━━━你可以使用Python的可变长度参数*args来编写一个可以接受任意数量参数的累加函数。这样的函数定义如下:defsum(*args):#passreturnsum(args)━━━━━━━━━━━━━......
  • redis之python操作
    安装pipinstallredisredis连接池概念连接管理:使用连接池可以有效地管理Redis连接。连接池会在应用程序初始化时创建一定数量的连接,并维护这些连接的可用性。应用程序可以从连接池中获取连接并使用完后将其归还给连接池,从而避免了频繁地创建和关闭连接。这样可以提高连接......
  • python 常见问题
    1、pycharm的terminal报错virtualenv无法加载文件activate.ps1python打开项目遇到报错:pycharm的terminal报错virtualenv无法加载文件activate.ps1解决办法Win+R命令,输入powershell,然后确定进入终端需要执行Start-Processpowershell-VerbrunAs切换到管理员命令窗......
  • python基础day34 魔术方法和反射
    魔术方法(内置方法)类里面内置的双下划线开头的一线方法,他们具有特殊的功能,我们称之为是魔术方法,简称魔法。eg:__init__魔术方法的学习之需要掌握每个方法什么时候触发或者执行1.__str__,__repr__方法classStudent():def__init__(self,name,age,gender):s......
  • 在 Java、Python、JavaScript 和 Go 中拥抱异步
    ​本文讨论了四种语言的异步,强调了它在创建高效、响应迅速的应用程序中的作用。作为一名拥有多年主要使用Java工作经验的软件开发人员,当我最近为一个新项目切换到Python时,我发现自己很感兴趣。这种转变促使我探索各种语言的异步编程世界,包括Java、Python、JavaScript和Go......