python爬虫某东商品销售数据

时间：2022-11-19 23:00:13浏览次数：46

标签：get python list 爬虫某东 item comments page productID

经典四步曲：

1、查找有效URL，分析是静态数据还是动态数据，分析数据的格式。

2、编写python代码，向服务器发送请求，获取数据。

3、解析数据

4、保存数据

import requests
import json
import time
import openpyxl

# headers = {
#     "User-Agent": "Mozilla/5.0(Windows NT 6.1;WOW64) AppleWebKit/537.36(KABUL, like Gecko) "
#                   "Chrome/86.0.4240.198Safari/537.36 "
# }
# url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10054692622823&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1'
# resp = requests.get(url=url, headers=headers)
# print(resp.text)

def get_comments(productID, page):
    headers = {
        "User-Agent": "Mozilla/5.0(Windows NT 6.1;WOW64) AppleWebKit/537.36(KABUL, like Gecko) "
                      "Chrome/86.0.4240.198Safari/537.36 "
    }
    url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId={0}&score=0&sortType=5&page={1}&pageSize=10&isShadowSku=0&fold=1'.format(productID,page)
    resp = requests.get(url=url, headers=headers)
    # print(resp.text)
    s = resp.text.replace('fetchJSON_comment98(', '')
    s = s.replace(');', '')
    # #将str类型的数据转换成json格式的数据
    json_data = json.loads(s)
    return json_data

# 获取最大页数
def get_max_page(productID):
    dic_data = get_comments(productID, 0)
    return dic_data['maxPage']

def get_info(productID):
    # 获取最大页数
    # max_page = get_max_page(productID)
    max_page = 10
    list = []
    for page in range(1, max_page+1):
        comments = get_comments(productID, page)
        comm_list = comments['comments']# 根据KEY,获取value
        for item in comm_list:
            connect = item['content']
            color =  item['productColor']
            size = item['productSize']
            score = item['score']
            list.append([connect,color,size])
        time.sleep(3)
    save(list)

def save(list):
    wk = openpyxl.Workbook()#创建工作薄对象
    sheet = wk.active#获取活动页面
    for item in list:#遍历列表
        sheet.append(item)
    wk.save('商品销售数据.xlsx')#保存在磁盘上

if __name__ == '__main__':
    productID = '10025732446506'
    # print(get_max_page(productID))
    get_info(productID)

备注：避免反爬，只取了前10页数据。后续篇章将分享分析数据（含饼图）

标签：get,python,list,爬虫,某东,item,comments,page,productID
From： https://blog.51cto.com/u_14012524/5870815

python中的函数（1）
#1.函数#函数就是将一段具有独特功能的代码段整合到一个整体并命名#在需要的位置调用这个名称即可完成对应的需求#函数的作用：封装代码(方便管理)，实现代码重用......
Python程序员：代码写的好，丝滑的壁纸少不了
不知道大家的电脑桌面一般用的什么类型的壁纸？早上来上班，打开电脑，被漂亮的桌面壁纸所吸引，年底将近，这又是哪个地方的节日？才晓得，原来这是泰国第二大城市清迈的“天......
python ddddocr图片验证码详解
下载地址：https://pypi.tuna.tsinghua.edu.cn/simple/ddddocr/安装命令：pipinstallD:\ChromeCoreDownloads\ddddocr-1.3.0-py3-none-any.whl-ihttps://pypi.tuna.ts......
python获取IP代理
解决爬虫最快的方法就是用代理，不多说，直接上代码：importrequestsimportparselimportjsondefgetHTMLText(url):try:headers={"User-Agent":"Mo......
python3-基础篇-10-字符串
字符串操作在python3-基础篇-04-字符串格式化输出（%、format()）中已经提到了一些，在本章中将列举字符串的其它操作。1.字符串重复输出‘值’*num （num为重复......
python(牛客)试题解析2 - 中等
导航一、NC192二叉树的后序遍历二、NC117 合并二叉树三、求长度最长的的连续子序列使他们的和等于sum四、按顺序取出固定长度内容并合并两个数组为一个新数组五、输......
python 安装Basemap 以及cannot import name ‘dedent’ from ‘matplotlib.cbook’问
我用的是anaconda管理工具，运行安装condainstallbasemap或者直接在anaconda,navigator中搜索basemap，进行安装问题：cannotimportname‘dedent’from‘matplot......
Python 基础之wmi模块(windows监控)
背景：最近学习Python监控系统状态的Psutil模块时。看到很多函数都是针对某些系统(如Linux、FreeBSD )的时就在想，既然有那么多监听系统状态的函数没有兼容win系统那......
python网页爬虫开局通用示例
万事开头难，好的开始是成功的一半。步骤：1、导入requests模块，2、get方法（url,timeout,headers等）3、状态判断，4、考虑编码，5、try方法判断异常。importrequests#importtimedef......
python-迭代器
迭代的概念使用for循环遍历取值的过程叫做迭代，比如：使用for循环遍历列表获取值的过程#Python中的迭代forvaluein[2,3,4]:print(value)复制代码1.2......

python爬虫某东商品销售数据

相关文章

赞助商

阅读排行