首页 > 编程语言 >基于Python的京东商品信息分析

基于Python的京东商品信息分析

时间:2023-08-09 11:05:37浏览次数:43  
标签:xpath 商品信息 Python text driver find 京东 element div

系统设计思想

京东网站是通过服务端进行数据动态展示的,这样就可以通过网页上的源代码分析网页界面上看到的数据信息,不仅如此,还可以通过在采集京东网页数据的时候,动态读取URL地址。京东页面数据更新的时候,或者读取下一页面的时候,数据显示是异步加载的。这种加载数据的方法能够实时的把数据更新到页面,减少和后台的通信数据量,极大的降低了服务器的负载。所在本系统在设计时要进行数据的动态展示和分析,一定要进行数据的自动分析采集、自动规范整理和自动规范入库,进而按照目标进行动态数据分析。

功能需求

京东商品信息分析系统是针对互联网关注商品信息波动监控进行设计研发的,核心内容管理主要以自动采集监控商品信息为核心,重点解决关注商品信息的动态采集分析,为了尽可能使得系统通用处理,采用数据库中保存数据关键字信息、入库商品关键数据等信息,减少手工管理,为动态监管商品数据提供直观明了规范的商品变化情况信息,减少采用文件数据处理的杂乱和差错,快速准确地掌握商品变化情况。

京东商品信息分析系统主要面向普通用户,通过调查分析,系统主要的功能需求如下:

抓取网页:用于获取京东网页上的商品数据以及在爬取过程中模拟进行翻页、滑滚轮、键盘输入等操作;根据搜索的商品名获得该类商品全部的详细信息和价格。

数据存储:将爬取后的的商品详细信息保存到生成的文本文档和数据库。

数据整理:将获取的商品数据根据用户选择按照价格进行基本的排序便于进行可视化分析。

可视化分析:将得到的商品信息进行处理生成可视化图表。

根据出现数据的不同情况,整理读取不同数据,核心代码如下:
try:
            pp = driver.find_element_by_xpath('//*[@id="crumb-wrap"]/div/div[1]/div[7]/a').text
except:
            pp = driver.find_element_by_xpath('//*[@id="crumb-wrap"]/div/div[1]/div[7]/div/div/div[1]/a').text
try:
name = driver.find_element_by_xpath('/html/body/div[6]/div/div[2]/div[1]').text
except:
name = driver.find_element_by_xpath('/html/body/div[8]/div/div[2]/div[1]').text

try:
jg = driver.find_element_by_xpath(
                '/html/body/div[6]/div/div[2]/div[3]/div/div[1]/div[2]/span[1]/span[2]').text
except:
jg='10'
try:
pl = driver.find_element_by_xpath('//*[@id="comment-count"]/a').text
except:
pl = driver.find_element_by_xpath('//*[@id="detail"]/div[1]/ul/li[4]/s').text
            #jg = driver.find_element_by_xpath('/html/body/div[6]/div/div[2]/div[3]/div/div[1]/div[2]/span[1]/span[2]').text

基于Python的京东商品信息分析_商品信息分析

基于Python的京东商品信息分析_数据可视化_02

基于Python的京东商品信息分析_数据分析_03

标签:xpath,商品信息,Python,text,driver,find,京东,element,div
From: https://blog.51cto.com/u_6668792/7016773

相关文章

  • python语言学习-------------------xlwt模块
    xlwt模块是Python中一个用于管理Excel文件的模块,用以将数据以Excel表格的形式写入到Excel文件中。它具有操作方便、支持多种Excel文件格式等优点,因此,被广泛应用于数据处理、表格导出等方面。1.创建Excel文件使用xlwt模块创建并打开Excel文件:importxlwt#创建workbook对象w......
  • python实现创建一个银行类,这个类实现了两个方法,第一个方法可以将用户信息写入到文件中
    classbank:defuser_info(self):a=input('请输入用户信息:')#不写encoding='utf-8'中文会乱码withopen('info.txt','w',encoding='utf-8')asf:f.write(a)defget_info(se......
  • python:安装backgroundremover 0.2.4(Python 3.9.16)
    一,官方代码及文档:https://github.com/nadermx/backgroundremover二,安装backgroundremover的准备工作1,安装pytorch:https://blog.imgtouch.com/index.php/2023/08/03/rocky-linux-an-zhuang-pytorch-pytorch-2-1-python-3-9-16/2, 安装ffmpeg:https://blog.imgtouch.......
  • 使用 python 分割大的文本文件
    在开发过程中会遇到有些大文件,因为比较大,无法打开的情况,这个时候需要进行文件分割,这里使用python进行文件分割,代码如下:importosimportmathimportsysblock_size=int(sys.argv[2])*1024*1024defsplit_file(filepath:str,block_size:int):filesize=os.path.get......
  • rocky linux:安装pytorch(pytorch 2.0.1 / Python 3.9.16)
    一,pytorch官网:https://pytorch.org/如图:根据自己的需求选择版本、平台、语言环境等信息,然后运行命令二,运行pip安装命令:[root@imgbin]#pip3installtorchtorchvisiontorchaudio--index-urlhttps://download.pytorch.org/whl/cpuLookinginindexes:https://......
  • rocky linux:编译安装python3.11.4(rocky linux 9.2)
    一,查看现有的版本:1,本地版本[root@img~]#python--versionPython3.9.162,现在的最新版本:访问官网:https://www.python.org/如图:可以看到线上的最新版本是3.11.4 二,编译/安装:1,下载:先复制下载地址2,从服务器用wget命令下载:[root@imgpython]#wgethttp......
  • python:升级pip版本(Python 3.11.4)
    一,查看当前pip的版本:[[email protected]]#pip--versionpip23.1.2from/usr/local/soft/python3.11.4/lib/python3.11/site-packages/pip(python3.11)二,升级pip:[[email protected]]#python3-mpipinstall--upgradepipLookinginindexes:http://m......
  • python:升级setuptools的版本(Python 3.11.4)
    一,查看当前setuptools的版本:[[email protected]]#python3-mpipshowsetuptoolsName:setuptoolsVersion:65.5.0Summary:Easilydownload,build,install,upgrade,anduninstallPythonpackagesHome-page:https://github.com/pypa/setuptoolsAuthor:Py......
  • 使用python解析nginx日志
    性能测试时,需使用生产环境各接口请求比例分配接口请求比,nginx统计脚本如下:importreimportpandasaspdimportxlwtobj=re.compile(r'(?P<ip>.*?)--\[(?P<time>.*?)\]"(?P<request>.*?)"(?P<request_time>.*?)(?P<status>.*?)(?P<by......
  • [Python爬虫]selenium4新版本使用指南
    From:码同学测试公众号------------------------------------Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7,8,9,10,11),MozillaFirefox,Safari,GoogleChrome,Opera,Edge等。这个工具的主要功能包括......