首页 > 编程语言 >Python批量采集某东评论,实现可视化分析

Python批量采集某东评论,实现可视化分析

时间:2024-09-06 09:37:16浏览次数:5  
标签:浏览器 Python 某东 可视化 install pip pyecharts 数据

女朋友没事就喜欢网购,买一大堆又不用,总说不合适,为了不让她花冤枉钱,于是我决定用Python写一个采集商品评论的脚本,然后对商品进行分析,这样就不怕踩到坑了! 

 

让我们直接开始本次操作

准备工作
环境安装

Python 3.10
Pycharm
模块使用

采集数据模块
-DrissionPage -> pip install DrissionPage
-csv
-time
数据可视化
-pandas -> pip install pandas
-pyecharts -> pip install pyecharts
-jieba -> pip install jieba
-wordcloud -> pip install wordcloud
源码和视频讲解都打包好了,为了让大家更好的学会本次内容,我加班熬夜录制了详细的视频讲解,希望对大家有帮助。

 

基本流程
一、数据来源分析
1.明确需求
明确采集的网站以及数据内容
网址: https://****/10088121691070.html#comment
数据: 评论相关内容

2.抓包分析
通过浏览器开发者工具分析对应数据位置

打开开发者工具
F12 / 右键点击检查选择 network 网络刷新网页
通过关键字搜索找到对应数据位置
关键字: 需要什么数据就搜什么数据
数据包地址: https://api.***/

二. 代码实现步骤

requests数据请求

基本步骤: (requests)

 

drissionpage自动化模块

模拟人的行为对于浏览器进行操作: 点击 输入 拖拽 获取数据

打开浏览器
监听数据包 -> 直接监听数据链接
-看数据包是否加载
-监听数据在执行动作之前
访问网站
直接获取响应数据
解析数据
保存数据
准备工作

新建一个临时 py 文件,并输入以下代码,填入您电脑里的 Chrome 浏览器可执行文件路径,然后运行。

 这段代码会把浏览器路径记录到配置文件,今后启动浏览器皆以新路径为准。
另外,如果是想临时切换浏览器路径以尝试运行和操作是否正常,可以去掉 .save() 

【完整源码+v  Python1018    备注(圆圆)即可获得】

csv保存数据基本格式

根据你获取的数据不同:
fieldnames 根据提取数据保存在字典中键
encoding=‘utf-8’
如果使用utf-8打开表格文件出现乱码, 改成utf-8-sig

 json字典取值

 

数据可视化

pyecharts可视化

官方文档: https://gallery.pyecharts.org/#/README

 

 

标签:浏览器,Python,某东,可视化,install,pip,pyecharts,数据
From: https://www.cnblogs.com/yuanyuan1010/p/18399632

相关文章

  • Python使用MySQL数据库
    安装MySQL-python要想使python可以操作mysql 就需要MySQL-python驱动,它是python 操作mysql必不可少的模块。下载地址:https://pypi.python.org/pypi/MySQL-python/下载MySQL-python-1.2.5.zip 文件之后直接解压。进入MySQL-python-1.2.5目录:>>python setup.py install ......
  • python 深/浅拷贝及其区别
    概述1、什么是浅拷贝?浅拷贝是指创建一个新的数据结构对象,该对象是原始数据结构的副本,但不复制原始数据结构中的嵌套对象的引用。浅拷贝可以通过各种方式完成,如切片、工厂函数或copy模块的copy方法。2、什么是深拷贝?深拷贝是指创建一个新的数据结构对象,该对象是原始数据结构及......
  • python 实现perfect square完全平方数算法
    python实现perfectsquare完全平方数算法介绍完全平方数(PerfectSquare)是一个整数,它可以表示为某个整数的平方。例如,1,4,9,16,25,…都是完全平方数,因为1=......
  • python 实现matrix exponentiation矩阵求幂算法
    matrixexponentiation矩阵求幂算法介绍矩阵求幂算法(MatrixExponentiation)是一种通过利用矩阵乘法的结合律来高效地计算矩阵的幂的算法。这种方法特别适用于在算法竞赛和计算机科学领域中解决需要快速计算矩阵幂的问题,如求解线性递推关系、图论中的路径计数等。基本思想......
  • 基于Python的彩妆销售管理系统 毕业设计-附源码04053
           摘要 身处互联网+时代,互联网无形中影响着人们的吃穿住行,人们享受着不出门便可购物的便利,网络购物在当今社会工作生活节奏飞快的今天备受欢迎,让人们购物不再受时间、地点的制约,高效快速。本次要开发的彩妆销售管理系统是基于当下互联网+时代而开发的一个......
  • Vue+Echert集成实现数据可视化
    ApacheEChartsecherts官方文档 echerts依赖引入方式方式一:1.安装echarts依赖//二选一npminstallecharts--savenpminstallecharts-S//二选一npminstall-gcnpm--registry=https://registry.npm.taobao.orgcnpminstallecharts-S2.全局注入......
  • 用 Python 解锁电影台词中的秘密:给孩子一个学英语的新奇方式
    引言想象一下:孩子们不仅在看他们喜欢的电影,还能从中学到新的英语单词!有没有什么比这更有趣、更高效的学习方式?在这篇博客中,我将带你一步步搭建一个Python工具,从电影台词中提取单词并生成详细的词汇报告。这不仅是一个强大的学习工具,还能让孩子们在享受电影的同时,潜移默化地......
  • 基于python的贪吃蛇小游戏
    游戏规则1.玩家控制蛇在屏幕上移动(上下左右方向键),目标是吃到随机出现的食物。2.每次吃到食物后,蛇的长度会增加。3.游戏难度逐渐增加,蛇的移动速度会随着长度的增加而加快。4.如果蛇撞到自己或碰到墙壁,游戏结束。代码importtkinterastkimportrandomfromtkinter......
  • TensorRT量化模型分析(耗时分布可视化等)
    文章目录TensorRT量化模型分析一背景二准备工作1.代码准备2.依赖环境三分析过程1.导出模型2.模型形态比对3.转tensorrt序列化文件4.tensorrt序列化文件(即tensorrt模型)分析四其他TIPSTensorRT量化模型分析一背景​在TensorRT模型量化......
  • 【Python篇】PyQt5 超详细教程——由入门到精通(中篇一)
    文章目录PyQt5入门级超详细教程前言第4部分:事件处理与信号槽机制4.1什么是信号与槽?4.2信号与槽的基本用法4.3信号与槽的基础示例代码详解:4.4处理不同的信号代码详解:4.5自定义信号与槽代码详解:4.6信号槽的高级用法4.7总结第5部分:文件对话框与文件处理5.1什么......