R语言汽车口碑数据采集抓取、文本数据分词和词云可视化实现

时间：2024-07-04 23:42:36浏览次数：18

?p=34469

原文出处：拓端数据部落公众号

本文以R语言为工具，帮助客户对汽车网站的口碑数据进行抓取，并基于文本数据分词技术进行数据清理和统计。通过词频统计和词云可视化，对口碑中的关键词进行分析，挖掘出消费者对汽车的评价和需求，为汽车制造商和销售商提供重要的市场参考。

随着社会经济的不断发展，汽车已经成为人们日常生活中不可或缺的交通工具。汽车口碑对于消费者购车决策起着至关重要的作用，同时也是汽车制造商和销售商了解市场需求、改进产品质量和服务的重要依据。传统的汽车口碑调查方式往往需要耗费大量的人力物力，而网络上的汽车口碑数据正逐渐成为研究汽车市场和消费者需求的重要数据来源。然而，如何高效地获取和分析这些数据变得越来越重要。因此，本文利用R语言的数据抓取和文本数据分词技术，对汽车网站的口碑数据进行抓取和分析，旨在为汽车行业提供更准确、更快速的市场研究手段。

本文主要实现以下两个目标：

基于R语言的数据抓取部分。这一部分里面所有的结果都要实现
基于R语言的文本数据分词

在每一页评价内容的抓取中，依然使用 xpath SApply 函数，再输入特定的 XML 路径来抓取网页上的用户评价内容

library(RCurl)


 Also load the other required package.  
library("methods")  
xpath <- '//div[@class=\"co81\"]'  
  
url <-"www.chekb.com/suonata/koubei/"

pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE,encoding="UTF-8")  
   pagetree  
   value <- getNodeSet(pagetree,xpath)  
   
  i <- length(value)                     统计满足条件的值个数，一般情况为1

读入数据

将需要分析的文本放入记事本中，保存到相应路径，并在R中打开。

head(lecture)

数据清理

lecture$评价=gsub(pattern="[1|2|3|4|5|6|7|8|9|0]"," ",lecture$评价);        
lecture$评价=gsub(pattern="/"," ",lecture$评价);     
lecture$评价=gsub(pattern="！"," ",lecture$评价);
......

grepl 函数的 regexpr 函数、regmatches 函数，并结合正则表达式来匹配出“非灰色用户”的主页链接

grepl(pattern = "中国",x = lecture$网友)

分词+统计词频

word=lapply(X=words, FUN=strsplit, " ")  
v=table(unlist(word))

统计数据的频数

对词频进行排序table函数得到各词组的词频，最后运用 sort 函数让其按词频降序排列，生成文档词矩阵

创建数据框

d=data.frame(词汇=names(v), 词频=v)  
d

过滤掉1个字的结果和词频小于100的结果

筛选标准大家可以根据自己的需求进行修改

d1=subset(d, nchar(as.character(d$词汇))>1 & d$词频.Freq>=2)

词频统计结果（节选）如下：

画出标签云

(2)设置字体类型和字体颜色

mycolors <- brewer.pal(12,"Paired")

(3)画出标签云


dcloud(d1$词汇,d1$词频.Freq,random.order=FALSE,random.color=TRUE,colors=mycolors,family="myFont")

QQ截图20231128144503.png

from ownership to usership-consumers demand more flexible car access models-471610227-thumb-1536x1536.webp 最受欢迎的见解

1.Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组

2.R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

3.r语言文本挖掘tf-idf主题建模，情感分析n-gram建模研究

4.游记数据感知旅游目的地形象

5.疫情下的新闻数据观察

6.python主题lda建模和t-sne可视化

7.r语言中对文本数据进行主题模型topic-modeling分析

8.主题模型：数据聆听人民网留言板的那些“网事”

9.python爬虫进行web抓取lda主题语义数据分析

标签：抓取,词频,lecture,词云,口碑,文本,数据,分词
From： https://www.cnblogs.com/tecdat/p/18284901

Python爬虫实战案例——王者荣耀皮肤抓取
大家好，我是你们的老朋友——南枫，今天我们一起来学习一下该如何抓取大家经常玩的游戏——王者荣耀里面的所有英雄的皮肤。老规矩，直接上代码：导入我们需要使用到的，也是唯一用到的库：我们要抓取皮肤其实就是相当于抓图片，那么像这种大网站，大批量的图片它基本上是在一个文件里......
基于摄像头抓取学生人脸朝向判断学生上课状态检测的算法
智能检测学生听课状态的网络模型：开启高效学习的新篇章在当今数字化教育的浪潮中，我们致力于研发一款创新的检测学生听课状态的网络模型，旨在为教育领域带来革命性的变革，提升教学质量，优化学生的学习体验。一、模型概述这款网络模型基于先进的人工智能技术和深度学习算法......
在Linux中，如何实时抓取并显示当前系统中tcp 80 端口的网络数据信息？
在Linux中，实时抓取并显示当前系统中TCP80端口的网络数据信息，可以使用tcpdump这个强大的命令行工具。以下是详细的步骤和命令：打开终端：首先，打开一个具有足够权限的终端窗口。通常，需要使用sudo或以root身份执行tcpdump，因为它需要访问底层网络接口。确定网络接口：使用ifconfig（在......
网优小插件_利用Power Automate Desktop抓取物业点信息
日常在无线网络优化，经常需要提取某一地市，某个属性物业点信息（物业点名称、地址、及经纬度信息），本文利用PowerAutomateDesktop（PRA）和百度地图经纬度拾取网站，通过自动的方式抓取相关信息。PowerAutomateDesktop简介 PowerAutomateDesktop是......
python爬取校园集市帖子并生成词云图
注：本篇需要python基础，json基础前言：上篇我们学习了怎么用python获取百度热搜，在这篇中，我们将进一步学习，利用python爬取校园集市帖子并生成词云图目录第一步，分析请求第二步，编写代码第三步，批量获取帖子第四步，绘制词云图灵感背景：经常在群里看见机器人转发的校园集市帖子，于是想要爬......
抓取不规则表面物体机械手的设计（开题报告）
毕业论文(设计)开题报告1．本课题的研究意义抓取不规则物体的机械手是在机械化、自动化、智能化生产过程中发展起来的一种新型的机械手装置。近年来的发展过程中，随着科学技术的发展以及先进电子设备的发展，电子技术特别是电子计算机的广泛应用，机器人的研制和生产已成为高技术......
抓取不规则表面物体机械手的设计
目录第一章绪论11.1课题研究的意义及背景11.2机械手研究概况21.2.1国外研究现状21.2.2国内研究现状21.3研究的内容2第二章抓取物体机械手总体结构设计42.1机械手设计思路42.2总体方案的设计52.2.1驱动方式的选择52.2.2传动结构的分析62.2.3传......
Wireshark：入门实验｜抓取ping数据包
系列目录Wireshark：入门实验目录系列目录Wireshark/Ethereal介绍安装实验步骤一、获取目标网站的IP地址二、筛选目的地址并捕获三、使用ping命令请求访问四、二次捕获知识点补充Wireshark/Ethereal介绍参考《计算机网络：自顶向下方法》Wireshark是一种运行在......
elasticsearch之ik分词器和自定义词库实现
ElasticSearch分词器所谓的分词就是通过tokenizer(分词器)将一个字符串拆分为多个独立的tokens(词元-独立的单词)，然后输出为tokens流的过程。例如"mynameisHanMeiMei"这样一个字符串就会被默认的分词器拆分为[my,name,isHanMeiMei].ElasticSearch中提供了很多默认的分词器，我......
学会python——文本分词（python实例一）
目录1、认识Python2、环境与工具2.1python环境2.2pycharm编译3、对文本进行分词3.1代码构思3.2代码示例3.3运行结果4、总结1、认识PythonPython是一个高层次的结合了解释性、编译性、互动性和面向对象的脚本语言。Python的设计具有很强的可读性，相比其他......