首页 > 其他分享 >R语言汽车口碑数据采集抓取、文本数据分词和词云可视化实现

R语言汽车口碑数据采集抓取、文本数据分词和词云可视化实现

时间:2023-12-05 23:12:25浏览次数:34  
标签:抓取 词频 lecture 词云 口碑 文本 数据 分词

原文链接:https://tecdat.cn/?p=34469

原文出处:拓端数据部落公众号

本文以R语言为工具,帮助客户对汽车网站的口碑数据进行抓取,并基于文本数据分词技术进行数据清理和统计。通过词频统计和词云可视化,对口碑中的关键词进行分析,挖掘出消费者对汽车的评价和需求,为汽车制造商和销售商提供重要的市场参考。

随着社会经济的不断发展,汽车已经成为人们日常生活中不可或缺的交通工具。汽车口碑对于消费者购车决策起着至关重要的作用,同时也是汽车制造商和销售商了解市场需求、改进产品质量和服务的重要依据。传统的汽车口碑调查方式往往需要耗费大量的人力物力,而网络上的汽车口碑数据正逐渐成为研究汽车市场和消费者需求的重要数据来源。然而,如何高效地获取和分析这些数据变得越来越重要。因此,本文利用R语言的数据抓取和文本数据分词技术,对汽车网站的口碑数据进行抓取和分析,旨在为汽车行业提供更准确、更快速的市场研究手段。

本文主要实现以下两个目标:

  • 基于R语言的数据抓取部分。这一部分里面所有的结果都要实现
  • 基于R语言的文本数据分词

在每一页评价内容的抓取中 , 依然使用 xpath SApply 函数,再输入特定的 XML 路径来抓取网页上的用户评价内容

   
library(RCurl)


 Also load the other required package.  
library("methods")  
xpath <- '//div[@class=\"co81\"]'  
  
url <-"www.chekb.com/suonata/koubei/"

image.png

   
pagetree <- htmlTreeParse(webpage, error=function(...){}, useInternalNodes = TRUE,encoding="UTF-8")  
   pagetree  
   value <- getNodeSet(pagetree,xpath)  
   
  i <- length(value)                     统计满足条件的值个数,一般情况为1

读入数据

将需要分析的文本放入记事本中,保存到相应路径,并在R中打开。

   
head(lecture)

image.png

数据清理

  js
lecture$评价=gsub(pattern="[1|2|3|4|5|6|7|8|9|0]"," ",lecture$评价);        
lecture$评价=gsub(pattern="/"," ",lecture$评价);     
lecture$评价=gsub(pattern="!"," ",lecture$评价);
......

grepl 函数的 regexpr 函数、regmatches 函数,并结合正则表达式来匹配出“非灰色用户”的主页链接

   
grepl(pattern = "中国",x = lecture$网友)

分词+统计词频

   
word=lapply(X=words, FUN=strsplit, " ")  
v=table(unlist(word))

image.png

统计数据的频数

对词频进行排序table函数得到各词组的词频,最后运用 sort 函数让其按词频降序排列,生成文档词矩阵

创建数据框

   
d=data.frame(词汇=names(v), 词频=v)  
d

image.png

过滤掉1个字的结果和词频小于100的结果

筛选标准大家可以根据自己的需求进行修改

   
d1=subset(d, nchar(as.character(d$词汇))>1 & d$词频.Freq>=2) 

词频统计结果(节选)如下:

画出标签云

(2)设置字体类型和字体颜色

   
mycolors <- brewer.pal(12,"Paired")

(3)画出标签云

   

dcloud(d1$词汇,d1$词频.Freq,random.order=FALSE,random.color=TRUE,colors=mycolors,family="myFont")

QQ截图20231128144503.png


from ownership to usership-consumers demand more flexible car access models-471610227-thumb-1536x1536.webp 最受欢迎的见解

1.Python主题建模LDA模型、t-SNE 降维聚类、词云可视化文本挖掘新闻组

2.R语言文本挖掘、情感分析和可视化哈利波特小说文本数据

3.r语言文本挖掘tf-idf主题建模,情感分析n-gram建模研究

4.游记数据感知旅游目的地形象

5.疫情下的新闻数据观察

6.python主题lda建模和t-sne可视化

7.r语言中对文本数据进行主题模型topic-modeling分析

8.主题模型:数据聆听人民网留言板的那些“网事”

9.python爬虫进行web抓取lda主题语义数据分析

标签:抓取,词频,lecture,词云,口碑,文本,数据,分词
From: https://www.cnblogs.com/tecdat/p/17878537.html

相关文章

  • C/C++ 原生套接字抓取FTP数据包
    网络通信在今天的信息时代中扮演着至关重要的角色,而对网络数据包进行捕获与分析则是网络管理、网络安全等领域中不可或缺的一项技术。本文将深入介绍基于原始套接字的网络数据包捕获与分析工具,通过实时监控网络流量,实现抓取流量包内的FTP通信数据,并深入了解数据传输的细节,捕捉潜在......
  • 学会XPath,轻松抓取网页数据
    一、定义XPath(XMLPathLanguage)是一种用于在XML文档中定位和选择节点的语言。XPath的选择功能非常强大,可以通过简单的路径选择语法,选取文档中的任意节点或节点集。学会XPath,可以轻松抓取网页数据,提高数据获取效率。二、XPath基础语法节点(Nodes):XML文档的基本构建块,可以是元......
  • 学会XPath,轻松抓取网页数据
    一、定义XPath(XMLPathLanguage)是一种用于在XML文档中定位和选择节点的语言。它是一种用于导航和查询XML结构的强大工具,也可以用于HTML文档的搜索。它可以用来在XML或HTML文档中对元素和属性进行遍历,选择特定的节点。XPath的选择功能非常强大,可以通过简单的路径选择语法,选取文......
  • 使用 Charles 抓取 Java 应用内 HTTP/HTTPS 请求
    代码设置OkHttpClientclient=newOkHttpClient();System.setProperty("http.proxyHost","127.0.0.1");System.setProperty("https.proxyHost","127.0.0.1");System.setProperty("http.proxyPort"......
  • Lua-curl库做数据抓取代码示例
    --导入Lua-curl库luarocksinstallluacurl--创建一个curl实例,localc=curl.init()--设置信息c.setopt(curl.PROXY,")--设置目标URLc.setopt(curl.URL,"")--设置获取类型为GETc.setopt(curl.GET,true)--执行请求localresponse=c.perform()--检查......
  • 通过结巴分词 sklearn判断语句和例句集合最相近的句子
    `importjiebafromsklearn.feature_extraction.textimportTfidfVectorizerfromsklearn.metrics.pairwiseimportcosine_similaritytemplates=["分析一下攻击队QAX的攻击行为","分析一下防守单位QAX的防守情况","分析一下目标资产1.1.1.1相关的攻击行为","攻击队QAX......
  • 网络渗透测试:wireshark抓取qq图片
    打开wireshark,打开qq因为连的是WiFi,所以这里选择WLAN  用手机给电脑发送jpg文件,随后开始抓取,我们给电脑发送的是jpg文件,所以筛选十六进制值为ffd8ff  鼠标右键,选择追踪流,tcp,选择原始数据 将其保存,然后放到winhex里,查找ffd8,将前面的数据删去,然后保存为jpg文件。......
  • 如何将tcpdump抓取的数据包存入文件,供wireshark使用
    使用tcpdump命令的-w参数 tcpdump-nvvv-ieth0port34999-wredis-34999.pcap 注意:要使用-w的方式,将抓到的包,保存到文件中,不要使用 >或者>>重定向的方式,这样生成的文件wireshark程序无法读取到,会报文件错误。......
  • 如何使用Windows电脑上的多开器同时抓取多个网络数据
    当你需要同时抓取多个网络数据时,使用Windows电脑上的多开器是一个非常有效的方法。通过这种方法,你可以在同一台电脑上同时打开多个相同的应用程序,并且每个应用程序都可以运行独立的任务。下面是一个关于如何使用Windows电脑上的多开器同时抓取多个网络数据的简要指南:步骤1:选择合适......
  • find 查找.tar结尾的文件 unzip 批量解压 sed常用 监控linux磁盘根分区 统计 Nginx 访
    1、查找当前目录下所有以.tar结尾的文件然后移动到指定目录:find.-name“*.tar”-execmv{}./backup/;❝注解:find–name主要用于查找某个文件名字,-exec、xargs可以用来承接前面的结果,然后将要执行的动作,一般跟find在一起用的很多,find使用我们可以延伸-mtime查找修改......