首页 > 其他分享 >R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析

时间:2022-11-07 10:08:44浏览次数:68  
标签:nlp 变量 模型 airbnb GAM 可视化 price 预测

作者:Guojiang Zhao

数据量大,数据要进行清洗以及预处理,同时要多方面​​可视化​​,要探索多变量对因变量的影响。

解决方案

用R语言读取数据,对数据进行清洗合并以及预处理,数据可视化,特征工程以及变量选择,建模,交叉验证,模型评价。

任务/目标

对价格进行预测并且比较

特征转换

处理缺失值(对缺失值进行插值以及取均值进行处理,同时去掉一些缺失较少的数据行)

将因子变量变为数值型变量好做best subset selection来进行特征选择等等

可视化

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_决策树

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_r语言_02

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_数据_03

 

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_决策树_04

运用nlp以及词云可视化

构造

以上说明了如何抽取相关特征,我们大致有如下训练样本(只列举部分特征)。

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_r语言_05

划分训练集和测试集

训练集70%和测试集30%

变量选择:best subset selection

 

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_决策树_06

选取5个最佳的变量 

建模

预测价格

  1. 多元回归分析
  2. GAM模型(平滑样条,多项式回归,三次样条)
  3. 不同变量通过cross-validation来选择哪一种模型是cv.error最小的

如图:

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_r语言_07

最后得到最终的一个模型

 

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_数据_08

回归决策树

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_数据_09

剪枝后

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_数据_10

预测

三个模型中分别对price预测

模型比较:

比较预测值和实际值的RMSE,选取最优模型

三个模型price预测值与实际值

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_决策树_11

比较:

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_r语言_12

 可以看出,GAM模型是三个模型中最适合的,然后可以依据该模型对price进行预测。

关于作者

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_r语言_13

在此对Guojiang Zhao对本文所作的贡献表示诚挚感谢,他在卡耐基梅隆大学完成了硕士学位,擅长机器学习,数据挖掘,数理统计,数据分析。


R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_决策树_14

标签:nlp,变量,模型,airbnb,GAM,可视化,price,预测
From: https://blog.51cto.com/u_14293657/5827825

相关文章

  • 45. Jump Game II
    Youaregivena 0-indexed arrayofintegers nums oflength n.Youareinitiallypositionedat nums[0].Eachelement nums[i] representsthemaximumleng......
  • 55. Jump Game
    Youaregivenanintegerarray nums.Youareinitiallypositionedatthearray's firstindex,andeachelementinthearrayrepresentsyourmaximumjumpleng......
  • xilinx ip gamma
    ​功能1. 单axi-stream接口输入,axis输出。(10bitrbg输入,10bitrbg输出。) ​编辑 2.使用xilinxhls编写。 ​编辑  3.配置寄存器有  #pragmaHLS......
  • 基于gamebased算法的动态频谱访问matlab仿真
    目录一、理论基础二、核心程序三、测试结果一、理论基础随着越来越多的新型无线应用,对频谱资源的需求越来越大。在这种情况下,这是举世公认的认知无线电的出现已经成......
  • Codeforces Round #832 (Div. 2) C. Swap Game (博弈论)
    https://codeforces.com/contest/1747/problem/CC.SwapGame题目大意:给定一个长度为n的数组a,每次只要当我想动但是发现a[1]==0的时候我就输了要么就是我每次把a[1]......
  • NLP领域任务如何选择合适预训练模型以及选择合适的方案【规范建议】【ERNIE模型首选】
    1.常见NLP任务信息抽取:从给定文本中抽取重要的信息,比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来,就是要了解谁在什么时候、什么原因......
  • Google Game Service 接入指南
    前言应用接入Game登录,接入过程中遇到各种卡流程的问题,首次接入Gamev2,发现Gamev2版本的调用时机无法自行控制,并且不能退出当前登录的账户。而旧版gamev1的api提供了退......
  • 基于gamebased算法的动态频谱访问matlab仿真
    目录一、理论基础二、核心程序三、测试结果一、理论基础随着越来越多的新型无线应用,对频谱资源的需求越来越大。在这种情况下,这是举世公认的认知无线电的出现已经成为......
  • NLP算法工程师面试题及复习资料
    机器学习AI算法工程  公众号:datayx本文主要记录本人对NLP相关知识的积累,之前笔记做的很多,考虑到秋招已至,在复习的过程中,慢慢将这些知识屡清楚,然后将相关的知识笔记整......
  • 卧槽!这个价值百万的Github开源项目绝对要火!涵盖OCR、目标检测,NLP,语音合成多方向
    今天为大家推荐一个相当牛逼的AI开源项目,当前Star3.8k,但是大胆预判,这个项目肯定要火,未来Star数应该可以到 10k甚至20k!着急的,可以到GitHub直接去看源码传送门:​​ht......