R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析

时间：2022-11-07 10:08:44浏览次数：68

标签：nlp 变量模型 airbnb GAM 可视化 price 预测

作者：Guojiang Zhao

数据量大，数据要进行清洗以及预处理，同时要多方面可视化，要探索多变量对因变量的影响。

解决方案

用R语言读取数据，对数据进行清洗合并以及预处理，数据可视化，特征工程以及变量选择，建模，交叉验证，模型评价。

任务/目标

对价格进行预测并且比较

特征转换

处理缺失值（对缺失值进行插值以及取均值进行处理，同时去掉一些缺失较少的数据行）

将因子变量变为数值型变量好做best subset selection来进行特征选择等等

可视化

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_决策树

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_r语言_02

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_数据_03

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_决策树_04

运用nlp以及词云可视化

构造

以上说明了如何抽取相关特征，我们大致有如下训练样本（只列举部分特征）。

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_r语言_05

划分训练集和测试集

训练集70%和测试集30%

变量选择：best subset selection

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_决策树_06

选取5个最佳的变量

建模

预测价格

多元回归分析
GAM模型（平滑样条，多项式回归，三次样条）
不同变量通过cross-validation来选择哪一种模型是cv.error最小的

如图：

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_r语言_07

最后得到最终的一个模型

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_数据_08

回归决策树

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_数据_09

剪枝后

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_数据_10

预测

三个模型中分别对price预测

模型比较：

比较预测值和实际值的RMSE，选取最优模型

三个模型price预测值与实际值

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_决策树_11

比较：

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_r语言_12

可以看出，GAM模型是三个模型中最适合的，然后可以依据该模型对price进行预测。

关于作者

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_r语言_13

在此对Guojiang Zhao对本文所作的贡献表示诚挚感谢，他在卡耐基梅隆大学完成了硕士学位，擅长机器学习，数据挖掘，数理统计，数据分析。

R语言对airbnb数据nlp文本挖掘、地理、词云可视化、回归GAM模型、交叉验证分析_决策树_14

标签：nlp,变量,模型,airbnb,GAM,可视化,price,预测
From： https://blog.51cto.com/u_14293657/5827825

45. Jump Game II
Youaregivena 0-indexed arrayofintegers nums oflength n.Youareinitiallypositionedat nums[0].Eachelement nums[i] representsthemaximumleng......
55. Jump Game
Youaregivenanintegerarray nums.Youareinitiallypositionedatthearray's firstindex,andeachelementinthearrayrepresentsyourmaximumjumpleng......
xilinx ip gamma
功能1. 单axi-stream接口输入，axis输出。（10bitrbg输入，10bitrbg输出。）编辑 2.使用xilinxhls编写。编辑 3.配置寄存器有 #pragmaHLS......
基于gamebased算法的动态频谱访问matlab仿真
目录一、理论基础二、核心程序三、测试结果一、理论基础随着越来越多的新型无线应用，对频谱资源的需求越来越大。在这种情况下，这是举世公认的认知无线电的出现已经成......
Codeforces Round #832 (Div. 2) C. Swap Game (博弈论)
https://codeforces.com/contest/1747/problem/CC.SwapGame题目大意：给定一个长度为n的数组a，每次只要当我想动但是发现a[1]==0的时候我就输了要么就是我每次把a[1]......
NLP领域任务如何选择合适预训练模型以及选择合适的方案【规范建议】【ERNIE模型首选】
1.常见NLP任务信息抽取：从给定文本中抽取重要的信息，比如时间、地点、人物、事件、原因、结果、数字、日期、货币、专有名词等等。通俗说来，就是要了解谁在什么时候、什么原因......
Google Game Service 接入指南
前言应用接入Game登录，接入过程中遇到各种卡流程的问题，首次接入Gamev2,发现Gamev2版本的调用时机无法自行控制，并且不能退出当前登录的账户。而旧版gamev1的api提供了退......
基于gamebased算法的动态频谱访问matlab仿真
目录一、理论基础二、核心程序三、测试结果一、理论基础随着越来越多的新型无线应用，对频谱资源的需求越来越大。在这种情况下，这是举世公认的认知无线电的出现已经成为......
NLP算法工程师面试题及复习资料
机器学习AI算法工程公众号：datayx本文主要记录本人对NLP相关知识的积累，之前笔记做的很多，考虑到秋招已至，在复习的过程中，慢慢将这些知识屡清楚，然后将相关的知识笔记整......
卧槽！这个价值百万的Github开源项目绝对要火！涵盖OCR、目标检测，NLP，语音合成多方向
今天为大家推荐一个相当牛逼的AI开源项目，当前Star3.8k，但是大胆预判，这个项目肯定要火，未来Star数应该可以到 10k甚至20k！着急的，可以到GitHub直接去看源码传送门：ht......