首页 > 其他分享 >R语言基于逐步多元回归模型的天猫商品流行度预测

R语言基于逐步多元回归模型的天猫商品流行度预测

时间:2023-07-13 22:57:16浏览次数:45  
标签:模型 回归 回归方程 流行 商品 天猫 多元回归

全文链接:https://tecdat.cn/?p=33212

原文出处:拓端数据部落公众号

本文通过利用回归模型对天猫商品流行度进行了研究,确定了决定天猫商品流行度的重要因素。并讲述、论证了预测天猫商品流行度是天猫商品交易的至关重要的环节。通过对天猫商品流行度预测技术的发展和探讨,深度剖析了天猫商品流行度预测这个研究课题。

一、 天猫商品流行度预测发展简介

本文使用的数据集为天猫商品数据集。 它包含562个商品的属性数据。每个商品包括4个属性,具体的4个属性如下:

该数据集有以下一些变量:

列名 描述 
Item_id [ 1 , 8133507]为整数,表示唯一项(备注:两个以上商家同时提供的 A产品记录在多个不同ID的行中。例如,流行的手机如iPhone 6。)。 
Title 一个包含多个关键字的 字符串,由' '  分隔。通过NLP系统从原始标题中提取单词。
Pict_url 在线链接到对应图片的URL  。
Category  字符串' x-y ',其中  ' x '表示其父类,' y '表示其余类。
Brand_id 字符串为' b1 '、' b89366 ',表示商品的品牌。
Seller_id 字符串' s1 ',' s86799 ',表示出售该物品的卖方。

对数据进行概览

 
summary(data)

image.png

删除缺失值

 

datanew=na.omit(data)

主要思路

为了准确的估计流行度,了解天猫商品流行度的一般规律,更好为天猫商品投资方提供参考意见,本文从天猫商品流行度和天猫商品相关属性出发,采用多元回归分析方法,建立了线性回归模型,得出了天猫商品流行度变动的影响因素. 具体分析步骤:

1.关系分析

2.选择多项式回归模型

2.1变量选取

通过向前向后逐步迭代回归模型筛选出显著性较强的变量进行回归建模。

2.2显著性检验

根据F值和p值统计量来判断模型是否具有显著的统计意义。

2.3拟合预测

使用得到的模型对实际数据进行拟合和预测。

3.拟合不同的模型。查看模型效果,包括对数回归模型,迭代回归模型。

4.分析得出结论

得出各个自变量之间的关系,以及它们对因变量的影响及其意义。   

流行度

查看每个类别的出现频率作为流行度,通过直方图查看每个类别出现的频率:

 
hist(datanew$category)

image.png

对每个类别出现的频数的多少进行排序:

 
order(table(dataneg = T)

datanew$pop=   order(

image.png

然后将出现最多的流行度排序为1,然后根据类比的出现频数递增。流行度越大,则出现越少。

建立多元线性:imdb

尝试通过最直观的解释建立模型:

进行多元线性模型并进行分析

设置dummy 变量 : 从全变量模型可以看出大部分变量无法估计出其参数,说明部分变量不适合用来预测流行度,因此对其中的部分变量进行删减后。得到筛选后的回归模型。

筛选变量

显示回归结果:

image.png

image.png

模型比较

  js
**取对数后的结果**  
summary(lmmod2)显示回归结果

image.png

image.png

回归结果

 
plot(datanew$category

1111.png

回归结果分析

从输出结果可以看出, 流行度和类别和品牌图片地址 有显著相关关系 ,可以看到他们的回归系p数在显著性水平0.05下均显著不为零。进一步地剩余方差的估计值,f统计量的估计值对应的p值< 2.2e-16说明,回归方程是显著的。可决系数R,修正的可决系数R为 0.1左右说明方程的拟合效果一般,还有部分的流行度被其他变量所解释。

回归结果

image.png

置信区间与预测区间:

置信区间是给定自变量值后,由回归方程得到的的预测值(实际上是的平均值)的置信区间;预测区间是实际值的置信区间,在这里称为预测区间。预测区间要比置信区间稍大,命令与显示结果如下:

 
head(predict(lm))

image.png

 
head(predict(lmmod

image.png

残差分析:

残差分析可以对回归模型的假设条件即随机误差项是否独立同分布进行检验,同时还可以找出离群点。命令语句为plot(lm.1),显示结果如下

 
par(mfrow=c(2,2))  
plot(lmmod2)

image.png

左上图是拟合值与残差的散点图,从图上可以发现,除去第2个离群点外,所有点基本上是随机地分散在纵坐标值为-1和+1的两条平行线之间,这说明随机误差项具有同方差性;左下图是拟合值与残差的标准差的散点图,其意义与上面类似;右上图表明随机误差项是服从正态分布的,其原因是正态Q-Q图近似地可以看成一条直线;右下图的CooK距离图进一步证实第2个观测值是一个离群点,它对回归方程的影响是比较大的,要根据具体问题,讨论出现这一观测值的实际背景。

逐步回归优化

使用逐步回归法建立“最优”的回归方程

 
stepmod=step

image.png

 
summary(stepmod)查看模型参数与结果

image.png

上面用“逐步向前向后回归法”,通过软件分析建立“最优”回归方程。向后回归法就是建立包含全部因子的回归方程,通过回归系数的检验,从回归方程中逐个剔除不显著的因子,直到留在方程中的因子都是显著的。

总结

从分析结果可以看出, 流行度和类别和品牌图片地址有显著相关关系 ,因此可以认为在天猫购物时,用户会比较关注商品的品牌因素,因为天猫都是正品商铺,购买的用户会比较关注商品的品牌是否为正品等。同时,由于天猫的商品质量有一定的保证,因此用户也会关注该商品的图片,同一个商品可能会因为图片不同而造成不同的流行度。图片好看的商品会有更好的流行度。


what is e-commerce__1339225447_standard_1536x1536.webp 最受欢迎的见解

1.R语言多元Logistic逻辑回归 应用案例

2.面板平滑转移回归(PSTR)分析案例实现

3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

4.R语言泊松Poisson回归模型分析案例

5.R语言混合效应逻辑回归Logistic模型分析肺癌

6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

8.python用线性回归预测股票价格

9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

标签:模型,回归,回归方程,流行,商品,天猫,多元回归
From: https://www.cnblogs.com/tecdat/p/17552421.html

相关文章

  • 击败Stable Diffusion XL,商汤绘画大模型出手即大作,论文公开、免费试玩
    前言 商汤大模型团队提出的文生图大模型RAPHAEL,可以生成具有高度艺术风格或者摄影风格的图片,速度极快。本文转载自机器之心仅用于学术分享,若侵权请联系删除欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。CV各大方向专栏与各......
  • 如何快速的构建数据集和迭代模型
    方法1:对于分类任务,每类先手动搞个100张图,然后训练个基础模型。找一些相关的数据,用这个模型跑出来一些结果,然后手工挑选一些来扩增数据集。方法2:使用clip把这些相关的数据做一个嵌入,保存下来,然后通过问问题的方式,找到需要类别的数据方法3:直接用clip来做图像分类任务?可能......
  • hbase数据模型有几种字段类型
    HBase数据模型中,主要有以下几种字段类型:1.列族(ColumnFamily):列族是HBase数据模型的基本组织单元。它是逻辑上相关的列的集合,通常表示一个实体的属性或者一组相关属性。列族在表创建时定义,所有属于同一列族的列都具有相同的前缀。2.列(Column):列是列族中的成员,由列族......
  • 供应链产能受限型选址模型——Python实现
    选址问题是运筹学中非常经典的问题。选址问题是指在确定选址对象,选址目标区,成本函数以及存在何种约束条件的前提下,以总物流成本最低或总服务最优或社会效益最大化为总目标,以确定物流系统中物流节点的数量、位置,从而合理规划物流网络结构。设施选址问题(FacilityLocationProblem)自......
  • 华为云MetaStudio全新升级,盘古数字人大模型助力数字人自由
    摘要:基于盘古大模型能力,华为云MetaStudio数字内容生产线全新升级,推出数字人模型生成服务和模型驱动服务。近日,华为开发者大会2023(Cloud)在东莞拉开帷幕。基于盘古大模型能力,华为云MetaStudio数字内容生产线全新升级,推出数字人模型生成服务和模型驱动服务,旨在通过数字人服务......
  • 从大数据到AI,华为云存储加速企业大模型快速应用
    摘要:AI与大数据算法不断发展,在生产中的应用也越来越广,而应用的场景除了对算法,软件架构要求越来越高外,也对底层IaaS(基础设施即服务)提出了新的挑战。AI与大数据算法不断发展,在生产中的应用也越来越广,而应用的场景除了对算法,软件架构要求越来越高外,也对底层IaaS(基础设施即服务)提出了......
  • ITK 高斯混合模型 GMM EM
    1、高斯混合模型sklearn.mixture是一个能够学习高斯混合模型、抽样高斯模型和从数据中估计模型的包。同样,也提供了帮助决定正确组件数量的方法。一个高斯混合模型是一个概率模型,它假设所有的数据点是从有限未知参数的高斯分布的混合生成的。可以将混合模型当作泛化的k均......
  • RISCV处理器-存储器模型
    之前一直没怎么弄清楚fence以及fence.i指令,现在重新回顾一下。可选的原子性存储器指令扩展"A" FENCEfence指令用于顺序话其他RISCV线程、外部设备或者协处理器看到的设备I/O和存储器访问。在所有predecessor执行到fence前的任何操作前,处于fence指令后的successorset种的任......
  • 大咖论道,大模型时代软件研发效率革命
    摘要:开发者如何拥抱这波AIGC浪潮?本文分享自华为云社区《大咖论道,大模型时代软件研发效率革命》,作者:华为云社区精选。根据GitHub的一项调查,92%的受访开发者正在借助AI编码工具来完成工作和其他项目。另一方面,AI已经通过了大厂L3工程师入职测试,可自如应对数组/字符串、动态规划等......
  • 数据报告分享|SPSS基于多元回归模型的电影票房预测
    全文链接:https://tecdat.cn/?p=33190原文出处:拓端数据部落公众号本文通过利用回归模型对电影的票房(以及放映场数,观影人数)进行了研究,确定了决定电影的票房的重要因素。并讲述、论证了预测电影的票房是电影投资的至关重要的环节。通过对电影票房预测技术的发展和探讨,深度剖析了电......