首页 > 其他分享 >数据分析方法论,统计分析方法论与营销管理常用分析方法论的介绍

数据分析方法论,统计分析方法论与营销管理常用分析方法论的介绍

时间:2023-04-18 15:32:38浏览次数:47  
标签:数据分析 分析 统计分析 方法论 变量 回归 指标 数据


数据分析方法论重点包括两块,一块是统计分析方法论:描述统计、假设检验、相关分析、方差分析、回归分析、聚类分析、判别分析、主成分与因子分析、时间序列分析、决策树等;一块是营销管理常用分析方法论:SWOT、4P、PEST、SMART、5W2H、Userbehavior等。

一、统计分析方法论:

1.描述统计(Descriptivestatistics):描述统计是通过图表或数学方法,对数据资料进行整理、分析,并对数据的分布状态、数字特征和随机变量之间关系进行估计和描述的方法。目的是描述数据特征,找出数据的基本规律。描述统计分为集中趋势分析和离中趋势分析和相关分析三大部分。

(1)数据的频数分析:在数据的预处理部分,我们曾经提到利用频数分析和交叉频数分析来检验异常值。此外,频数分析也可以发现一些统计规律。比如说,收入低的被调查者用户满意度比收入高的被调查者高,或者女性的用户满意度比男性低等。不过这些规律只是表面的特征,在后面的分析中还要经过检验。

(2)数据的集中趋势分析:数据的集中趋势分析是用来反映数据的一般水平,常用的指标有平均值、中位数和众数等。各指标的具体意义如下:

平均值:是衡量数据的中心位置的重要指标,反映了一些数据必然性的特点,包括算术平均值、加权算术平均值、调和平均值和几何平均值。

中位数:是另外一种反映数据的中心位置的指标,其确定方法是将所有数据以由小到大的顺序排列,位于中央的数据值就是中位数。

众数:是指在数据中发生频率最高的数据值。

如果各个数据之间的差异程度较小,用平均值就有较好的代表性;而如果数据之间的差异程度较大,特别是有个别的极端值的情况,用中位数或众数有较好的代表性。

(3)数据的离散程度分析:数据的离散程度分析主要是用来反映数据之间的差异程度,常用的指标有方差和标准差。方差是标准差的平方,根据不同的数据类型有不同的计算方法。

(4)数据的分布:在统计分析中,通常要假设样本的分布属于正态分布,数据的正态性离群值检验,已知标准差Nair检验,未知标准差时,有Grubbs检验,Dixon检验,偏度-峰度法等。其中常用偏度-峰度法需要用偏度和峰度两个指标来检查样本是否符合正态分布。偏度衡量的是样本分布的偏斜方向和程度;而峰度衡量的是样本分布曲线的尖峰程度。一般情况下,如果样本的偏度接近于0,而峰度接近于3,就可以判断总体的分布接近于正态分布。

(5)绘制统计图:用图形的形式来表达数据,比用文字表达更清晰、更简明。在SPSS软件里,可以很容易的绘制各个变量的统计图形,包括条形图、饼图和折线图等。

2.假设检验:是数理统计学中根据一定假设条件由样本推断总体的一种方法。具体作法是:根据问题的需要对所研究的总体作某种假设,记作H0;选取合适的统计量,这个统计量的选取要使得在假设H0成立时,其分布为已知;由实测的样本,计算出统计量的值,并根据预先给定的显著性水平进行检验,作出拒绝或接受假设H0的判断。常用的假设检验方法有u—检验法、t检验法、χ2检验法(卡方检验)、F—检验法,秩和检验等。

3.相关分析:相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。常见的有线性相关分析、偏相关分析和距离分析。相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。而在相关分析中,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。

4.方差分析(AnalysisofVariance,简称ANOVA):又称“变异数分析”或“F检验”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状。造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。

方差分析是从观测变量的方差入手,研究诸多控制变量中哪些变量是对观测变量有显著影响的变量。

5.回归分析:回归主要的种类有:线性回归,曲线回归,二元logistic回归,多元logistic回归。回归分析的应用是非常广泛的,统计软件包使各种回归方法计算十分方便。

一般来说,回归分析是通过规定因变量和自变量来确定变量之间的因果关系,建立回归模型,并根据实测数据来求解模型的各个参数,然后评价回归模型是否能够很好的拟合实测数据;如果能够很好的拟合,则可以根据自变量作进一步预测。

6.聚类分析:聚类主要解决的是在“物以类聚、人以群分”,比如以收入分群,高富帅VS矮丑穷;比如按职场分群,职场精英VS职场小白等等。

聚类的方法层出不穷,基于用户间彼此距离的长短来对用户进行聚类划分的方法依然是当前最流行的方法。大致的思路是这样的:首先确定选择哪些指标对用户进行聚类;然后在选择的指标上计算用户彼此间的距离,距离的计算公式很多,最常用的就是直线距离(把选择的指标当作维度、用户在每个指标下都有相应的取值,可以看作多维空间中的一个点,用户彼此间的距离就可理解为两者之间的直线距离。);最后聚类方法把彼此距离比较短的用户聚为一类,类与类之间的距离相对比较长。

常用的算法k-means、分层、FCM等。

7.判别分析:从已知的各种分类情况中总结规律(训练出判别函数),当新样品进入时,判断其与判别函数之间的相似程度(概率最大,距离最近,离差最小等判别准则)。

常用判别方法:最大似然法,距离判别法,Fisher判别法,Bayes判别法,逐步判别法等。

注意事项:

a.判别分析的基本条件:分组类型在两组以上,解释变量必须是可测的;

b.每个解释变量不能是其它解释变量的线性组合(比如出现多重共线性情况时,判别权重会出现问题);

c.各解释变量之间服从多元正态分布(不符合时,可使用Logistic回归替代),且各组解释变量的协方差矩阵相等(各组协方方差矩阵有显著差异时,判别函数不相同)。

相对而言,即使判别函数违反上述适用条件,也很稳健,对结果影响不大。

应用领域:对客户进行信用预测,寻找潜在客户(是否为消费者,公司是否成功,学生是否被录用等等),临床上用于鉴别诊断。

8.主成分与因子分析:主成分分析基本原理:利用降维(线性变换)的思想,在损失很少信息的前提下把多个指标转化为几个综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量90%以上的信息),从而达到简化系统结构,抓住问题实质的目的。

因子分析基本原理:利用降维的思想,由研究原始变量相关矩阵内部的依赖关系出发,将变量表示成为各因子的线性组合,从而把一些具有错综复杂关系的变量归结为少数几个综合因子。(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)。

9.时间序列分析:经典的统计分析都假定数据序列具有独立性,而时间序列分析则侧重研究数据序列的互相依赖关系。后者实际上是对离散指标的随机过程的统计分析,所以又可看作是随机过程统计的一个组成部分。例如,记录了某地区第一个月,第二个月,……,第N个月的降雨量,利用时间序列分析方法,可以对未来各月的雨量进行预报。

10.决策树(DecisionTree):是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。在机器学习中,决策树是一个预测模型,他代表的是对象属性与对象值之间的一种映射关系。Entropy=系统的凌乱程度,使用算法ID3,C4.5和C5.0生成树算法使用熵。这一度量是基于信息学理论中熵的概念。

常见的数据分析方法论大体的就是这些,结合案例多练习下基本上就明白是什么回事。

二、营销管理方法论:

1.SWOT:

如表1的小额信贷公司的SWOT分析:

2.4P:4P即产品、价格、促销、渠道;

3.PEST

如吉利收购沃尔沃例子

4.SMART

5.5W2H

6.Userbehavior
 

标签:数据分析,分析,统计分析,方法论,变量,回归,指标,数据
From: https://blog.51cto.com/u_13973070/6203471

相关文章

  • 直播预告 | 嵌入式BI如何将数据分析真正融入业务流程
    在信息化高速发展的今天,数据成为企业最有价值的资产之一。而数据本身很难直接传递有价值的信息,只有通过对数据进行挖掘、分析,才能让数据真正成为生产力。商业智能(BI)应运而生,可以帮助企业更好地从数据中提取信息和知识,通过可视化的方式,快速准确地进行报表展现与分析,为企业提供决策支......
  • Python数据分析方向第三方库推荐!
    在Python的应用范围中,数据分析是一个非常不错的就业方向,发展前景好、需求市场大,也成为很多人的首选方向,因此Python也提供了许多数据分析的第三方库。那么Python数据分析第三方库有哪些?这篇文章为大家详细介绍一下。1、PandasPandas是Python强大、灵活的数据分析和探索......
  • 支持多模型数据分析探索的存算分离湖仓一体架构解析(上)
    当企业需要建设独立的数据仓库系统来支撑BI和业务分析业务时,有了“数据湖+数据仓库”的混合架构。但混合架构带来了更高的建设成本、管理成本和业务开发成本。随着大数据技术的发展,通过在数据湖层增加分布式事务、元数据管理、极致的SQL性能、SQL和数据API接口能力,企业可以基于统......
  • Prometheus 的监控方法论
    许多监控框架的重点都是故障检测,即检测是否发生了特定的系统事件或处于什么状态(这是Nagios的风格)。当收到有关特定系统事件的通知时,我们通常会查看收集到的任何指标,以找出发生的确切情况及其原因。在这个思路下,指标被视为故障检测的副产品或者补充。正确使用指标可以提供基础设施的......
  • 数据分析的目的和意义是什么?_光点科技
    数据分析是一个越来越受到关注的领域,因为它可以帮助企业和组织利用数据来制定更明智的决策。数据分析的目的和意义是多方面的,例如:1.了解客户需求数据分析可以帮助企业更好地了解客户需求,从而制定更准确的市场营销策略。通过对销售数据、市场调查、社交媒体和其他渠道的数据进行分析......
  • 水流数据分析
    importpandasaspdimportmatplotlib.pyplotaspltinputfile="D:\数据分析\original_data.xls"data=pd.read_excel(inputfile)lv_non=pd.value_counts(data['有无水流'])['无']lv_move=pd.value_counts(data['有无水流'])['有......
  • 天猫数据分析软件:2023年3月防蚊防虫用品十大品牌排行榜
    随着露营、飞盘、冲浪等户外运动掀起热潮后,蚊虫叮咬成了不少户外运动玩家的心头痛。不过从市场端来看,这却是一个不可多得的商机。“户外防蚊防虫”,成为户外经济的垂类增长点。户外消费场景的持续火爆,带动了防蚊防虫产品销量的增长。根据鲸参谋电商数据显示,2023年3月份在天猫平台上,......
  • NumPy 和 Pandas 数据分析实用指南:1~6 全
    原文:Hands-OnDataAnalysiswithNumPyandpandas协议:CCBY-NC-SA4.0译者:飞龙一、配置Python数据分析环境在本章中,我们将介绍以下主题:安装Anaconda探索Jupyter笔记本探索Jupyter的替代品管理Anaconda包配置数据库在本章中,我们将讨论如何安装和管理Anac......
  • 003.方差&回归分析以及pandas数据分析流程
    一、方差分析   二、回归分析 三、案例讲解 ......
  • 每日学习记录20230316_转录组测序数据分析
    20230316:转录组测序转录组测序数据分析最根本的是基础知识,不然给你数据你都不知道是干啥的.要多看综述,并且要多看几遍.下载GEO数据之前,需要先下载参考基因组数据.可以在三个平台上下载:ucsc,ncbi和ensemble,使用下面的检索式在搜索引擎中检索:hg38ftpucsc就得到比......