首页 > 其他分享 >《如何用数据解决实际问题》读书笔记

《如何用数据解决实际问题》读书笔记

时间:2022-11-22 16:48:39浏览次数:47  
标签:分析 问题 读书笔记 假设 我们 指标 解决 数据 实际

第一章:解决问题,你需要“流程”

我们做数据分析首先是提出合理的问题,然后才是做出合理的假设,之后搜集需要的数据(或者相近的数据),对数据进行分析。

数据分析不是数据游戏,它是以问题为核心,数据为支撑,数据分析为工具的整个问题解决方案。

很多时候,分析者并没有意识到,他们进行分析仅仅是为了验证自己的想法。

先设想理想状态下是怎么样,因为数据分析的目的大部分就是通过分析给出一系列战略方案从而达到理想状态。从理想状态下出发,提出和现状与理想状态之间的差距有关的问题

可见问题原本就是指现状与理想状态之间的差距。因此不知道理想的状态是什么,就无法确定问题。跳过这一步展开分析,会带来巨大的风险(徒劳无功)。

当我们开始分析之后,往往就会将注意力集中在我们假设的范围之内。但写后难预料之外的分析结果,才能帮我们找到更加接近本质的答案。

思考问题之“外”的问题:有时候看似提出了一个问题,但这个问题有时候是具有局限性的。我们可以以问题为出发点,提出更多的有价值的问题。同时,有时对同样的问题,并不一定有同样的理解,是否准确的理解和定义问题在之后的分析工作中也显得尤为重要。

在日产工作时,对高层领导或上司布置的问题,我从不就事论事地只看问题本身,而会留意“问题之外的问题”,试着从高出自己一两个级别的水平进行思考。很多时候我向提出者进行确认后,又重新定义了问题。每次遇到这种情况,我都会感到自己的视野过于狭窄。不过这样的经历多了,就逐渐培养出在接手项目时,从开始阶段就扩展思路的能力。

我们在做事,做数据分析等等事情的时候,一定要尽力,尽心的做出尽可能准确,有效,完善,能真正解决问题的问题解决方案。而不只是机械的完成数据分析的流程,只为了交付一个分析报告。我们需要深入的思考,而不是机械的行动,用思考指挥行为,而不是行为限制思考。真正有价值的东西是 Thinking,而不是 Doing。

此外,如果一个人总是在差不多时放弃努力,那他将永远无法掌握具有更高价值的工作技能。

数据分析不是简单摆弄数据,机械的使用分析方法,麻木的做 BI 报告。而是以问题为导向,提出完备且合理的假设。然后,搜集需要的数据,选择需要的方法去检验自己的假设。最后,以清晰的逻辑来阐明分析的结果和提出有用的问题解决方案。

问题 --> 目的地;假设 --> 去往目的地的路线;数据和数据分析方法 --> 汽车。

从接受提案的一方来看,他们认同的并不是数据分析的内容和方法,而是以清晰明确的、能够说服别人的问题或逻辑前提为基础提出的建议。解决问题的目标是准确地锁定主要原因,让相关人员接受自己的建议,在获得认同的基础上“推动其采取措施”。否则,无论展示出多么高超的分析方法,也无法实现这个目标。

提出一个数据分析问题的时候,要精准定量的提出理想状况下的指标,再定量的衡量现况和理想状况的差距。

只有这样,才能知道我们的分析结果是否有价值。提出的方案是否真正的改善现状,朝着理想状态前进。

定量评价或判断数据分析结果时,尤其需要客观的判断标准。

“汽车销售额自一年前开始逐渐减少,与上一年度的月平均销售额相比,本年度最近一个月降低了大约 15%。这意味着与本年度计划相比,全年预计将有约 10% 的目标无法实现。”


第二章:分解数据,找到问题的关键

在做数据整理时,要提前拥有数据视点(View Point)。即从完善的视角去看待和整理数据,而不是机械的数据操作。

首先,整理数据的目的是找到与问题有关的关键指标所出问题的地方。即通过数据整理锁定应该深入挖掘的对象。

建立视角/视点

通常我们应该从“趋势”和“快照”两个角度来看待数据:

  • 趋势视角是用来看待数据的变化,通常是时间序列数据。通过观察趋势数据,我们可以得知数据在一段时间内的趋势,从而得到指标的发展情况。

  • 快照视角就是对某个期间的情况的衡量。例如平均值,标准差等数据。有助于我们衡量一个数据在一个期间内的整体表现。同时也可以衡量某个因素/指标对问题的影响程度,方便我们筛选出重要的因素/指标进行挖掘。

单从任何一个视角都会有所偏差。如果忽略趋势视角,我们就不能很好的把握数据发展的脉络。例如,我们从整体数据中得知 A/B/C/D 四个产品中,B 产品的销售额比其他三个数据都少一截,此时我们有可能就会匆匆的得出“总体销售额下降的原因是 B 产品的销售额不好”,但此时如果做一个趋势视角的分析就有可能看出,虽然当前 B 产品的销售额不高,但是其销售额在过去一段时间内都是增长的,这显然就可以推翻“总体销售额下降的原因是 B 产品的销售额不好”的结论。

如果忽略整体视角,只看趋势,我们有可能会不能很好的把握整体情况。我们可能会忽略不同产品对问题的影响程度,从而有可能错误的将精力花费在对问题影响不大的指标上。

视点是针对指标而言的,即我们对不同指标应用视点进行分析和观察。

拆解指标

使用 what 型假设来拆解指标:将一个大指标假设为多个小指标的“四则运算”,然后对其进行拆解和细化。从而将问题一步步的分解到小指标上,更加精准的定位问题所在。

当我们通过拆解分解数据,从而找到了关键指标,准备进行下一步分析时,我们可以对该指标进行不同维度视角的分析。不同维度的视角会产生不同维度的分析结果,对应下一步寻找原因时不同维度的原因。也会间接导向不同的措施。

例如:本品牌用户忠诚度的指标,我们可以从 产品/用户构成/购买念书 等不同维度对忠诚度进行切分。如产品可以分为 A/B/C/D 几个不同产品的用户忠诚度。用户构成可以分为不同收入群体的忠诚度。

这些不同维度都对品牌用户忠诚度会产生影响。而从不同维度进行分析后,能更加精准的定位影响该关键子指标因素,从而更好的采取和方案。为下一步的 why 型假设提供目标对象。

各种指标与维度与“趋势”和“快照”等视点进行交叉,构成一个观测矩阵。该矩阵给我们提供了各种指标的不同视点的观察结果。

比较的视角

在数据分析中,单看一个维度中的某一个切片没有意义。例如单独列出 A 产品的用户忠诚度,没有任何意义,得不到任何信息。

即使我们使用“趋势”视点,在时间维度上看到 A 产品的用户忠诚度变化,其意义也有限。因为不知道是公司所有产品的忠诚度都有变化,还是只是单独的 A 产品的忠诚度有变化。

所以我们要在对关键指标进行切分后,进行比较,从比较来看究竟是整体的问题,还是单独某一个切面的问题。

衡量的数据

进行以上所有步骤后,我们已经找到我们需要关注的对象。那我们需要关注对象的什么数据呢?

我们可以观察数据的几乎所有统计指标:均值(大小)/标准差(波动)/中位数/百分位数/变异系数等等指标。

均值

均值衡量了一个范围内的整体表现。能体现整体的平均水平。但并不一定表示中间水平

但是,如果数据分布是“两端分布”、“截尾分布”的话均值有时候就不那么可靠。且其容易受到极端值的影响。

均值的使用有一个非常大的陷阱:辛普森悖论

其含义就是两个主体,其中某一个主体的每一个子块的平均值都大于另外一个主体的相同子块,但其总体均值小于另一个主体。其实就是加权平均的影响。

例如,假设理学院和计算机学院的男女生比例:

理学院 计算机学院
男生 60% 90%
女生 40% 10%

此时,假设理学院和计算机学院的身高分布情况:

理学院 计算机学院
男生 175cm 173cm
女生 165cm 163cm

那么就有如下结果:

理学院 计算机学院
平均身高 171cm 172cm

从以上结果可以看出:即使分开男女生看,理学院学生的平均身高都要高于计算机学院的学生。但由于计算机学院中,平均身高较大的男生的人数占比更多,所以在整个学院的平均身高上,计算机学院更高。

所以在通过平均值来比较不同个体的情况时,一定要考虑主体的构成分布情况,这样才能更加接近真实的结果。最好是考虑主体平均值的同时,还要考虑其各构成部分的平均值表现。 一定要多关注“眼前这个数值是哪些要素综合计算出来的”。

有些情况下,考察数据整体和考察不同部分,会得到相反的结论.

只看整体,我们可能注意不到“数据构成要素的差异(这里是乌冬面与荞麦面的不同)”,忽略这种差异进行单纯比较,就有可能导致无法察觉该差异所造成的影响。正如这个事例所显示的,关注原始数据内部的要素,有时会看到不同的风景。

一般而言,将数据细分至何种程度才能做出适当判断,这个问题并没有标准答案。为了找出正确答案,分析者需要了解自己的数据可以分为哪些层次,目前分析处于何种状态,这一点很重要。

波动

波动通常与风险挂钩,哪怕均值相同的数据,如果波动越大,那么其不稳定性就越大。不稳定性有时候是不好的事,但有时候,我们反而会追求风险,以祈求高回报。

客观衡量波动的统计量就是标准差,其表示了数据对平均值的偏离情况。

但是,标准差有很多限制情况,例如部分销售数据和整体销售数据对比

(单位:亿) 华北地区 北京
平均值 2500 500
标准差 300 100

从上表可以看出,华北地区的标准差的数值比北京地区的标准差数值要大。那这能说明华北地区的波动更大么?

显然不能,因为华北数据的数量级就比北京的数量级更大。300 亿的浮动对 2500 亿的影响远没有 100 亿的浮动对 500 亿的影响大。

所以,使用标准差对比衡量波动时,要注意两个数据是否在一个量级。

“变异系数” 数据量可以解决这个问题:

\[变异系数 = \frac{标准差}{平均值} \]

同时,我们可以使用标准差来衡量当前数据的表现是否是位于优异位置(当然,建立在数据大致为正态分布的前提下)。

总结

在对数据使用数据分析的方法之前,我们要先建立分析框架,做到有的放矢。

对问题做出恰当的定义,并大致把握现状之后,接下来需要找到“问题的关键”。通过找出问题的关键,可以实现确定分析范围的目的。如果数据中包含所有信息,就会像一笔糊涂账,一直钻研也无法取得任何进展。因此,分解数据就显得极为重要。

分析框架:

graph LR What("通过 what 假设分解指标") --> Key("找到关键子指标") --> slice("对关键子指标进行<br>不同维度的切片") --> viewPoint("对不同切片后的<br>数据进行对比")

通过以上四个步骤后,大致能找到问题的关键问题,从而对关键数据进行分析挖掘,进行 “why 假设”,分析其原因,从而给出解决方案。

其实上面流程中,对每一层级的指标都需要进行数据分析,寻找关键指标的框架是应该在分析前就要先确定好的,但是寻找关键指标的过程是一个粒度逐渐变细的过程。在每一级粒度对数据进行分析从而得到下一级粒度的分解方向。

很多情况下,如果进展不够顺利,就得反复试错,回到假设阶段寻找其他突破口。我们需要放弃尝试一次便获得成功的完美主义。

同时,我们也要清除,某些指标并不是一开始就有的数据,而是通过现有数据进行组合而得到的。这也需要我们进行 Thinking ,从而将现有数据有机组合(一般都是有目的的加减乘除)得到有价值的新指标。

在这一步,我们最需要做的就是:通过数据分析细致入微的了解现状,锁定问题的关键。


第三章:利用交叉视点,锁定原因

在经历上一步的数据分解分析,深入了解现状,锁定关键问题的关键指标后,接下来需要做的就是找到出现问题的原因。 不能止步于找到问题的关键,或者说一直在寻找问题的关键的问题上不断的下挖。而是在发现问题的关键后,要去找到对应的原因

从某个维度对大小、比例或波动等进行比较,划定对象数据的范围,锁定问题的关键。

找到原因之一:相关性

相关性是衡量两个变量关系中很简单,却又很有效的指标。它客观的衡量了一个变量随另一个变量变化而变化的关系。

当我们进行上一步的细致的现状分析时,使用过的指标和没有使用的指标,都可以在这一步再一次使用,只要与寻找到的关键指标有所关联。并不是说上一步使用过的指标在这一步就没有了意义。有时候其是在隐性的或者间接的影响着问题,在这一步可能可以将这种隐藏的关系挖掘出来。

而考虑相关性不仅是衡量两个变量之间的关系那么简单。它将我们从只考虑单独的一个关键指标变化到考虑交叉因素:即从其他的维度来考虑关键指标的问题,而非只从关键指标的数据中去单独的寻找原因。

相关分析的优点

  • 能够立即得出答案

  • 简单易懂,容易得到对方理解

  • 能够分析单位不同的数据:即目标因素和影响因素之间的量纲和单位不一样也并不影响,这是很多分析方法所不具有的优点。

  • 为回归分析等进一步分析做铺垫:寻找真正有影响,有意义的影响因素为下一步深度分析做好准备。剔除掉无关因素,减少噪声的影响。

衡量相关性时,我们不仅要从相关系数来考虑,还应使用散点图可视化

散点图可以弥补相关系数的如下缺点:

  • 离群值会很大程度上影响相关系数的值;

  • 相关系数只能衡量线性相关,但有时数据之间并不只是线性相关,此时就需要使用散点图来可视化后衡量。

锁定原因:“Why 假设”

在上一步寻找到关键指标后,分析关键指标变化的原因时,就可以做出 “Why 假设”。

在分析问题原因时,假设也同样有效。与原因有关的假设叫做 “Why 假设”。

在进行 “Why 假设”时要注意 “防止主观臆断”、“受到前例的舒束缚”、“将视野局限在常见的数据范围”。一定要开动脑筋去思考,开阔视野,以解决问题为目标,而非完成任务。

我们进行 “Why 假设”的目的是找到影响关键指标的原因,从而能找到真正解决问题的措施。应用该措施能够实际的对关键指标产生影响,从而达到接近理想状态的原因。

在寻找原因的过程中,我们应当注意两点

  • 寻找接近结果的原因:在影响关系的链条中,衡量相接近的指标之间的相关性,能更好的找到影响问题的关键。当我们衡量在关系链条中很远的两个指标的相关性时,或许两者的相关性会很弱,此时我们可能就会放弃那个指标。原因是一个指标可能被多个指标所影响,所以关系链条隔得较远时,就可能得不到很好的相关性。但是,有可能经过关系链条的传递,其中一个指标的变化其实是实实在在影响着另一个指标变化的。所以,我们应当沿着链条进行相关性的分析。

  • 选择能够采取对策的原因:如果得到的原因是我们暂时或者根本就无法通过施加措施而去影响的原因,那么这样的原因就算找到了也无济于事,因为其不具有可操作性。

    建立假设时就要设想“假设得到验证,就能采取哪些对策”,这也是考验数据分析者能力的一个方面。

实战中如何进行相关分析呢?

如上图所示:

第一种:假设多个可能的候选原因,然后一个个考察与目标指标的相关性,从而得到关键的候选原因。这样便知道应该将资源倾斜在哪些方面能得到更加大的收益。并且也可以将资源从哪些设想出来的“有用”但实际却并无效益的项目上收回。资源的倾斜应当由数据说话,而非主观臆断,否则就有可能导致资源的浪费,从而错失良机。

第二种:分析出业务发展的流程,对流程中每个节点的关键指标进行相关性分析,从而能得到该流程是否是“通路”。设想,当一个流程中,中间部分的某两个相邻的流程的关键指标并不构成相关性,那么从一开始进行的措施所施加的影响,在这一步就断了,无论一开始所施加的影响有多么大,都无法继续影响最终我们需要被影响的关键指标。

同时,这一招还能用来发现流程中的异常情况。例如流程中的某一步存在人工上的懈怠或腐败。通过这一招可以发现,原本设想的可以走通的流程,却实际上并没有起效,是否是在其中执行上除了问题。

书中图 3-5 的例子举得非常形象:

像这样,关注流程之间传递的数据,分析它们之间的相关关系,有时可以发现需要解决的问题。

将相关系数与其他数据进行交叉 *

文中给出了一个很好的例子:将相关系数和当前表现进行交叉可视化,能快速精准的发现应当投注资源的着力点。

如上图所示:纵轴是这些因素与目标指标的相关系数,纵轴是这些因素的当前表现的数据刻画(此处使用平均值来刻画)。

此时可以很快速的发现,洗浴质量的提升是提升客户满意度的当务之急。

所以,我们不能仅仅分析相关系数,因为有些相关系数高的因素我们已经做的很好了(例如此处的料理。),此时我们需要发现哪些相关系数高,我们却没有做好的部分,这样才是资源利用最大化。

相关性告诉我们的是“什么是有效的因素”,但并没有告诉我们“目前我们在有效的因素上的表现”。所以我们要综合有效性和当下表现来交叉综合考虑。

“陷阱”

使用相关分析有时会误导没有经验的,或者不够成熟的分析师走向陷阱:

  1. 相关关系不等于因果关系

    作为检验因果关系的方法之一,可以考察 2 种数据发生变化的时期(顺序)。因果关系应该是原因变化在先,结果随后发生变化。

  2. 疑似相关:即有些相关性并不一定有直接联系。例如:两个变量同时受到同一因素影响,但两因素之间并不一定能互相产生影响效果。

    例如,假设“顾客满意度”与“销售额”高度相关。那么是否就能直接得出“改善服务,提高顾客满意度,就能进一步提高销售额”的结论呢?对此,答案依然是“也许是,也许不是”。仅凭相关分析的结果无法得出真正答案。

  3. 数据的范围:有些时候,相关性并不一定在整体上表现出来,而是在某个数据点之后,或某个数据范围之内。造成这一点的原因我认为有:

    • 延后性/积累性:某一个措施举行后,并不一定能马上起效,从而产生影响,而是需要一定时间的培养和累计。

    • 数据的敏感区间:一个指标关于另一个指标有变化敏感区间,在该区间内,数据能呈现相关性很高的协同变化。但在这个区间之前和之后都不具有敏感性。(就像 Sigmoid 函数图像)。

  4. 离群值:有时候离群值会很大程度的影响相关性的计算。但我们并不能鲁莽的直接去除离群值,这不是以数据说话的行为。同时,这样做也会让我们陷入操作数据来迎合假设的情况,而非用数据来验证假设,这阻碍了我们发现真正的问题。我们应当做的是分析离群值产生的原因,然后分析其是否应该去除。

    如果可以随意删除数据,就有可能出现分析者操纵分析结果,导致分析丧失客观性和可信度的情况。所以,发现离群值时,首先要调查这个数据为什么会出现偏离。在此基础上,如果能找到合适的理由,则可以将其从对象中剔除,再进行分析。

总结

交叉分析并不是单指同时考虑两个变量。而是在分析时考虑将目前手头上的数据进行组合交叉后,是否能够碰撞出和发现新的价值和点子。例如上文的相关性分析、不同因素的相关系数和在不同因素上当前的表现两者的交叉。

我们从不同维度切入,通过“ Why 型假设”来寻找能引起关键指标变化的原因,从而寻找到能实施的,当下资源效益最大化的方案。

第四章:制定对策,使用方程式

整章建立在第三章的相关分析上,在找到相关变量后,我们使用“一元线性回归”来得到目标与变量之间影响的关系,从而得到我们操作变量的行为能在何种程度上影响到最后的目标变量。

相关系数与回归方程斜率

但此时我们需要思考相关系数和回归方程的斜率之间的关系:

我们是使用相关系数还是回归方程的斜率来思考两者之间的的影响呢?

答案是回归方程的斜率。接下来从两者之间的意义来阐述为什么:

相关系数:相关系数是衡量两者之间协同变化的程度,从其公式上来考虑其是忽略了量纲的,即其衡量的是一个变量走多少/多大“步”的同时,另一个变量走多少/大“步”。

\[R = \frac{E[(X-\bar{X})(Y-\bar{Y})]}{\sigma_X\sigma_Y} = \frac{1}{n}\frac{(X-\bar{X})}{\sigma_X}\frac{(Y-\bar{Y})}{\sigma_Y} \]

可以看到,其由于这样的除的关系,\(X\) 和 \(Y\) 两个变量的量纲都被消除了。从而只是衡量其中一个变量变化一个标准差时,另外一个变量平均变化多少标准差。

回归方程的斜率:回归方程的斜率是真正衡量一个变量变化多少数值时,另一个变量变化多少数值,其是有量纲影响的。例如当 \(X\) 为 k 数量级,而 \(Y\) 为百分数时,其斜率会很小,但这并不表示两者之间的相关度很小。而是在这样的情况下,\(X\) 变化一点,就能影响 \(Y\) 很多。

所以千万不要看到回归方程的斜率很小就以为两者之间的相关程度很小。相关程度是由相关系数来衡量的,两者各司其职。

用相关分析判断关联的紧密程度,用回归分析判断其影响大小。

我们还需要注意的一点:回归分析是具有数据范围限制的

即回归分析得到的回归方程只在做回归分析时限定的范围内一定有效,至于其能扩展多少范围可以进行可视化尝试。但一定不是无限范围。所以在应用回归方程时,还需要限定其范围,即两者之间的互相影响的关系在什么范围内能够保证效果。

将回归分析融入应用实例的三个思路

  1. 对比成本和收益

回归方程揭示了对一个变量施加影响的同时,能对另外一个变量产生多大影响。那么此时我们就可以估计如果我们需要目标指标达到预期值时,需要在哪些方面进行多少多少投入。此时就能衡量我们付出的多少成本的同时,能获得多少收益。

成本指标(数据):广告,人力,资金,培养等与我需要采取的措施有关的指标

收益指标:用户忠诚度,客户满意度,销售额,产品评分,生产效率等与我目标相关的指标

同时,通过回归分析,我们还能得知相同的成本投入在不同的事情上能得到的收益效率。我们应该将成本投入收益效率更高的事情上。

书中的 A、B 店的例子举得很好,我们不能从表面上看投入相同成本时所得到的收益绝对值。而是应该看投入相同成本时对收益所产生的影响。 因为收益绝对值还会由别的因素决定,而这些因素的决定有时会反映在回归方程的截距上,而非斜率上。

  1. 合理分配资源

如同 1 中所说,我们可以根据回归方程合理的规划达到收益预期所需要投入多少成本。这样由数据得到的指标在呈现报告时是非常有说服力的,同时也是非常合理的。

  1. 设定合理的 KPI

KPI 表示我们需要达到预期收益所需要提升的关键指标。

而如何科学合理的制定 KPI ,从而达到优秀的管理呢?答案就藏在相关分析和回归分析中。

通过相关分析,我们将收益指标一步步关联到能实际通过采取行动直接影响的关键指标(KPI)上。再通过回归分析,得知我们想到得到预期收益,需要 KPI 达到什么样的表现。从而决定我们需要采取的行为和行为所需要的成本。

那么,当 KPI 可以被很多行动所影响时,应该如何选择呢?

  • 首先,在上一个章节中提到,可以看相关系数与当前表现的交叉可视化,从而找到具有高影响力,同时当下表现又有待改进的行动。

  • 其次,还可以通过实施的难易程度 / 投入的成本大小 与 对目标影响的大小的交叉视角来一次排序和寻找应该采取的行动。

第五章:总结与下一步学习

总结

从前四章的学习中,我们可以总结出以下流程:

graph LR GOAL("确定目标问题") --> Now("通过分析拆解,<br>细致把握现状") --> 锁定问题关键 --> 锁定原因 --> 制定合理的措施与对策
  1. 确定目标问题:在进行数据分析前,我们需要真实的了解问题,明确分析的目标是为了改善什么。最好的方法是设想一个“理想情况”,从而就知道现在是什么东西没有达到理想情况,从而明确问题所在。

    我们所做的一切努力都是为了事情朝着理想情况前进。没有理想与现实的差距,就不存在问题,那么努力就没有了方向与意义。

  2. 通过分析拆解,细致把握现状:通过“What 型假设”逐步拆解问题指标。通常是假设一个大指标受到哪些小指标影响,由哪些小指标构成。然后在不断的一级一级的拆解过程中,进行一级一级的分析。

  3. 通过第 2 步的行为,在一级一级的拆解分析下,我们会逐步注意到是哪个或者哪些具体的,我们能够影响的小指标出了问题,使得我们未能达到“理想情况”。

    一定要注意,我们一定要通过一级一级的拆解,将现实与理想的差距最终定位到我们可以实施具体操作去影响的小指标上。如果指标我们不能影响,那么其问题我们就无法解决,那么数据分析最后就是一场空。

    告诉别人你有问题,又不告诉别人这个问题该怎么办,真的很欠打。

    数据分析哲学:数据分析的目的不是为了玩数据,不是为了做好看的图表。而是为了真正找到从现状通往理想状态的路

  4. 锁定原因:通过“Why 假设”,结合关联分析找到能够出问题的因素。同时也能通过关联分析找到真正影响问题关键的链条。从而找到为什么会出现问题,即找出真正出问题的方面。

    3 中找到的还是最后的非常具体的指标点。在这一层次上,我们还不能直接影响,但是已经非常接近我们可以通过行为可以影响和操作的因素了。

    通过“Why 假设”分析后,我们就能找到,到底是什么因素影响了这个具体指标。与具体的指标点有相关性高、而表现不好的因素往往就是关键点

  5. 制定方案:通过回归分析,我们找到成本与效益的关系,从而规划成本,制定效益比高的实施方案来解决问题,从而通向理想情况。

    回归分析的主要目的还是数字化,具体化达成目标所需要进行的努力。

    即用数字刻画对于想要达到的收益需要付出多少成本。从而进行更加合理和精准成本管理。

下一步学习

  1. 多元回归分析:需要解决的问题有“多重共线性问题”

  2. 假设检验(推断性统计):通过样本来推断总体参数的关系,从而避免陷入样本偏性。

    样本由于其有限的特性以及其采集过程中的不可控性,必然具有一定的偏性,同时也具有一定的不完整性。

    故单单只考虑样本做出来的结论有时候不一定完全可靠。

    但我们使用收集到的样本来推断总体,同时结合显著性检验,能在一定程度上避免仅从样本得出结论的偏差性。

    不过我感觉这仅仅解决了不完整性的问题。因为有偏样本推断出来的总体参数同样是有偏差的。

    但就像之前在试卷上所答的那样:有时候有偏数据并不一定没有意义,不如就将该数据作为以对应目标群体为总体的采样,从而推断对应目标群体的总体参数。

标签:分析,问题,读书笔记,假设,我们,指标,解决,数据,实际
From: https://www.cnblogs.com/StephenSpace/p/16915559.html

相关文章