数据领域的名词特别多,经常把同学们绕晕。数据分析、商业分析、运营分析、销售分析、数据挖掘、算法模型、统计学、智能分析、BI分析……似乎每个都和数据有关系,似乎每个又各自有一个领域的知识。
如何区别这些让人眼花缭乱的概念,今天系统讲解一下。
学习数据分析三类常见错误
正是因为知识点太多,所以有同学很容陷入某个细节,结果产生三大流派:
▌理论流:喜欢搬书,尤其喜欢搬统计学,还有把高数搬出来的。似乎是理论越厚越好。实际上企业里相当多的数据工作是全量统计,根本不需要用到统计学抽样概念。
▌工具流:尤其以ESP(excel,sql,python)或者EST(excel,sql,tableau)流为典型,每天都在努力学习各种操作工具,可每一种操作工具,又止于最大值、最小值、平均值、百分比,最多再做个RFM聊以自慰。结果面试时候总纠结:到底这个算不算熟练。
▌思维流:总是把“底层思维”“核心逻辑”“内功心法”挂在嘴边,“分析无非拆解、对比”,对数据怎么采集一无所知,对数据质量、数据治理一窍不通,结果就是真实工作中连个需求表都讲不清……开发看了直挠头。
当然,更夸张的是以上三个都信了,桌面摆了20本书每天看一章,结果头昏脑涨还是不懂,那画面太美真不敢看……
之所以有这些问题,是因为数据分析工作本身是一个交叉领域的知识,并非像财务会计那样从理论到实操能用一套体系讲完。真实的数据分析工作上呈业务,下接技术,每个子模块都有丰富的内容。如果不梳理出一条主线,很容易扎进细节无法自拔(如下图,数据分析师的技能树)
从数据分析到数据驱动
以一张指标含义清晰,分类维度含义明确的excel表为分水岭,数据分析可以分成技术和业务两部分。
从各个数据来源采集数据,ETL过程,数据仓储建设,数据库中跑数提取出这张excel表的过程,是技术工作,涉及埋点、数据清洗、大数据开发等众多技术领域。为了方便提取数据。
如何解读excel,把数据变成可以指导业务的行动策略,是业务部分。
注意,业务只是一个统称,分成战略、战术、战斗三层。战略层是最宏观的经营分析与企业发展方向分析;战术层是具体的线下销售、线上销售、推广渠道、用户增长、品牌营销、产品供应等业务线的分析;战斗层则是具体的运营活动、媒体发布、获取渠道、产品功能点等分析。
这些分析都是基于可获取的数据进行的,需要业务基础知识和分析技巧的双料加持才能产生效果。所谓业务基础知识,是对战略、战术、战斗三层基本做法的了解。一个人不可能在连汽车都没见过的情况下开好车,同样,也不可能在对一个行业基本规则、操作流程、流行玩法不了解的情况下做好分析。
而分析技巧,则直接和数据质量有关。数据来源丰富、数据质量好的情况下,可以做复杂的分析模型,数据质量不行,只能做基础分析,长袖善舞,多钱善贾就是这个道理。
分析技巧也和业务模式有关,越是能和用户点对点沟通,即时交互的业务,就越有能力做个性化推荐与数据测试。只能在公开场景沟通的,就很难做复杂的数据测试。
有没有可能把这些繁琐的过程,打包成一整个产品来实现?有,BI产品(Business Intelligence)就是这样成体系的数据产品。
有趣的是,在BI产品推出早期(1996年),人们并不懂得数据的价值,因此才发明了一个“商业智能”的高大上称呼,引起人们对数据产品的重视,而在2021年,人们已经普遍认识了数据价值,数据产品一词才更容易被大家接受。
通过BI工具,业务部门可以轻松快捷地使用数据,极大提升效率。(如下图,基于PowerBI的销售数据仪表盘)
可见,从数据分析到数据驱动,需要经历漫长的过程,且能力上有明显差异。刚入门的同学,可以先对全流程有一个简单了解,之后根据个人工作职责与能力特长,选择更适合自己的方向。
数据分析与算法模型
从本质上看,数据分析与算法是两个应用方向:
▌数据分析:数据分析对抗的是不确定性,核心任务是把可量化的流程、操作、行为量化,用数据化、科学化的管理,代替:“决策拍脑袋、承诺拍胸口、出事拍大腿”的随意的管理。
▌算法:算法对抗的是低效率,核心任务是通过训练模型,把低级、重复、可标准化的操作转移到机器完成,释放人力资源,解决人力计算困难的问题。
所以我们能看到,算法的成功案例,在工业界比管理界多,在业务流程比决策流程多。比如人脸识别,在身份验证、安防监控、违章取证方面有大量应用。
比如基于机器学习预测和线性规划分配的调度算法,在人流控制、物流管理、派送分配方面有大量应用。这些都是生产系统,和数据分析、商业决策没啥关系。
和商业决策相对距离较近的是推荐类算法。但注意:有推荐算法的推荐系统,都是平台方用于应对大量商品(数以亿计的SKU)的情况,品牌方自己才几百个SKU的商品,做商品管理的时候还是要根据产品调性、卖点、用户需求,设计宣传思路,主打文案、卖点、价格策略、售后服务、礼品回馈。这些复杂的商业决策还是需要人来做,靠的是数据分析的支持。
本质上,算法岗位和数据分析岗位是两个工作,但这并不妨碍做数据分析的人向算法岗位靠拢。如果一个做分析的同学,真的对业务不感兴趣,更希望深钻技术的话,完全可以向算法方向发展。做分析的同学,对于数据开发有一定的能力积累,可以进一步强化开发能力。
强化的方向,当然不是打开SKlearn对着一个已经处理好的数据集调参。可预见的未来是:AutoML兴起以后,调参侠第一个失业。强化的第一步,强烈建议从特征工程做起。
俗话说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程是最基础也是最重要的工作(如下图,利用特征工程提升预测效能)
纵观Kaggle, KDD等国内外大大小小的比赛,每个竞赛的冠军其实并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作,然后使用一些常见的算法就能得到出色的性能。
因此,特征工程可以说是机器学习成功的关键因素。并且这些基础的工作,可以在比赛数据集上反复训练,通过大量实践加深认识,比起蜻蜓点水的敲一遍案例代码连打字技巧,是一个更好的上手路径。