首页 > 其他分享 >如何从数据分析,实现真正的数据驱动?终于有人讲清楚了!

如何从数据分析,实现真正的数据驱动?终于有人讲清楚了!

时间:2022-11-03 11:36:35浏览次数:48  
标签:数据分析 讲清楚 excel 业务 分析 算法 驱动 数据

数据领域的名词特别多,经常把同学们绕晕。数据分析、商业分析、运营分析、销售分析、数据挖掘、算法模型、统计学、智能分析、BI分析……似乎每个都和数据有关系,似乎每个又各自有一个领域的知识。


​如何区别这些让人眼花缭乱的概念,今天系统讲解一下。

学习数据分析三类常见错误

正是因为知识点太多,所以有同学很容陷入某个细节,结果产生三大流派:


▌理论流:喜欢搬书,尤其喜欢搬统计学,还有把高数搬出来的。似乎是理论越厚越好。实际上企业里相当多的数据工作是全量统计,根本不需要用到统计学抽样概念。


▌工具流:尤其以ESP(excel,sql,python)或者EST(excel,sql,tableau)流为典型,每天都在努力学习各种操作工具,可每一种操作工具,又止于最大值、最小值、平均值、百分比,最多再做个RFM聊以自慰。结果面试时候总纠结:到底这个算不算熟练。


▌思维流:总是把“底层思维”“核心逻辑”“内功心法”挂在嘴边,“分析无非拆解、对比”,对数据怎么采集一无所知,对数据质量、数据治理一窍不通,结果就是真实工作中连个需求表都讲不清……开发看了直挠头。


当然,更夸张的是以上三个都信了,桌面摆了20本书每天看一章,结果头昏脑涨还是不懂,那画面太美真不敢看……


之所以有这些问题,是因为数据分析工作本身是一个交叉领域的知识,并非像财务会计那样从理论到实操能用一套体系讲完。真实的数据分析工作上呈业务,下接技术,每个子模块都有丰富的内容。如果不梳理出一条主线,很容易扎进细节无法自拔(如下图,数据分析师的技能树)


如何从数据分析,实现真正的数据驱动?终于有人讲清楚了!_数据

从数据分析到数据驱动

以一张指标含义清晰,分类维度含义明确的excel表为分水岭,数据分析可以分成技术和业务两部分。


从各个数据来源采集数据,ETL过程,数据仓储建设,数据库中跑数提取出这张excel表的过程,是技术工作,涉及埋点、数据清洗、大数据开发等众多技术领域。为了方便提取数据。

如何从数据分析,实现真正的数据驱动?终于有人讲清楚了!_数据_02

如何解读excel,把数据变成可以指导业务的行动策略,是业务部分。


注意,业务只是一个统称,分成战略、战术、战斗三层。战略层是最宏观的经营分析与企业发展方向分析;战术层是具体的线下销售、线上销售、推广渠道、用户增长、品牌营销、产品供应等业务线的分析;战斗层则是具体的运营活动、媒体发布、获取渠道、产品功能点等分析。


这些分析都是基于可获取的数据进行的,需要业务基础知识和分析技巧的双料加持才能产生效果。所谓业务基础知识,是对战略、战术、战斗三层基本做法的了解。一个人不可能在连汽车都没见过的情况下开好车,同样,也不可能在对一个行业基本规则、操作流程、流行玩法不了解的情况下做好分析。


而分析技巧,则直接和数据质量有关。数据来源丰富、数据质量好的情况下,可以做复杂的分析模型,数据质量不行,只能做基础分析,长袖善舞,多钱善贾就是这个道理。


分析技巧也和业务模式有关,越是能和用户点对点沟通,即时交互的业务,就越有能力做个性化推荐与数据测试。只能在公开场景沟通的,就很难做复杂的数据测试。


有没有可能把这些繁琐的过程,打包成一整个产品来实现?有,BI产品(Business Intelligence)就是这样成体系的数据产品。


有趣的是,在BI产品推出早期(1996年),人们并不懂得数据的价值,因此才发明了一个“商业智能”的高大上称呼,引起人们对数据产品的重视,而在2021年,人们已经普遍认识了数据价值,数据产品一词才更容易被大家接受。


通过BI工具,业务部门可以轻松快捷地使用数据,极大提升效率。(如下图,基于PowerBI的销售数据仪表盘)


如何从数据分析,实现真正的数据驱动?终于有人讲清楚了!_数据_03


可见,从数据分析到数据驱动,需要经历漫长的过程,且能力上有明显差异。刚入门的同学,可以先对全流程有一个简单了解,之后根据个人工作职责与能力特长,选择更适合自己的方向。

数据分析与算法模型

从本质上看,数据分析与算法是两个应用方向:


▌数据分析:数据分析对抗的是不确定性,核心任务是把可量化的流程、操作、行为量化,用数据化、科学化的管理,代替:“决策拍脑袋、承诺拍胸口、出事拍大腿”的随意的管理。


▌算法:​算法对抗的是低效率,核心任务是通过训练模型,把低级、重复、可标准化的操作转移到机器完成,释放人力资源,解决人力计算困难的问题。


所以我们能看到,算法的成功案例,在工业界比管理界多,在业务流程比决策流程多。比如人脸识别,在身份验证、安防监控、违章取证方面有大量应用。


比如基于机器学习预测和线性规划分配的调度算法,在人流控制、物流管理、派送分配方面有大量应用。这些都是生产系统,和数据分析、商业决策没啥关系。


和商业决策相对距离较近的是推荐类算法。但注意:有推荐算法的推荐系统,都是平台方用于应对大量商品(数以亿计的SKU)的情况,品牌方自己才几百个SKU的商品,做商品管理的时候还是要根据产品调性、卖点、用户需求,设计宣传思路,主打文案、卖点、价格策略、售后服务、礼品回馈。这些复杂的商业决策还是需要人来做,靠的是数据分析的支持。


本质上,算法岗位和数据分析岗位是两个工作,但这并不妨碍做数据分析的人向算法岗位靠拢。如果一个做分析的同学,真的对业务不感兴趣,更希望深钻技术的话,完全可以向算法方向发展。做分析的同学,对于数据开发有一定的能力积累,可以进一步强化开发能力。


强化的方向,当然不是打开SKlearn对着一个已经处理好的数据集调参。可预见的未来是:AutoML兴起以后,调参侠第一个失业。强化的第一步,强烈建议从特征工程做起。



俗话说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。特征工程是最基础也是最重要的工作(如下图,利用特征工程提升预测效能)


如何从数据分析,实现真正的数据驱动?终于有人讲清楚了!_商业_04


纵观Kaggle, KDD等国内外大大小小的比赛,每个竞赛的冠军其实并没有用到很高深的算法,大多数都是在特征工程这个环节做出了出色的工作,然后使用一些常见的算法就能得到出色的性能。

因此,特征工程可以说是机器学习成功的关键因素。并且这些基础的工作,可以在比赛数据集上反复训练,通过大量实践加深认识,比起蜻蜓点水的敲一遍案例代码连打字技巧,是一个更好的上手路径。


标签:数据分析,讲清楚,excel,业务,分析,算法,驱动,数据
From: https://blog.51cto.com/u_15404184/5819229

相关文章

  • 驱动开发:内核封装TDI网络通信接口
    在上一篇文章《驱动开发:内核封装WSK网络通信接口》中,LyShark已经带大家看过了如何通过WSK接口实现套接字通信,但WSK实现的通信是内核与内核模块之间的,而如果需要内核与应用......
  • 驱动开发:内核封装WSK网络通信接口
    本章LyShark将带大家学习如何在内核中使用标准的Socket套接字通信接口,我们都知道Windows应用层下可直接调用WinSocket来实现网络通信,但在内核模式下应用层API接口无法使用,......
  • 基础驱动编写
    基础框架#include<linux/init.h>#include<linux/module.h>#include<linux/fs.h>#include<linux/cdev.h>#include<linux/slab.h>#include<linux/device.h>#include<......
  • DTSE Tech Talk | 第9期:EiPaaS驱动企业数字化转型
    摘要: 揭秘华为企业集成新模式。本期直播详解组装式概念解析EiPaaS的核心技术能力华为实践经验分享EiPaaS未来的技术趋势直播讲师:华为云PaaSDTSE布道师傅翌伟ti......
  • 【视频】CNN(卷积神经网络)模型以及R语言实现回归数据分析|附代码数据
    全文链接:http://tecdat.cn/?p=18149无人驾驶汽车最早可以追溯到1989年。神经网络已经存在很长时间了,那么近年来引发人工智能和深度学习热潮的原因是什么呢?(点击文末“阅读......
  • 界面组件DevExpress WPF v22.1 - 全新升级数据分析功能
    DevExpressWPF拥有120+个控件和库,将帮助您交付满足甚至超出企业需求的高性能业务应用程序。通过DevExpressWPF能创建有着强大互动功能的XAML基础应用程序,这些应用程序专......
  • R数据分析:扫盲贴,什么是多重插补
    好多同学跑来问,用spss的时候使用多重插补的数据集,怎么选怎么用?是不是简单的选一个做分析?今天写写这个问题。什么时候用多重插补首先回顾下三种缺失机制或者叫缺失类型:......
  • 驱动开发:内核层InlineHook挂钩函数
    在上一章《驱动开发:内核LDE64引擎计算汇编长度》中,LyShark教大家如何通过LDE64引擎实现计算反汇编指令长度,本章将在此基础之上实现内联函数挂钩,内核中的InlineHook函数挂钩......
  • 物联网数据分析(上篇)——业务系统架构类
    2021年,活跃的物联网设备超过100亿台。预计到2030年,活跃的物联网设备数量将超过254亿台。到2025年,每分钟将有152,200台物联网设备连接到互联网。到2025年,物联网......
  • pytest数据驱动 pandas
    pytest数据驱动pandas主要过程:用pandas读取excel里面的数据,然后进行百度查询,并断言 pf=pd.read_excel('data_py.xlsx',usecols=[1,2])print(pf.values)输出:[[......