博主已通过CDA数据分析师一级考试,下面是来自红色封皮官方教材中必须要掌握的知识点(个人认为)。
最好记住每一个概念都是什么意思,每个分类大类下面都包含哪些小类,尤其是分辨每种图表的用途,每个分析方法的适用场景,真题考了好几个。
1、表格结构的数据类型:数值、文本、逻辑
2、BI流程:ETL、DW、OLAP、可视化
3、5种基本汇总规则:合计、计数、平均、最大值、最小值。
4、数据挖掘:描述性分析、预测分析。
5、float默认( 10,2 ) 最多10位数字,其中两位小数,decimal 默认 (10 , 0),最多10位数字,其中0位小数。
6、where字句在分组聚合前执行,所以不能引用聚合函数作为筛选条件,但是having子句是在分组聚合后执行的,因此可以。
7、分类<顺序<数值,分析方法向上兼容,低级的高级可用,但是高级的低级不能用。
8、关于集中趋势
- 分类数据:众数
- 顺序数据:分位数
- 数值数据:各种平均数(大算几调,大蒜几条)
9、关于集中趋势
- 分类:异众比率(异众比率越大,众数的代表性越差)
- 顺序:极差(越大,数据越分散,但是误差大),四分位差(越大说明中间50%的数据越分散)。
- 数值:平均差(越大越分散)、方差标准差、离散系数(标准差/算数平均数 ,越大越分散)
10、关于分布形态
- 偏态
- 峰态
11、描述性统计图
- 频数分布表
- 统计图:饼图(结构)、条形图(对比)、直方图(数据分布形态)、箱线图(数据分布特征)、线图(时间变化)、散点图(变量相关关系)
- 箱线图的中位数可以看出数据分散情况:箱体代表中间50%的数据,如果这部分很长说明整体分散;当中位数更接近箱体的下限值,且上须更长时,它就是一个右偏分布,总之中位线靠近的一侧下方的数据更加集中。
- 将箱型图逆时针旋转90°,此时中位数靠左(数轴负数方向)就是左偏,呈负偏态;中位数靠右(数轴正数方向)就是右偏,呈正偏态。距离中位数远的那一侧数据更分散。
12、统计表的标题在上面,称为表头;统计图的标题在下面。
13、正态分布方差越大,图形越扁平,数据越分散。
14、关系:函数、相关、没有关系。如果r绝对值是1,只能说完全相关,不能说有函数关系。函数关系是先有了关系才有样本数据,完全相关是先有数据才有关系。x和y互换位置不影响相关关系,而且不能说明是x引起y的变化还是y引起x的变化。
15、5W2H思维模式是在多维数据分析中用到的,要解决数据收集问题,把业务线索落实到具体数据。
16、通用指标:求和、计数、比较
17、求和:常规、累计(针对有前后逻辑顺序的维度)
18、计数:常规(非空)、非重复
19、比较:
- 均比:差异值和差异百分比,前者更具体但是不直观,后者反之。
- 基准比:基准值是被大多数群体认可的数,比如及格60分。
- 标准比:标准值是标准维度项的汇总值,是衡量各个不同维度行为结果好坏程度的,成为标准的维度项应该有发挥稳定的特点。
- 目标比:为不同维度设置,通常用于销售。
- 同环比:没有明确说明的上期间隔为一个月,用于长周期。
20、场景指标:4个
- 客户分析类指标:
- 客户生命周期:新增,留存和流失。
- 客户行为:浏览量、访问数等
- 客户价值:收入指标和成本指标
- 产品分析类指标:进销存的金额和周转(进货、存货、销售)
- 存货周转:如果判断偿债,分子是收入;判断存货管理水平,分子是成本。
- 毛利额:售价-进价;售价-进价-人工
- 毛利率:毛利额/销售额,毛利率一般但是需求高的赚流量,毛利率高但是需求少的赚利润。
- 业务行为分析类指标
- 营销行为相关:客户拜访次数、接通率、回访次数等
- 效果分析类指标
- 量化资产使用效率:资产周转率,主营业务收入或者成本/资产平均余额,不包含存货类资产。
- 投入产出比,坪效,员工绩效,销售目标完成率、连带率(单位时间,销售数量/成交单数,用来衡量员工的销售推荐能力)、客户满意度。
21、指标体系:搭建、收集、计算、分析
- 树状指标体系:用树状分类法,
- 根据指标依附的不同维度层级关系进行指标拆解(比如按分公司销售额之和=总公司)
- 根据各指标逻辑意义上的层级关系拆解(比如不同部门对销售额的贡献指标不同,销售部考核总成交率,市场部考核新客户数这样拆解)
- 根据指标所量化的业务行为间的层级关系搭建(按各部门收入拆解,用实际量化值来考虑)
22、业务模型分析
- 分类模型
- 用户贡献价值模型:购买频次和客单价,分为高中低,频次和客单价有一个低的就是中价值人群。
- RFM模型:作用主要是了解用户的留存流失情况,以便于对不同用户开展营销,分为8类用户;
- 用户忠诚度模型:消费金额和消费次数
- 产品分类模型
- 波士顿矩形:市场占有率和销售增长率,四象限分析法。
- 漏斗模型(把一个完整的事分成多个递进关系的不同阶段)
- 需要在漏斗模型加入时间轴才能体现流速情况。一般用商机在同一个阶段的停留时间代表流速。
- 斜率越大,流失越多,说明相邻两个阶段出问题了。一般用商机转化率代表斜率。
- AARRR模型,用户运营行为漏斗模型:
23、业务分析方法论
- 帕累托分析
- AB测试,客观反应不同方案的可行性,分两组人用A、B两个方案(也可能是ABCD多个方案),观察效果。
- 同期群分析:针对客户行为的分析,把客户分为不同的同期群组。同期群指的是相同时间段内具有相同特征属性的客户群组。
- 因果分析法:通过指标之间的相互作用定位业务问题,通常要用树状指标体系,上层是果,下层是因。
24、树状图也是比较类的图,类似词云图的作用。染色地图、热力地图、散点地图(气泡图)是比较类
25、雷达图的顶点数控制在8个以内。
26、横坐标如果是有间隔的时间段,柱形图也可能作为序列图,而代替折线图。
27、构成类:瀑布图、饼图环形图。
28、描述性统计图表:直方图、箱线图、散点图。
29、常见的报表布局:总分上下,因果左右。
30、业务分析报告:WORD和PPT。
31、DATEDIF函数
32、在WPS中,确实存在 COUNTA
函数,它用于计算参数列表中非空的单元格个数。COUNTA
函数可以计算单元格区域或数组中包含数据的单元格个数,包括文本、数值、逻辑值、错误值等,但不包括空白单元格。
33、MID
函数从字符串的指定位置开始提取指定长度的文本。
MID(text, start_num, num_chars)
- text:要操作的字符串。
- start_num:提取开始的位置(从 1 开始计数)。
- num_chars:要提取的字符个数。
假设单元格 A1
中的内容为 Excel123
,公式:=MID(A1, 6, 3),从第六个字符开始提取3个字符。
祝大家都能一次通过!
标签:分析,知识点,CDA,10,必备,指标,维度,数据,模型 From: https://blog.csdn.net/weixin_45556024/article/details/145082123