什么是数据分析?怎么样才是数据分析的思维?数据分析的流程有哪些?常用的数据方法又有哪些?工具呢?可以学习的网站有哪些?我觉得《谁说菜鸟不会数据分析(入门篇)》讲的很清楚,能够基本解决你想要了解的有关数据分析的基础知识,当然,如果你没有太多时间去详细完整地看完整本书,那以下内容会对你有比较大的帮助。这是我学习过程中的学习笔记,也是这本书知识点的概括和总结,希望对你有所帮助。
一 数据分析那些事儿
1、什么是数据分析?
数据分析指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。
2、分类和作用
探索性数据分析侧重于发现新的特征,验证性数据分析侧重于验证已有假设。
3、数据分析6步曲
数据收集:数据库、公开出版物、互联网、市场调查
数据处理:数据清洗、数据转化、数据提取、数据计算
注:数据挖掘是高级的数据分析,侧重解决:分类、聚类、关联、预测,重点在寻找模式和规律。
撰写报告:结论、建议或解决方案
3、常用指标和术语
- 平均数
- 绝对数:5000人、300元、50家
- 相对数:20%、6倍、7成、1:5、3‰、120元/人
- 百分比
- 百分点:1个百分点=1%,是指变动的幅度
- 频数:绝对数,是一组数据中个别数据重复出现的次数
- 频率:相对数,次数与总次数的比,反应一个整体中各部分之间的关系。
- 比例:相对数,总体中各部分占全部的比,如:男生的比例是30:50(男生:男生+女生)
- 比率:相对数,不同类别的比,如男女比率:3:2(男生:女生)
- 倍数:相对数,一个数除以另一个数所得的商,如A/B=C,那么A是B的C倍。
- 番数:相对数,指原来数量的2的N次方,如翻一番,意思是原来数量的2倍,翻两番意思是4倍
- 同比:相对数,指历史同时期进行比较,如去年12月与今年12月相比是同比,反应相对发展情况
- 环比:相对数,指与前一个统计期进行比较,如今年5月与今年4月相比是环比,反应逐期发展情况
二 确定分析思路
1、数据分析方法论
数据分析方法论用来宏观地指导数据分析,更多的是指数据分析思路。
2、常用的数据分析方法论
营销方面的理论模型:4P、用户使用行为、STP理论、SWOT等
管理方面的理论模型:PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等
1)PEST分析法:用于宏观环境的分析。【PEST主要用于行业分析】
- 政治Political:政治体制、经济体制、财政政策、税收政策、产业政策、投资政策、国防开支等等
- 经济Economic:收入水平、消费偏好、就业情况、储蓄情况等等
- 技术Technological:新技术的发明和发展、技术更新速度、传播速度、专利情况等等
- 社会Social:受教育程度、文化水平、宗教信仰、风俗习惯、审美观点、价值观等等
2)5W2H分析方法【5W2H可用于用户行为分析、业务问题等等】
3)逻辑树分析法:将问题的所有子问题分层罗列,逐步向下扩展【逻辑树可用于业务问题专题分析】
作用:理清思路、避免重复和无关的思考
原则:要素化:相同问题归纳为要素
框架化:各个要素构成框架,遵守不重不漏原则
关联化:保持必要的相互关系
4)4P营销理论【4P主要用于公司整体经营情况分析】
- 产品Product:满足需求的东西
- 价格Price:购买产品的价格,关系到企业利润、成本补偿、产品销售促销等。影响定价的三要素:需求、成本、竞争。
- 渠道Place:产品从生产到用户的流转环节。
- 促销Promotion:刺激用户消费,促进消费增长。促销的四大要素:广告、宣传推广、人员推销、销售促进。
5)、用户行为理论【用户行为理论用户用户行为研究分析】
有使用行为轨迹:认知——熟悉——试用——使用——忠诚
网站分析指标体系:
三、数据准备
- 字段与记录
- 数据类型:字符型数据、数值型数据
1、二维数据-----转->一维数据
2、文本数据导入EXCEL:数据---自文本/自网站
3、问卷录入要求:数值题、单选题、多选题(二分法、多重分类法)、排序题、开放性文字题
四、数据处理(EXCEL)
Step 1、数据清洗:删除多余重复的数据,补齐缺失数据,纠正或删除错误数据。
- 重复数据的处理:函数法countif、条件格式、高级筛选、透视表、删除重复值、
- 缺失值的处理:定位输入、查找替换、条件格式(可以接受缺失值在10%以下)
定位输入(Ctrl+G)
1)使用样本统计量的值(常用:平均值)代替缺失值
2)用统计模型(回归模型、判别模型)计算出来的值去替代缺失值
3)删除缺失记录
4)保留,但在分析时排除
注:CTRL+ENTER 批修改值
- 检查数据逻辑错误
1)IF函数:IF(COUNTIF(B3:H3,"<>0")>3,“错误”,“正确”) 如果录入的选项(非0的数据)超过3个,则单元格显示“错误”,否则,显示“正确”。
2)条件格式 OR AND
eg:=OR(B3=1,B3=0)=FALSE 如果“B3为1或0”的命题是错误的(=FALSE),则会被条件格式突出标记出来。
Step 2、数据加工
1)数据抽取
- 字段分列:菜单法(特定分隔符时方便)、LEFT/RIGHT函数
- 字段合并:CONCATENAT、&
- 字段匹配:VLOOKUP
2)数据计算:
- 简单计算:加减乘除等
- 函数计算:平均值、求和、日期的加减法
3)数据分组 :VLOOKUP
4)数据转换:行列转换、数据转换、多选题录入方式转换
5)数据抽样:RAND
五、数据分析
1、数据分析方法
(1)对比分析
- 定义:是指两个或两个以上的数据进行比较,分析它们的差异,从而揭示这些数据所代表的事物发展变化情况和规律性
- 特点:可以直观看出事物某方面的变化或差距,且可准确、量化地表示出这种变化或差距是多少。
- 分类:静态比较是在同一时间条件下对不同总体指标的比较,如不同部门、不同地区、不同国家的比较,横向比较,简称横比。动态比较是在同一总体条件下对不同时期指标数值的比较,纵向比较,简称纵比。
- 目标对比、不同时期对比、同级部门、单位、地区对比、行业内对比
注意事项
- 指标的口径范围、计算方法、计量单位必须一致,即要用同一种单位或标准去衡量
- 对比的对象要有可比性。对比对象之间相似之处越多,越具有可比性,
- 对比的指标类型必须一致。
(2)分组分析法
- 是根据数据分析对象的特征,按照一定的标志(指标),把数据分析对象划分为不同的部分和类型进行研究,以揭示其内在的联系和规律性。
- 分组的目的在于便于对比,把总体中具有不同性质的对象区分开,把性质相同的对象合并在一起,保持各组内对象属性的一致性、组与组之间属性的差异性。以便进一步运用各种数据分析方法来解构内在的数量关系,分组法必须与对比法结合使用。
- 关键在于确定组数与组距。在数据分组中,各组之间的取值界限称为组限。
(3)结构分析法
- 是指被分析总体内的各部分与总体之间进行对比的分析方法,即总体内各部分占总体的比例,属于相对指标。一般某部分比例越大,说明其重要程度越高,对总体的影响越大。市场占有率是分析企业在行业中竞争状况的重要指标,是衡量企业运营状况的综合经济指标。市场占有率高,表明企业运营状况好,竞争力强,在市场上占据有利地位。
(4)平均分析法
- 运用计算平均数的方法反映总体在一定时间、地点条件下某一数量特征的一般水平。平均指标可用于同一现象在不同地区、不同部门或单位间的对比,还可用于同一现象在不同时间的对比。
- 作用:利用平均指标对比同类现象在不同地区、不同行业、不同类型单位等之间的差异程度,比利用总量指标对比具有说服力。 利用平均指标对比某些在不同历史时期的变化,说明其发展趋势和规律。
- 特点:将总体内各单位的数量差异抽象化,只能代表总体的一般水平,掩盖了在平均数后各单位的差异。
(5)交叉分析法
- 通常用于分析两个变量(字段)之间的关系,即同时将两个有一定联系的变量及其值交叉排列在一张表格内,使变量值成为不同变量的交叉结点,形成交叉表,从而分析交叉表中变量之间的关系。交叉表有二维以上的,维数越多,交叉表越复杂。
(6)综合评价分析法
- 运用多个指标对多个参评单位进行评价的方法,称为多变量综合评价分析法。
- 基本思想是将多个指标转化为一个能够反映综合情况的指标来进行分析评价
- 数据标准化是将数据按比例缩放,使之落入一个小的特定区间。在比较和评价某些指标时,经常会用到数据的标准化,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够比较和加权。0-1标准化和Z标准化。0-1标准化又叫离差标准化,就是对原始数据作线性变换,使结果落在[0,1]之间。标准化值=(原始值-最小值)/(最大值-最小值),不足,当有新数据加入时,可能会导致最大值和最小值发生变化,需要重新计算
- 权重确定方法:专家访谈法、德尔菲法、层次分析法、主成分分析法、因子分析法、回归分析法、目标矩阵优化法
(7)杜邦分析法
- 又称杜邦财务分析体系,是利用各主要财务指标间的内在联系,对企业财务状况及经济效益进行综合分析评价的方法。
- 该体系以净资产收益率为龙头,以总资产收益率和权益系数为核心,重点揭示企业盈利能力及权益成数对净资产收益率的影响,以及各相关指标间的相互影响关系,为各级管理者优化经营理财状况、提高公司经营效益提供思路。提高总资产收益率的根本在于扩大销售、节约成本、优化投资配置、加速资金周转、优化资金结构、确定风险意识等
- 特点:将若干个用以评价企业经营效率和财务状况的比率按其内在联系有机地结合起来,形成一个完整的指标体系,并最终通过权益收益率来总和反映。采用金字塔结构,使财务比率分析的层次更清晰、条例更突出,简洁明了地表达了各财务指标之间的关系。
(8)漏斗图分析法
- 是一个适合业务流程比较规范、周期比较长、各流程环节涉及复杂业务过程比较多的管理分析工具。在业务流程中使用漏斗图是因为漏斗图是对业务流程最直观的一种表现形式,且最能说明问题所在。通过漏斗图可很快发现业务流程中存在问题的环节。
(9)矩阵关联分析法
- 是根据事物(如产品、服务等)的两个重要属性(指标)作为分析的依据,进行分类的关联分析,找出解决问题的一种分析方法,也称象限图分析法。
- 矩阵关联分析法在解决问题和资源分配时,为决策者提供重要参考依据。先解决主要矛盾,再解决次要矛盾,利于提高工作效率,将资源分配到最能产生绩效的部门、工作中,利于决策者进行资源优化配置。
- 发展矩阵
- 难易矩阵:目标优化矩阵(权重)——>专家访谈——>综合评价分析
- 举一反三:林氏矩阵 原有矩阵无法体现企业产品的真正贡献;在原有矩阵中加利润维度,衡量产品,找出对公司的贡献大的产品、成长中的产品和需淘汰的产品,优化公司产品结构和明确以后的工作方向。
综合分析的5个步骤:
数据标准化:0-1标准化、Z标准化
权重确定方法:专家访谈法、德尔菲法、层次分析法、主成分分析法、因子分析法、回归分析法、目标优化矩阵表等
2、高级数据分析方法
3、数据透视表
- 百分比计算
- 环比、同比计算
- 数据分组计算
六、数据展现
1、通过关系选择图表:表达形象化、突出重点体现专业化
- 成分:饼图、百分比堆积柱形图、百分比堆积条形图、瀑布图
- 排序:柱形图、条形图、气泡图、帕累托图
- 时间序列:折线图、柱形图、、面积图
- 频率分布:柱形图、条形图、折线图
- 相关性:柱形图、对称条形图(旋风图)、散点图、气泡图
- 多重数据比较:雷达图
2、表格:
- 突出显示单元格
- 数据条
- 图标集
- 迷你图
3、其他好看的图:
- 平均线图
- 双坐标图
- 竖形折线图
- 人口金字塔图
- 漏斗图
- 矩阵图、发展矩阵图
- 瀑布图:用于财务分析,表示企业成本的构成、变化等
- 帕累托图:又叫排列图、主次图,按照发生频次的高低绘制的直方图
- 旋风图:对称条形图,可用于活动/行为前后的指标变化,具有因果关系指标之间的变化和联系
七、图表规范化
1、图表元素:标题、图例、单位、脚注、资料来源
2、注意事项:
- 饼图:从12点钟开始、数据保持在5项以内(定位理论)、不要使用饼图分离、不需要图例、不要3D效果
- 复合饼图/复合条形图:当元素大于5项时
- 柱形图:同一数据序列使用相同的颜色、不要使用倾斜的标签(太长可用条形图代替、纵坐标轴一般从0开始(若添加数据标签纵坐标可删除)、最好添加数据标签、刻度线和网格线多余、可以设置为Arial字体
- 条形图:同柱形图(由大到小排列)
- 折线图:线条不要超过5条、不要使用倾斜标签、纵坐标轴一般从0开始、刻度线和网格线多余、预测值用虚线表示
注:图表会撒谎
(1)虚张声势的增长----刻度调整
(2)3D效果的伪装----简约不用3D效果
(3)逆序排列的误导
(4)一维图形的障眼法
3、图表美化:简约、整洁、对比
1)最大化数据墨水比:图表中每一滴墨水都要有存在的理由【用在数据元素上(曲线、条形、扇形等),不要用在非数据元素(坐标轴、填充色、网格线等和原始数据无关的元素)】
去掉不必要的背景填充色、去掉无意义的颜色分类、去掉装饰性的渐变色、去掉网格线、边框、删掉不必要的图例、去掉不必要的坐标轴、去掉装饰性图片、以上不能去掉的元素尽量淡化、对需要强调的数据元素进行突出标识
2)、找出隐形的线
3)、图表喜欢的数字格式:Arial字体
4)、突出对比:直线、箭头、阴影等【了解基础配色】
八、数据分析报告
1、数据分析报告的作用:
- 展示分析结果
- 验证分析质量
- 提供决策参考
2、数据分析报告的种类
- 专题分析报告:单一性、深入性:切忌蜻蜓点水,泛泛而谈
- 综合分析报告:全面性、联系性:从宏观角度反映指标之间关系
- 日常数据通报:进度性、规范性、时效性
3、数据分析报告的结构
- 标题:解释基本观点、概况主要内容、交代分析主题、提出问题
- 目录
- 前言:背景分析、目的、思路
- 正文:
- 结论与建议
数据分析误区:
- 分析目的不明确,为分析而分析;
- 缺乏业务知识,分析结果偏离实际;
- 一味追求使用高级分析方法,热衷研究模型;
附录:
思维导图
标签:数据分析,分析,指标,菜鸟,分析法,入门篇,数据,对比 From: https://blog.51cto.com/u_12667998/6724850