首页 > 其他分享 >什么是好的数据分析?化繁为简的力量

什么是好的数据分析?化繁为简的力量

时间:2022-12-30 10:35:46浏览次数:59  
标签:数据分析 力量 100% 世界 离散 VS 连续 数据 化繁为简

什么是好的数据分析?化繁为简的力量_数据

编 辑:彭文华


彭友们好,我是你的老彭友。今天在群里看到一个表,真的是太棒了!拿出来分享给大家:

什么是好的数据分析?化繁为简的力量_二项分布_02

有些时候,想说明一个真理,浪费口舌说那么多都没用,看这个表格就一目了然了。

其实这张图也是我一直说的,数据说话的典型。很可惜,我没找到这个表的来源,要不我得好好感谢感谢作者。

什么是好的数据分析?化繁为简的力量_数据_03

连续与离散

其实数据分析的奥义都在上面那个表里展现的淋漓尽致了。甚至把数据的奥义都展现清楚了。

在《华为数据之道》里有一张图我特别喜欢,就是这个:

什么是好的数据分析?化繁为简的力量_二项分布_04

现实世界通过IT系统,以业务过程和业务结果数据的形态,映射成了一个数字世界。

现实世界是连续的,我们把业务过程数据和业务结果数据进行量化后,其结果就必然也是连续的。

对了,这里需要给一下连续和离散的定义:

离散变量是指变量值可以按一定顺序一一列举,其数值是在一定区间内是固定的;

连续变量是指在一定区间内可以任意取值的变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。

连续的现实世界量化之后,理解起来比较费劲。不像现实世界,可以用“手感”、“肌肉记忆”、“唯手熟尔”等说不清道不明的方法搞定高难度的事情。

在数据世界,一切都得量化才可以。在现实世界100%投篮命中,可以长期练习。

但是想要用数据思维实现100%投篮命中,那不要太简单了。只需要计算合适的角度,用合适的力量投掷就行。机器人投篮大赛基本上都是100%命中。

也有脑洞特别清秀的,比如Shane Wighton的程序员大佬,做了一个100%命中的篮筐。。。

什么是好的数据分析?化繁为简的力量_二项分布_05

你无论从哪个位置投篮都能准确地掉进篮筐里。

但是我们的生理结构决定人脑天生会偷懒,CPU高速运转可不是什么好事。所以,我们看到连续的数据第一反应就是怎么把他们分开。

理解一个有限的、离散结果集,比理解一个无限的、连续的数据集要容易的多。而且最好是足够离散,足够有限,最好是就只有两个选择。比如:

这个人是好人 VS 这个人是坏人;

这个东西好吃 VS 这个东西难吃;

爱我 VS 不爱我;

开车比我快的都是SB VS 开车比我慢的都是菜鸟。

这就是为什么最容易火的事情通常都是挑起双方矛盾的话题,因为最容易理解,也方便别人站队。

一旦某件事情出现反转,或者反反转,讨论起来就很费劲,话题自然就延续不下去了。

什么是好的数据分析?化繁为简的力量_数据_06

对数据分析的启示


讨论这些有什么用呢?

很简单,这些有用,有大用!经济学家、社会学家一直都在寻找类似的有足够区分度的样本集。一边是好的,一边是坏的。这样结论就非常非常明显了。

我们再来看看这张表:

什么是好的数据分析?化繁为简的力量_二项分布_02

脑洞太清秀了有没有?

研究一个病的治愈效果,在社会群体一般怎么做?双盲测试、安慰剂实验呗。

但是这个分析的脑洞就很惊奇了。他把高血压、糖尿病两种病的分析人群选在了服刑人群和社会人群之间做比较。

服刑人群最大的特点是什么?极度的规律和可控性。

社会人群则反之,按时服药简直是要了命了。我感觉我自己从来没有严格遵医嘱吃过药。不是忘吃了,就是间隔时间太长(短)了什么是好的数据分析?化繁为简的力量_数据分析_08

什么是好的数据分析?化繁为简的力量_二项分布_09

这个人群选的,简直是神来之笔。至于数据,那都是统计之后的结果,不要太简单了。

我之前看过一个二战小故事,差点没把我笑死。说的是一个小岛上有土著居民,没见过高科技。美国大兵在小岛上建了军事基地,运了一队兵在那边。

土著人觉得很奇怪:这帮人天天就在那里跑来跑去,也没见出去打猎,为什么会有大鸟过来给他们投放食物?

等美国大兵撤走了之后,这帮土著人也不打猎去了,天天在机场跑操,期待神明派神鸟(飞机)赐予他们食物。

我只是把这个当笑话看。但是社会学家就像是找到了宝贝一样,因为这个可以用来区分“神创世”和“人创神”两种论调。而且这个区分度太大了好么?

什么是好的数据分析?化繁为简的力量_数据_10

数据重要还是思路重要


好,到这里,基本上就能解答这个问题了:“数据分析,到底是数据重要,还是分析思路重要”?

数据当然重要。数据是现实世界投射到数字世界的形式。但是,数据何其多也!

现实世界是连续的,投射过去的数据也是连续的,人脑理解起来太费劲了!

想要得到广泛的认同,就必须降维,把连续变成离散,区分度越高越好,离散的值越少越好,最好就是二项分布,是/否,好/坏,讨厌/喜欢,爱/恨。

不要什么中间态,不要什么模棱两可,不要什么不置可否,这些都是影响快速判断的搅屎棍!

所以你明白为什么我发言总不太受欢迎了吧?因为我发表言论的时候总喜欢是喜欢找第三选项。我觉二项分布不是世界本来的样子,世界应该是连续的,而不是离散的。

可是,我忘记了让人接受第三选项有多难...

​​

什么是好的数据分析?化繁为简的力量_数据分析_11

排版 | 老彭

审校  主编 | 老彭


标签:数据分析,力量,100%,世界,离散,VS,连续,数据,化繁为简
From: https://blog.51cto.com/u_13626906/5979182

相关文章

  • Python实现房产数据分析与可视化 数据分析 实战
    Python库的选择话说,工欲善其事,必先利其器,虽然我们已经选择Python来完成剩余的工作,但是我们需要考虑具体选择使用Pytho的哪些利器来帮助我们更快更好地完成剩余的工作。我们......
  • 金之道:眼界的力量
    金之道:眼界的力量    社会底层人,靠自己时间和能力赚钱;因为时间和能力有限,所以此类人赚钱有限。 社会中层人,靠倒卖“资产(房等)”赚钱;模式可复制能实现规......
  • 数据分析:5个数据相关性指标
    1.介绍相似性度量是许多数据分析和机器学习任务中的重要工具,使我们能够比较和评估不同数据片段之间的相似性。有许多不同的指标可用,每个指标各有利弊,适用于不同的数据类......
  • 【爬虫+数据分析+数据可视化】python数据分析全流程《2021胡润百富榜》榜单数据!
    目录一、爬虫1.1爬取目标1.2分析页面1.3爬虫代码1.4结果数据二、数据分析2.1导入库2.2数据概况2.3可视化分析2.3.1财富分布2.3.2年龄分布2.3.3公司总部分布2.3.4......
  • 华为云发布CodeArts Req需求管理工具,让需求管理化繁为简
    近期,华为云正式发布CodeArtsReq,这是一款自主研发的软件研发管理与团队协作工具,凝结了华为30多年软件研发的先进理念与丰富实践,具有强大的组织协作能力,旨在助力企业大规模研......
  • 3D数字化展示文物,用科技力量传达历史文化
    互联网技术的高速发展和数字化时代的到来促使信息传播方式改变、用户文化需求多样化,博物馆在传播文化方面倍感压力,在这样的背景下,博物馆展览急需运用数字化手段来设计布展,......
  • 数据分析师成长体系漫谈 - 数仓模型设计
    备注: 本文是前阿里巴巴数据分析专家-张腾在infoQ账号 analysis-lion序看到标题,可能很多小伙伴都会疑惑,为什么笔者把数仓模型设计也纳入了数据分析师的成长体系之中,因为可......
  • 数据分析师成长体系漫谈 -- 数据埋点
    备​ 本文是前阿里巴巴数据分析专家-张腾在infoQ账号 analysis-lion序说起数据埋点,对于大多数的数据分析师来说并不陌生,并且可能在很多人的认知中,埋点的工作是由产品经......
  • 数据分析 - 公司财务指标分析(以宁德时代为例)
    一、选题的背景 财务报表能够全面反映企业的财务状况、经营成果和现金流量情况,但是单纯丛财务报表上的数据还不能直接或全面说明企业的财务状况,特别是不能说明企业经营状......
  • 如何学习数据分析,分享我的一些心得
    大家好,我是梦想家Alex~相信大家基本都来自于数据领域的各个方向,对学习数据分析呢都多多少少有自己的一些心得!这几年,“数据分析”是很火啊,在这个数据驱动一切的时代,数据挖......