第四章 数据炼金策略
一, 三大基本策略
1, 新算法策略
2, 多元化策略
3, 替代化策略
二, 策略与反应
1, 对于问卷调查过程中冷冰冰的问与答,被调查者能否提供真实的数据与信息,还是值得推敲的。尤其是被调查者的动机、情感和内在的一些想法,往往很难通过一系列的选择题和打分题来获取。
2, 市场研究已经不再是一个询问各种不同问题的机械模式,而是应该创建出一个持续对话的空间,从而解析并阐明其涵盖的内容,尤其是需要挖掘被调查者的情绪数据和信息,皆以分析被调查者的真实内在想法。事实上,真理和真相往往是在对话中被挖掘出来的。
3, 从某种意义上讲,传统的调查公司是询问者,而精于大数据分析技术的调查公司是倾听者,从询问者转为聆听者,体现了调查公司业务的转型,也是大数据时代的必然结果。
4, 很多抽样调查,样本量都不大,但是调查数据的质量却很高,能够很精确的推测出总体的基本特征,预测出整体的未来发展趋势。所以,面对大数据的攻势,调查数据并非一败涂地,而是往深度调查发展,在深度上做文章。
5, “盲点”数据被称为“离群值(Outlier)”,指的是在数据中有一个或几个数据与其他数值相比差异较大。对于调查数据而言,由于离群值往往代表着某种重要的信息,因此,就不能人为无视其存在而形成调查的盲区。
三, 策略与应用
1, 数据的有效性,是任何数据都不可回避的问题。数据不是越多越好,而是对现实中问题的解决越有效越好。数据多了,有时不仅对于解决问题于事无补,而且还会带来新的问题,造成新的困扰。
2, 当无效数据充斥社会时,就会产生误导效应,导致误判和决策失误,不利于社会发展。
3, “数据不会说假话,但是作假的人会编数据。”数据容易被操控,在一些人看来,可以让数据说出任何你想让它说明的意思。
4, 数据造假更加难以取证,具有更强的隐蔽性。
5, 数据质量问题也是大数据所面临的问题,甚至要比调查数据来的更为严重,因为大数据意味着垃圾数据的量很大。
6, 无论是大数据还是调查数据,都需要强调数据的全流程质量管控,建立起严格的质量控制标准。
7, 即便整个数据采集和分析系统是有效率的,但是,数据提供者的动机不纯,也会扰乱数据系统的运作,导致数据系统的失效。
8, 任何事物走入极端都会有问题。任何事物都有其局限性,数据也不例外。有了数据,可以进行量化分析,就能使决策有量化的依据。但是,过度依赖数据就可能产生负面效果。对于数据的吗盲目崇拜,也会产生错误的判断。
9, 事实上,能有数据测量的往往是表象和现象,而规律性的东西需要用大脑去思考。
10, 泛量化:把一切问题都数量化,都试图通过量化的方式分析和解决问题。这是量化思维的极端化,会产生错误。
1),泛量化的表现之一就是片面的量化。
2),泛量化的表现之二是臆断的量化
11, 要客观认识数据的重要性和角色,不能唯数据论,否则过犹不及,反而损害数据的权威性。
12, 决策本身具有科学性和艺术性,决策过程兼具理性与感性的双重特征。
第五章 数据炼金实践
一, 数据与决策
1, 高质量的决策需要的是能客观反应实际情况的数据。
2, 美国前总统克林顿曾说过,就理解和领会能力而言,头脑中塞满东西和头脑中空空如也同样糟糕。
3, 美国著名未来学家约翰·奈斯比特曾说:“我们正受信息淹没,但却渴求知识。”这形象地描绘出了现代人面对信息爆炸时困惑与尴尬,每天都能收到大量的数据信息,但是,有用的数据信息却不多。
4, 马克·格兰诺维特的调查表明:在现代社会中,弱关系往往发挥着举足轻重的作用。
二, 数据仪表板
1, 罗伯特·科普兰有句名言:“不能测量,哪能管理?”这句话强调的是数据对于管理的重要性。
三, 数据生态圈
(1) 数据共生
数据生态圈的第一个层次是共生,在大数据时代,无论是大数据还是所谓的小数据,以及各种各样不同来源的数据,彼此之间往往会存在互相依存和彼此验证的关系,彼此通过互相印证而实现彼此的价值,共同的目标就是为挖掘事物发展的规律提供支持。因此,所有这些数据有机地联合成一个整体,协同为用户、分析者、观察者、决策者以及社会各界数据使用者创造价值,实现数据生态圈的整体价值最大化。
(2) 数据互生
在共生之上,数据生态圈的组成部分还呈现出一种相互依赖的关系,每个组成部分的数据价值都与其他来源的数据价值以及数据生态圈整体的价值相关联。数据生态圈内部的各种数据源所创造的价值会在整个生态圈中进行分享,通过互相分享提升自身价值的同时,也提升了生态圈整体的价值。这是一种良性的循环,数据生态圈给不同数据源的数据提供一个平台,一种整合起来的价值,使生态圈中的数据价值大于单个对立分散的价值;同时,不同数据源的数据,通过互补,让数据生态圈整体的价值获得进一步提升。
要建设数据生态圈,有2中途径:
A, 从大数据出发,并逐渐整合调查数据,形成互相补充和共生的格局。
B, 从调查数据出发,系统地收集和汇聚各种调查数据,形成调查数据的规模效应,在此基础上,再整合包括图、文本等数据在内的大数据,最终形成数据源多样而丰富的生态圈。
(3) 数据重生
数据再生,是指通过重新整合不同数据生态圈的方式,将一些数据资源转移或整合到新的数据生态圈,建立哥哥好的数据合作框架和更健全的数据使用秩序,从而成功地实现数据地再利用,让数据在新的市场环境中发挥出更大的使用价值。
总之:为了提高数据对决策的支撑能力,需要构建数据生态圈,实现各种数据的平衡与互补,从而最大限度地发挥数据对现实社会决策的作用。
第六章 全数据时代的炼金配方
一, 突破“数据孤岛“
1, 在这个全数据时代中,各种各样不同来源的数据都能够互通有无,能够彼此互补,从而让人们生活和工作变得更加便捷和高效。要实现大数据向全数据的升级,就需要破除数据之间的门户之见,扫除各种‘‘数据孤岛”,让各种各样的数据能够真正实现彼此融合,不同来源的数据之间取长补短,进而共同提高人类对客观世界的认知和改造能力,在数据的支撑下,实现人与自然的和谐发展。这不仅仅是一种互相融合的数据观,更是一种彼此包容的世界观。
2, 综合性思维要求人们在思考一个系统时认识到尽管系统是由具有某种特质和行为特质的组分组成,但系统整体却具有任何组分所没有的特性。
分析可以揭示系统是如何工作的,而综合性思维却解释了系统为什么这样工作,解析思维和综合性思维的整合就是系统思维。
3, 林纳斯(linux创始人)定律:“足够多的眼睛就可以让所有问题浮现。”
二, 全数据模型
1,全数据,顾名思义就是全部数据或是全体样本数据。但是,全数据并非调查数据和大数据的简单加总,而是把所有不同来源的数据视为一个系统这一有机整体的组成部分,因此,无论是调查数据还是大数据,都不能割裂或分开来理解。
三, 全数据红利