假期难得有了闲暇时间,把前几年双十一囤的书挑选看完了四本。
首先选择看的是计算机科学家吴军老师的书《智能时代》(豆瓣评分 8.4分,豆瓣热门互联网图书 TOP 10),这是 2016 年谷歌 AlphaGo 战胜李世石之后出的一本书,我买回来2-3年了,一直没有抽出时间看。
自己也在大数据存储和检索领域摸爬滚打了几年,现在看这本书不仅不过时而且非常受用。
学生时代就读过吴军老师的《浪潮之巅》、《数学之美》,感触比较深的是,他能把非常深奥的数学、物理、计算机理论从历史发展、科学规律、中西结合等角度用通俗的语言讲解透彻。
近几年,也在得到APP上听过吴军老师付费专栏,专栏延续了他之前文章的风格,这本《智能时代》也不例外。
本来没有打算做读书笔记,因为很多道理需要很长的篇幅、读好几遍才能理解,远谈不上通透理解。
但,想到自己现在还能记住上学期间读《暗时间》等书中的警句(书随着学生时代的结束邮寄回老家再也没有打开),猜想多半和自己偶尔翻一翻自己写过的读书笔记有关系。所以,就有了这篇读书笔记。
PS:以下内容是我读书过程中划的我关注的重点,很多都是书里的原话或者原话的简化版本。
1、数据将成为下一次技术革命和社会变革的核心动力
使用数据的标准流程:获取数据 --> 分析数据 --> 建立模型 --> 预测未知。
2、数据驱动法
- 定义:只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型。
- 最大优势:得益于计算机技术的进步,随着时间的推移,摩尔定律保证了计算能力和数据量以一个指数级增长的速度递增,数据驱动方法可以非常准确。
- 定位:数据驱动方法是大数据的基础,也是智能革命的核心。
- 应用:如今在很多与“智能”有关的研究领域,比如图像识别和自然语言理解,如果所采用的方法无法利用数据量的优势,会被认为是落伍的。
3、大数据重要性
我们对大数据重要性的认识不应该停留在统计、改进产品和销售,或者提供决策的支持上,而应该看它(和摩尔定律、数学模型一起)导致了机器智能的产生。
而机器一旦产生和人类类似的智能,就将对人类社会产生重大的影响。毫不夸张地讲,决定今后 20 年经济发展的是大数据和由之而来的智能革命。
铭毅解读:大数据是未来智能革命的基础之一。
4、大数据思维的核心
在无法确定因果关系时,数据为我们提供了解决问题的新方法,数据中所包含的信息可以帮助我们消除不确定性,而数据之间的相关性在某种程度上可以取代原来的因果关系,帮助我们得到我们想知道的答案,这便是大数据思维的核心。
5、大数据的本质
大数据的科学基础是信息论,它的本质就是利用信息消除不确定性。虽然人类使用信息由来已久,但是到了大数据时代,量变引起质变,以至于人们忽然发现,采用信息论的思维方式可以让过去很多难题迎刃而解。
上图的数据的流向是从枝末的局部到整体,而当我们利用从大数据得到的规律指导商业行为和其他行为时,数据的流向则是从整体到局部。
6、大数据的特征
三个V,大量(Vast)、多维度(Variety)和及时性(Velocity)。
吴军老师认为最重要的是:多维度。
铭毅解读:大数据的特征互利网上的定义都扩展到了5V、6V甚至更多,但不可否认的是:3V 仍是核心。
7、大数据产生的必要条件
在全球企业商业每年不到 10%的增长率的情况下,数据量却能这么快的增长(2009 年 0.8 ZB 到 2020年 35 ZB),和以下四个条件的成熟有必要的关系。
7.1 数据产生
电脑数据、传感器数据、非数字化信息变数字化数据、移动互联网产生的数据。
7.2 数据存储
摩尔定律导致各种存储器的容量成倍增加,同时价格迅速下降,使得原来不得不丢弃的数据现在有条件存起来供使用。
7.3 数据传输
4G、5G的更迭、Wifi 全覆盖、蓝牙传输等。
7.4 数据处理
云计算兴起,通过互联网、廉价服务器以及比较成熟的并行计算工具,实现了大规模并行计算,大数据的处理才能为可能。
8、大数据和智能革命面临的挑战
8.1 数据收集挑战
- 第一:数据收集前没有前提和假设。
- 第二:避免了采样之苦,以全集作为样本集。
铭毅思考:大数据全面性是个伪命题,中小企业几乎不可能拿到全量数据的,或者拿也是拿到的某领域、行业授权的部分数据。大且全量的数据仅被少量寡头大企业占据,没有全量数据对中小企业开展大数据研究是一个严峻的考验!
8.2 数据存储挑战
数据增长的速度已远超摩尔定律增长的速度,不能简单的依靠更多地生产和购买设备来解决数据存储的问题,而是需要技术解决方案提高存储效率。
数据压缩(如:图存储变成向量存储)、如何确保数据不丢失、不损坏(冗余备份)、如何存储便于使用(建立索引)都是亟待考虑的问题。
8.3 数据表示挑战
对于世界上各种各样的大数据,无法用一个统一的格式来描述,但是大家需要一个标准的格式,以便相互交换数据和使用数据。
谷歌的:Protocol Buffer 数据格式供参考。
8.4 数据处理挑战
8.4.1 并行计算的挑战
MapReduce 编程模型和 Hadoop 等开源工具能把相当一部分大型计算任务拆解成若干个小任务在很多并行的服务器上运算,这确实给大数据处理带来了福音,但并没有完全解决计算瓶颈问题。
- 首先,任何一个问题总有一部分计算是无法并行的,这类计算占比越大,并行处理的效率越低。
- 其次,并行计算的时间是远远做不到和服务器数量成反比。事实上,使用的数据量越多,并行计算的效率越低。
8.4.2 实时性的挑战
要解决实时处理大数据的问题,就需要从根本上改变系统设计和算法,而不是增加机器那么简单。
8.5 数据挖掘挑战
在Goolge,至少有四成的工程师天天在处理数据,然后通过数据得到知识,通过知识使得计算机变得更智能。
- 原始数据没有固定格式,需要格式化清洗对数据进行过滤和整理。
- 数据七零八落的分布在不同的网页里,需要很好的自然语言理解技术对数据进行分析。
8.6 数据安全挑战
- 第一层含义:数据不损失、不丢失。
- 第二层含义:数据不会被偷走或调用。
9、现有产业+大数据=新产业
这是贯穿整本书的论点。
引申出:
- 现有产业 + 摩尔定律 = 新产业
- 现有产业 + 机器智能 = 新产业
- ......
每次技术革命都会诞生新的思维方式和商业模式,企业只有在思维上跟上新的时代,才能在未来的商业中立于不败之地。
10、争当 2%的人
在历次技术革命中,一个人、一家企业,甚至一个国家,可以选择的道路只有两条:要么进入前 2% 的行列,要么被淘汰。
抱怨是没有用的。至于当下怎么才能成为这 2%,其实很简单,就是踏上智能革命的浪潮。
在每一个重大的技术革命开始的时候,真正勇敢地投身到技术革命大潮中的毕竟是少数,受益者更少,大部分人则会犹豫和观望。
而正是大部分人的犹豫和徘徊,给了 2% 的人以机会,使得愿意吃螃蟹的人在奋斗的道路上少了很多竞争对手。
小结
日本畅销书作家奥野宣之在《如何有效阅读一本书》中提到“做好读书笔记能让读书生活更加充实,还能提高找书、读书和活用的水平,让读书生活更加愉快。写读书笔记可以改变读书方法,而读书方法的改变又会带来思考方式的改变”。
是的,自己关注大数据领域多年,但至于为什么从事大数据领域?是进入了这个行业所迫还是看好其未来无限的发展前景,自己也说不清楚。
但,这本书给出了相对清晰的答案。别纠结和抱怨了,大数据催生的未来无限的发展前景更加迷人,因此,要成为未来 2% 的人更为重要。
用吴军老师书中的话做结束吧。“在今后,任何一个能够提供某些大数据关键技术的公司和个人,在未来的智能革命中,都将有大展宏图的机会。”
中国最大的 Elastic 非官方公众号