首页 > 其他分享 >《全数据时代的炼金师》读书笔记(一)

《全数据时代的炼金师》读书笔记(一)

时间:2023-04-16 22:35:17浏览次数:58  
标签:Ps 时代 规律 炼金 读书笔记 调查 数据挖掘 胡焕庸 数据


读书笔记——《全数据时代的炼金师》顾家峰著 ,1~3章

  • 第一章   大数据的冲击
  • 一   数据的起源于发展
  1. 数据的3条特征
  1. 收集和分析数据是为了解决问题
  2. 调查与统计是基础
  3. 数据分析与挖掘的目的是价值发现

  

  1. 从古至今,数据的核心价值是不变的——最终目标就是要从数据中发现价值,找出事物发展的规律(即说明事物之间的关系)。
  2. 霍尔瑞斯机——首次使用穿孔卡技术的数据处理机器。
  3. 数据挖掘(Data mining)的核心就是通过现象看本质,通过分类、统计、算法、建模、专家判断等方法从大数据中找出规律或有价值的信息。

 

  • 二   科技的力量
  1. 二进制的发现,归功于17世纪著名哲学家、数学家莱布尼兹,于1679年写了题为《二进算术》论文,对二进制进行了充分的讨论,并建立了二进制的表示和运算。“从虚无创造万有,用一就够了”

Ps:至于莱布尼兹是否是受到了《易经》的启发而发现二进制,李约瑟曾评价:“《易经》的八卦中无意识巧合碰上的东西,被莱布尼兹有意识地发现了。”

  1.  “关系数据库之父”——埃德加·考特
  2. 在泛大数据化的当下,会产生一种大数据误区,认为大数据能解决一切问题,从大数据中能挖出想要的任何信息和规律。但其实,无论大数据还是调查数据,包含的信息都是有限的。在进行数据挖掘时,要实事求是地分析和获取数据代表的意思,而不能主观地把一些规律强加给数据。
  • 三   大变革的时代

1,“大数据时代的预言家”——维克托·迈尔-舍恩伯格认为,大数据时代来临之际,人类会出现一些新的思维方式逐步替代旧思维方式,关注更多的不再是随机样本,而是全体数据;更注重的不是精确性,而是混杂性;眼光停留的不应是因果关系,而是相关关系。

  2,著名统计学家C.R.劳有句名言:“在终极的分析中,一切知识都是历史;在抽象的意义下,一切科学都是数学;在理性的世界里,所有的判断都是统计学。”

  1. 大数据正走向“平民化”。

这能比较好的解决博弈论(game theory)中由于信息不对称导致的”囚徒困境”。

 

Ps:囚徒困境(Prisoner'sDilemma)是博弈论非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。或者说在一个群体中,个人做出理性选择却往往导致集体的非理性。

 

  • 第二章  调查与数据
  • 一   人口的学问
  1. 瑞典在1749年开始了人口普查,成为世界上第一个定期开展人口调查的国家。
  2. 从某种意义上讲,发展问题归根到底还是人口问题,与一个社会的人口规模、结构、质量有直接的关系,而要掌握这些关键性的信息,就需要开展包括人口普查在内的各种人口调查活动,获得关于人口的第一手数据。
  3. “胡焕庸线”——胡焕庸线(Hu Line,或Heihe-Tengchong Line,或Aihui-Tengchong Line),即中国地理学家胡焕庸(1901-1998)在1935年提出的划分我国人口密度的对比线,最初称“瑷珲—腾冲一线”,后因地名变迁,先后改称“爱辉—腾冲一线”、“黑河—腾冲一线”。 以平原、水网、丘陵、喀斯特和丹霞地貌为主要地理结构,自古以农耕为经济基础;线西北方人口密度极低,是草原、沙漠和雪域高原的世界,自古游牧民族的天下。因而划出两个迥然不同自然和人文地域。“胡焕庸线”在某种程度上也成为城镇化水平的分割线。这条线的东南各省区市,绝大多数城镇化水平高于全国平均水平;而这条线的西北各省区,绝大多数低于全国平均水平。(-----百度百科)

胡焕庸线的发现,不仅仅体现了人口调查数据的作用,还体现了数据挖掘的作用。

 

  • 二   学术与调查
  1. 美国著名教育社会学家伯顿·克拉克在研究高等教育时发现,高等教育的发展实质上受到3股力量的主导:国家权力+学术权威+市场。在此基础上,他提出了“三角协调(triangle of coordination)模型“
  2. 从古至今,提出问题是开展研究、收集数据的一个重要途经。
  3. “实证主义“——实证研究不再是思辨地认识世界,而是通过实证地方法直接测量和认识世界。。。。。调查数据成为了社会科学实证研究的重要依据。

 

Ps:奥古斯特·孔德《论实证精神》

  1. 马克思的调查问卷——“光荣调查“——兼有数据收集和教育的双重使命。
  2. 毛泽东在农村开展调查研究时提出“没有调查,就没有发言权“的著名论断。

 

  • 三   商业与调查
  1. 市场数据成为了公司决策的重要依据
  2. 调查数据的兴起,意味着公司的决策模式在发生变化,从过去主观直觉式的决策,转变成依据客观调查数据的科学决策模式。
  3. 我们要客服盲目乐观的情绪,需要客观的分析相关数据,客观地评估经济和社会的发展现状及未来趋势,保持清醒的头脑,把握发展的方向。
  4. 互联网式产生大数据的重要来源之一。
  5. 当今世界的权威已经从个人专家转变成了调查数据。当今社会已经不再单纯听信于某位专家的建议,而是研究调查数据及其报告,甚至依据这些数据和报告来质疑权威专家的意见。“用数据说话“

 

 

  • 第三章   大数据与炼金术
  • 一   公共大数据

1,“小数据“和”大数据“之间其实是相通的,有互相启发和互相印证的作用。

2,大数据也不能被神化,GFT(Google flu trends)预测越来越不准的重要原因应是大数据傲慢(Big Data Hubris)和算法变化(algorithm dynamics)

       作者的观点是由于大数据模型无法捕捉瞬息变化的社会关系,导致预测失效,其失效的原理如同成语“刻舟求剑“那样,当环境发生变化时,依然沿用过去的模型挖掘规律,往往时失效的。”阴阳消息,五行转移“,用动态大数据分析动态的社会变迁,方能在变化无常的社会关系中把握住发展的规律。

       Ps:本人认为,google发布了自己的调查数据之后,不仅仅给GFT带来了无上荣誉,也埋下了巨大隐患。人们发现自己的隐私被泄露可能会不自觉地想办法抵抗,当知道自己的什么行为可能导致GFT捕捉到自己的真实信息时,他可能就会故意释放错误信号,以保护自己所谓的可怜的隐私。

3,警惕“大数据傲慢”,不应该因为过分推崇大数据而忽略其他类型数据的作用。

  1. 大数据时代,强调的是数据的开放性和共享性,让数据尽可能地组成数据池,甚至是数据海,这样,就能发挥出巨量数据聚集在一起的能量和威力。
  2. 《魔鬼经济学》作者史蒂芬·列维特说:“现在,游戏的名字叫数据。“
  3. 数据的开放和共享,是大数据时代的基本特征,也是大数据之所以能够发挥威力的重要基础。

 

  • 二   大数据与大范式
  1. 人体是一个巨大的数据源,无时无刻不产生和释放着各种各样的大数据。中国古人通过手机、观察和分析天、地、人的相关数据分析人体的病理特征,在此基础上提出对治方案。所以,大数据源头至少应该追溯到中医。古人通过把脉断病,这种分析方法,与现代的大数据分析方法在原理上是一致的。

Ps:从人的认知学习过程上来看,无论是中医还是西医,无论是科学还是玄学,都是人对于感知到的事物并结合历史经验的一种总结,所以从这种角度上看,两者并无本质差别。

  1. 最好的大数据利用方式应该是这样:在揭示普遍规律的同时,兼顾个体的个性差异。
  2. “十亿价格项目“——核心是通过一个软件在互联网上24小时不间断地收集商品价格信息。
  3. 大数据本身并不具有价值取向,使用目的不同,大数据技术带来的社会后果也不同。
  4. 爱德华·斯诺登揭露的美国政府“棱镜“互联网信息筛选项目举世震惊。所以,当大数据技术被用来服务于特定目的时,技术本身的功能可能就成为次要议题,而特定目的的合法性成为了关键问题。
  5. 在2008年10月与麦肯锡总监James Manyika先生的对话中,曾经讲过下面一段话。 “我总是说,在未来10年里,最有意思的工作将是统计学家。人们都认为我在开玩笑。但是,过去谁能想到电脑工程师会成为上世纪90年代最有趣的工作?在未来10年里,获取数据——以便能理解它、处理它、从中提取价值、使其形象化、传送它——的能力将成为一种极其重要的技能,不仅在专业层面上是这样,而且在教育层面(包括对中小学生、高中生和大学生的教育)也是如此。由于如今我们已真正拥有实质上免费的和无所不在的数据,因此,与此互补的稀缺要素是理解这些数据并从中提取价值的能力。”
  6. 大数据显然是“灿烂的曙光“而非”辉煌的落日“。

 

  • 三   大数据探微
  1. 大数据给数据科学的三个颠覆性观念转变:
  1. 是全部数据,而不是随机抽样;
  2. 是大体方向,而不是精确制导;
  3. 是相关关系,而不是因果关系。

 

  1. 自然科学长期都在寻找因果关系,但在社会科学中,因果关系相对比较难发现,因为社会系统更加复杂,变化多端。
  2. 沃尔玛——“啤酒的与尿布的故事”——通过数据分析,发现了一个有趣的现象,当年轻的父亲在商场替孩子买尿布时,往往会同时给自己买点爱喝的啤酒。

这个例子的提示:

  1. 数据是现象的一种描述
  2. 数据并非规律,而是某种规律的外部呈现
  3. 数据挖掘的结果需要经得起实践的检验——“实践是检验真理的唯一标准”
  1. 大数据挖掘一般都是从关联性入手,进一步深入探究现象背后的规律。
  2. 组织管理学家查德·达夫特认为,一个社会组织的维度可以分为两类:结构性和关联性。结构性维度描述了一个组织的内部特征,关联性维度描述了影响和改变组织维度的环境,这是从系统论的角度分析组织。事实上,数据也有同样的维度。
  3. 数据的特点是直观而形象,容易辨认和识别。当数据呈现出来一定的关联性时,表明事物之间的关联具有一定量上的显著度,因此,便于从量的层面分析和了解事物之间的关联性。

有了量的基础,再进行深入研究,就可以从质的层面把握关联事物之间的规律,这是大数据挖掘的本质所在。

  1. 大数据挖掘具有普遍意义,具有普遍性,具有普遍的社会价值。
  2. 大数据本身具有一定的抽象性,但是,通过可视化技术就可以相对比较容易获得数据之间的关联特征,启发人们思考现象背后的原因。
  3. 大数据的基本特征就是复杂、善变且易逝。若想要从纷繁复杂的大数据中找出规律,就需要有简单而易操作的工具。

“在强调平等权力的互联网上,大家都是乡巴佬。”

标签:Ps,时代,规律,炼金,读书笔记,调查,数据挖掘,胡焕庸,数据
From: https://blog.51cto.com/u_14011026/6193820

相关文章

  • AI时代下普通小程序员的想法
    在我接触了一系列AI技术后,不禁产生了许多思考。我先后尝试了AI编程、AI写论文、AI写小说、AI绘画等,最近看到了一些关于AI构建虚拟世界以及Auto-GPT的AI类新闻。在这个过程中,我心头涌现出诸多疑问和想法。首先,我不禁感到迷茫:传统编程在这样一个日益智能化的世界中还有前途吗?面......
  • 后疫情时代,在国家宏观经济规划新形势下,美业有怎样的新趋势?
    如何弯道超车?门店如何突围而出?热列祝贺曲中周2023年新技术暨新品发布会全国巡回广东省、广西省、海南省(广东站)河北省(保定站、唐山站)安徽省、江西省(合肥站)湖南省(长沙站)云南省、贵州省(昆明站)河南省(郑州站2场)山东省(济南站、青岛站)四川省(成都站)天津直辖市(天津站)陕西省、甘肃省、青海省......
  • 人人拥有ChatGPT的时代来临了,这次微软很大方
    技术迭代的在一段时间内是均匀发展甚至止步不前的,但在某段时间内会指数级别的爆发。ChatGPT背后的GPT3.5训练据说花了几百万美金外加几个月的时间,参数大概有1700多亿。这对于绝大多数的个人或企业来说绝对是太过昂贵的。然而,微软(MSFT)宣布开源DeepSpeedChat,从公布的训练时......
  • 迎来新时代,自动驾驶国标的出台,将带给我们什么变化?
    ▼▼▼【科技明说|阿明观察】随着《汽车驾驶自动化分级》中国标准出台,业内简称国标,也就是国家推荐标准,即GB/T40429-2021。这将对我们的日常带来怎样的变化?看各个媒体公开报道是在2022年3月1日正式实施,目前距离正式落地实施还有半年左右时间,从出台到实施具体来说间隔的时间不长也......
  • EB级大数据存储时代,智能化提升数据价值
    业界大咖对话:预见2021年数据存储最新9大趋势新趋势关键词:EB级新趋势:EB级大数据存储时代,智能化提升数据价值  数据爆发增长的趋势不可阻挡,源自5G、物联网、人工智能、云计算等新兴技术应用交付影响下,全球数据总量早已迈入ZB级时代,这些新兴技术得以兴旺发展的根基自然离不开数据存......
  • 基于低代码开发平台打造新时代OA系统
    一场新冠疫情令协同办公成为全民热词,加上国家数字化经济建设的背景加持,加速协同办公的进一步发展,而OA作为最基础的行政办公管理系统,几乎成为企业必备,想要通过OA协同办公系统来建立无纸化、流程化及自动化办公环境的企业不计其数。然而通过传统开发的OA系统,整体管理模式相对陈旧,企......
  • 跃优堂:在信息化时代如何通过互联网平台增加收益?
    在信息化时代,互联网平台为人们提供了丰富多样的机会来增加收益,无论是个人创业、自由职业还是兼职,都可以利用互联网平台来获得额外的收入,以下是一些有用的建议,帮助你在互联网平台上增加收益。1、选择适合自己的平台首先,你需要选择适合自己的平台,不同的平台适合不同的人群和行业,从......
  • 【读书笔记】-《罗素谈人的理性》罗素著/石磊译
    1. 从根本上说来,厌烦是一种受到挫折的欲望,那些期望发生的事件本身并不一定是令人愉快的,它们只要使厌倦无聊的牺牲者知道这一天和别一天有所不同就行。厌烦的反面,一言蔽之,不是愉快,而是兴奋。2. 总之,可以发现,伟人们的特征之一就是平静安逸的生活,他们追求的快乐,并不是那种在外人看......
  • 浅析云原生时代的服务架构演进
    摘要:相比于传统的微服务架构,云原生和serverless技术更加灵活、高效,能够更好地满足用户的需求。本文分享自华为云社区《《凤凰架构》学习和思考——云原生时代的服务架构演进史》,作者:breakDawn。随着云原生的概念越来越火,服务的架构应该如何发展和演进,成为很多程序员关心的话题。......
  • 浅析云原生时代的服务架构演进
    摘要:相比于传统的微服务架构,云原生和serverless技术更加灵活、高效,能够更好地满足用户的需求。本文分享自华为云社区《《凤凰架构》学习和思考——云原生时代的服务架构演进史》,作者:breakDawn。随着云原生的概念越来越火,服务的架构应该如何发展和演进,成为很多程序员关心的话题......