前言
老读者都知道,Alice是一个爱看书的程序员。之前已经为大家分享过2篇跟书有关的文章,一篇是《推荐10本大数据领域必读的经典好书(火速收藏)》,为大家推荐了一些很经典的大数据书籍(还专门为大家准备了电子版)。另外一篇是《简单谈谈最近在看的几本书「数据中台,用户画像」》,第二篇更多是站在读者的角度,分析评判书的可读性,并写了自己的读后感。虽然带来的效果并没有第一篇那么好,但是却收到不少小伙伴的好评!最近,又淘到2本不错的好书,想借本期文章为大家好好“品”一下,希望大家能够受益!
大数据分析 : 数据仓库项目实战
相信大家看到封面,第一眼应该是被左上角的“硅谷”所吸引。作为“尚大”毕业的学生,对于其资料的硬核程度,与靠着自学一路走来的小伙伴们一样,有目共睹。作为它出版的第一本书,相信大家也同样期待 ~
大数据发展至今,早已不是一个新兴词语,大数据的应用已经无处不在!正如本书前言所述,在大数据时代,我们面临的不仅是海量的数据,更重要的是海量数据所带来的数据的采集、存储、处理等方方面面的问题。为了更快速、更全面地展示大数据的实践应用,这本书以一个数据仓库项目为切入点,带领大家一步步揭开大数据的面纱!
相信很多非大数据行业的小伙伴不是很理解,数据仓库是啥?
如果是回答新手上路的萌新,我会回答数据仓库项目是学习大数据的重要基石。你可以通过以搭建数仓为主线,从搭建之初的框架选型、数据服务的整体策划到数据的流向,数据的采集、存储和计算,循序渐进,一步步展开,进行细致剖析。简单理解,就是完整跟着把这个项目做一遍,大数据基本常用的技术你都玩过了 ~
如果有一定开发经验,但是在工作中未接触到大数据行业的“老司机”来问这个问题,我会基于自己大量阅读和实践的认知,告诉他:数据仓库是大多数企业“试水”大数据的首先切入点。为啥?一方面数据仓库主要编程语言以SQL为主,所以经常搞数仓的就容易被人戏称是 SQLBoy,哈哈开个玩笑 ~ 无论是 Hive 还是 SparkSQL,都是通过高度标准化的 SQL 进行开发的,这样的好处就很明显。对于很多从传统数据仓库,例如做后台开发,向大数据转型的开发人员和团队来说,是一种较为平滑的过渡;另一方面,数据仓库理论和方法论已经非常成熟,在大数据平台上实现数据仓库遵循的依然是这些理论,只是在不同的业务,项目中实现的细节上有所不同!所以,如果完整跟着做了一个项目,在大脑中形成自己的一套“数仓理论”,再去学习其他的项目或者技术点,相信会有起到“触类旁通”的效果,事半功倍!
当然,在大数据领域扎根多年的“老鸟”应该是不会问我这么“稚嫩”的问题,但 “ A true master is an eternal student ”,真正的大师,永远都怀着一颗学徒的心。我会袒露心声:现在大数据生态圈用“百花齐放”真的不为过,举一些当前大数据开发主流的框架,例如采集:Flume,Kafka,Sqoop;存储:MySQL,Hadoop,HBase;计算:Hive,Tez;即席查询:Presto,Druid,Kylin;可视化:Superset;任务调度:Azkaban;元数据管理:Atlas 等等,我们很少在真实的一个企业级项目中均有所涉及,但如果有一个不算复杂的项目能把一个完整的技术栈串联起来,我相信不管是对于项目本身的业务的拓展理解还是自身技术栈的积累,都会有不少的提升!除此之外,书中还有对于数仓学习中需要掌握的一些理论,例如范式理论,星型,雪花和星座模型区别,表如何分层,数仓如何建模,以及常用的术语都有一定的讲解,但不是非常详细。如果想要全面了解数仓,建议去看《数据仓库工具箱》,想要数仓工具箱电子版可以私聊我,当然这就是后话了~
或许你看到这里,会对项目的架构感兴趣,那我就分享一下最近看了硅谷的教程,依葫芦画瓢的2张架构图,分别是离线和实时的数仓架构设计,而这本书就是按照离线的架构介绍的。
这本书比较适合初级程序员,要求读者具有一定的编程基础,例如 Java 和 SQL 。另外项目配套的相关内容早已在B站上有对应的视频公开 ~ 想找电子书的朋友可以用“无限卡”去 wx读书上白嫖 ~
大数据平台架构与原型实现:数据中台
这本书的作者是一位架构师。拥有 14 年 IT 系统开发和架构经验,在大数据、企业级应用架构,SaaS、分布式存储和领域驱动设计等方面都有不错的实践经验。当时买这本书的主要原因是它因为在豆瓣上口碑不错,再加上近几年数据中台越来越火,几乎所有的大厂都有自己的中台,而自己作为一个大数据萌新,对于“热门新鲜”的技术一直都很敏感,所以当时就很爽快地买来看了。
让我惊喜的是,这本书对于中台的介绍应该是我目前为止看过的所有资料里介绍的最透彻的,光技术中台一个知识点,就从技术体系,组织架构,以及需要具备的能力和建设策略,让之前从没有认真思考过“数据中台”来源的我,开始思索其未来的发展。但美中不足的地方是,书中大篇幅的实际系统部署内容,对于开发能力薄弱的读者不是很友好。但这也不能埋怨作者,毕竟就像现在数据中台的概念满天飞,最终的落地却是一大难题。如果整本书光吹理论而不将其落到实际的操作上,整本书的价值将大打折扣!
说一些我认为受益比较大的地方。在第4章架构与原型设计,在第一小节,介绍大数据平台架构设计的时候,介绍了一些业界已经较为成熟的架构模式,例如 Lambda架构,Kappa架构 以及 Smack 架构。在此之前,我最多也只是在公司内部技术分享会上听到其他人谈到会有点印象,但是自己却从未去主动了解过。我在几乎0基础的情况下,阅读这些架构的设计理念和应用,还是比较的容易,这可能跟自学能力有关。另外我比较欣赏的一点就是,作者作为一个高级架构师,对于技术本身的理解非常深入。尤其在做技术选型的时候,从数仓分层的设计与构建,数据存储系统的选择对比,不同场景下工作流的作业调度,部署提交,项目构建...每一个点都需要有一定的知识储备。这些都能了然于胸,离不开平时大量的实践和积累。我的目标是未来能成为大数据架构师,别的不说,至少通过作者的阅读,我学会了新的思考方式!
借用彩食鲜CTO、鲲鹏会荣誉导师,苏宁科技集团原副总裁乔新亮老师的评论,本书涵盖了大数据平台建设的全部环节,通读下来,整体上实操性很强,架构原理融于了工程原型的搭建过程,对于希望自己动手实践的读者会很有帮助,同时在操作步骤中介绍了相应的逻辑与设计,有助于读者更好地领会背后的原理。在今天这个时代,我们不见得要自己搭建整个平台,但是了解原理可以让自己工作起来事半功倍,不管是自己搭建,还是利用成熟平台,懂得原理,明白实践,再开始在企业中搭建数据驱动内部经营的完善体系就会胸有成竹、游刃有余!
小结
本期内容我为大家推荐了2本非常认可,喜欢的技术书籍,同时也希望大家在平时阅读的时候,多输出,多思考,这样往往能够对书中想要表达的核心思想理解得更透彻。好了,本篇内容就到这里,我是【大数据梦想家】,一个坚信技术成就自我的“后浪”,你知道的越多,你不知道的也越多!如果本文对您有所启发,不妨点个三连,我们下一期,不见不散~
-- end --
好了,本篇文章就到这里,更多干货文章请关注我的公众号。你知道的越多,你不知道的也越多。我是梦想家,点个关注,我们下一期见!