写博客也已经快一年了,从去年的1024到现在金秋10月已纷至沓来。回顾这一年所发布的原创文章,基本都是与大数据主流或者周边的技术为主。本篇博客,就为大家介绍几篇关于大数据领域必看的经典书籍,喜欢的小伙伴记得来发一键三连。
1、Hadoop权威指南
把这本书放在第一位,相信在座的各位一定没有异议吧~
Hadoop是一个能够对大量数据进行分布式处理的软件框架。以一种可靠、高效、可伸缩的方式进行数据处理。主要包括三部分内容:Hdfs,MapReduce,Yarn。Hadoop在广义上指一个生态圈,泛指大数据技术相关的开源组件或产品,如HBase,Hive,Spark,Zookeeper,Kafka,flume....
大数据生态圈
现在“Hadoop”已经近乎成为大数据的代名词了,所以如果是初学的小伙伴们,最早接触的也一定是Hadoop,Hadoop的重要性不言而喻。
2、HBase权威指南
细心的小伙伴们可能已经发现,HBase实际上也是Hadoop生态圈的一员,但是在Hadoop权威指南中对于该部分的解读比较浅显,不是很详细。如果对HBase的底层源码,高级架构,性能优化,集群管理等进阶操作感兴趣,这必将是一本不可错过的经典之作!
这是豆瓣上关于本书的介绍,大家可以参考一下:
《HBase权威指南》探讨了如何通过使用与HBase高度集成的Hadoop将HBase的可伸缩性变得简单;把大型数据集分布到相对廉价的商业服务器集群中;使用本地Java客户端,或者通过提供了REST、Avro和Thrift应用编程接口的网关服务器来访问HBase;了解HBase架构的细节,包括存储格式、预写日志、后台进程等;在HBase中集成MapReduce框架;了解如何调节集群、设计模式、拷贝表、导入批量数据和删除节点等。
《HBase权威指南》适合使用HBase进行数据库开发的高级数据库研发人员阅读。
3、Spark权威指南
Spark作为基于内存的,用于大规模数据处理(离线计算、实时计算、快速查询(交互式查询))的统一分析引擎。近几年在机器学习,人工智能领域发展得也是如日中天。
该书由于版权原因,在国内的电子资源非常稀少,但还是有热心网友在GitHub上分享了自己所翻译的中文版本,感兴趣的朋友可以浏览借鉴一下原作者的思路。
在这里插入图片描述
4、Flink基础教程
既然都提到了Spark,那怎么能少得了Flink的身影呢!作为新一代的开源流处理器,Flink是众多大数据处理框架中一颗冉冉升起的新星。它以同一种技术支持流处理和批处理,并能同时满足高吞吐、低延迟和容错的需求。
最主要的是,本书由Flink项目核心成员执笔,系统阐释Flink的适用场景、设计理念、功能、用途和性能优势。担心怕看不懂也没有关系,编译这本书的作者是阿里巴巴资深技术专家,Apache Flink Committer,淘宝花名“大沙”。曾多次拜访由Flink创始团队创办的公司data Artisans,并与其首席执行官科斯塔斯·宙马斯(本书作者之一)以及首席技术官斯蒂芬·尤恩有着广泛的合作。
所以说,当细细品尝这本书的时候,有没有一种与大佬隔空对话的感觉~
5、Kylin权威指南
Apache Kylin是Hadoop大数据平台上的一个开源OLAP引擎,将大数据的查询速度和并发性能提升至原来的百倍以上,为超大规模数据集上的交互式大数据分析打开了大门。本书由Apache Kylin核心开发团队编写,系统地介绍了Apache Kylin安装、入门、可视化、模型调优、运维、二次开发等各个方面,是关于Apache Kylin的权威指南。
6、Hadoop源码分析
本书是一本全面细致的介绍和分析Hadoop源码和内部工作机理的的一本技术书籍。本书通过对Hadoop内部源码详细细致的解析,使得读者能够快速高效的理解Hadoop的内部工作机制,了解Hadoop内部源码架构,快速高效的上手Hadoop,对Hadoop有深刻的认识。同时是国内第一本详细介绍Hadoop源码的书籍。
7、大数据之路
相信光看书名,大家就能够猜到,《大数据之路:阿里巴巴大数据实践》是由国内互联网巨头阿里巴巴数据技术及产品部组织并完成写作。这本书是阿里巴巴分享对大数据的认知,与生态伙伴共创数据智能的重要基石。
本书主要讲述了在数据技术,数据模型,数据管理以及数据应用层面下,阿里内部的技术实践与思考。相信这本书中的实践和思考对同行会有很大的启发和借鉴意义。
8、大数据架构师指南
大家千万别被书名中的“架构师”惊讶到,虽然大家暂时的技术程度不同,但是最后的目标一定都会想办法往“架构师”看齐的对吧~
这本书的目的呢,就是为了帮助读者在最短的时间内,系统地把握大数据相关的技术框架,建立系统架构级别的技术思考能力与原则。本书适用于企业的IT与大数据的从业人员,IT与大数据相关的销售人员,企业的首席技术官(CTO)、首席信息官(CIO)。
所以说,如果是新手小白呢,就不建议直接入门“架构”了,咱先把基础打扎实了,而后再培养架构思维也不迟嘛~
9、用户画像:方法论与工程化解决方案
本书从技术维度系统讲解了用户画像的方法论和一些常见的工程化解决方案,适合具有一定开发能力,并且对于用户画像感兴趣的读者。
对于一些有过画像项目开发经验的选手来说,可能会嗤之以鼻。但是本菌在这里提前剧透一下,当你看完这本书,你真的会发现,自己的认知是多么的渺茫。why?因为这本书真的把你能考虑,不能考虑到的范围全都描述了出来,我相信,你看完,绝对会从此爱上了学习!
10、大数据技术原理与应用
最后一本书,我把位置留给了《大数据技术原理与应用》,倒不是因为这本书有多么权威,而是因为它在我看来,是最适合大数据初学者的!!!上面谈到的几本书,都需要读者具有一定的大数据理论或者一定的开发能力。而大数据专业是近几年才开始逐渐创立起来的,在我所了解到的范围内,很多高校,不乏像厦门大学这样的985,都在使用这本书作为配套教材。如果说,你是一名刚接触大数据这个领域的新星小白,我个人也是强烈建议你先从这本书开始啃起,毕竟很多高校都在用的教材,再加上我本人也曾有幸买到过,阅读过一些章节,不禁感慨这本书讲的确实通俗易懂~~
结语
以上仅仅只介绍了10本作者个人认为算是非常不错的好书,当然还有很多优秀的书,我还没有介绍完,像《图解Spark核心技术与案例实战》,《Spark大数据处理:技术、应用与性能优化》,以及我最近才入坑不久的冰河大佬写的《海量数据处理与大数据技术实战》,都是能让我看得非常“痴迷”的神书。
以后有机会再为大家安利更多的好书,本篇文章到这里就结束了。上文详细介绍的10本书,在博主个人的公众号【猿人菌】,后台回复"大数据书籍"即可获取。
扫码关注
猿人菌
关注即可获取高质量思维导图,互联网一线大厂面经,大数据珍藏精品书籍...期待您的关注!