Hadoop分布式系统架构
Hadoop 已经非常火了,Greenplum 的开源跟它也是脱不了关系的。它有着高可靠性、高扩展性、高效性、高容错性的口碑。在互联网领域有着非常广泛的运用,雅虎、Facebook、百度、淘宝、京东等都在使用Hadoop。Hadoop 生态体系非常庞大,各公司基于Hadoop 所实现的也不仅限于数据平台,还包括数据分析、机器学习、数据挖掘、实时系统等。
当企业数据规模达到一定的量级时,Hadoop 应该是各大企业的首选方案。到达这样一个层次的时候,企业所要解决的不仅是性能问题,还包括时效问题、更复杂的分析挖掘功能的实现等。非常典型的实时计算体系也与Hadoop 这一生态体系有着紧密的联系,比如Spark。近些年来,Hadoop 的易用性有了很大的提升,SQL-on-Hadoop 技术大量涌现,包括Hive、Impala、Spark SQL 等。尽管其处理方式不同,但相比于原始的MapReduce 模式,无论是性能还是易用性都有所提高。因此,对MPP产品的市场产生了压力。对于企业构建数据平台来说,Hadoop 的优势与劣势非常明显:优势是它的大数据处理能
力、高可靠性、高容错性、开源性以及低成本(处理同样规模的数据,换其他方案试试就知道了);劣势是它的体系复杂,技术门槛较高(能搞定Hadoop 的公司规模一般都不小)。关于Hadoop的优缺点,对于公司的数据平台选型来说,影响已经不大了。需要使用Hadoop的时候,也没什么其他的方案可选择(要么太贵,要么不行),没达到这个数据量的时候,也没人愿意碰它。总之,不要为了大数据而大数据。Hadoop 生态圈提供海量数据的存储和计算平台,包括以下几种。
结构化数据:海量数据的查询、统计、更新等操作。
非结构化数据:图片、视频、Word、PDF、PPT 等文件的存储和查询。
半结构化数据:要么转换为结构化数据存储,要么按照非结构化存储。
Hadoop 的解决方案如下。
存储:HDFS、HBase、Hive 等。
并行计算:MapReduce 技术。
流计算:Storm、Spark。