建设一个高价值的大数据平台,让平台有更好的扩展性和开放性,使企业级应用系统共享大数据平台的能力,来帮助企业整个 IT 平台拥有一个质的飞跃。结合大数据平台设计和实施的项目经验,总结出大数据架构设计原则的核心要素如下∶统一管理、高可用、可扩展、开放性、前瞻性、高性能、稳定性、安全性、易维护、实用性,如图1所示。
图1大数据核心架构要素
1.统一管理
基于大数据平台的应用系统设计时,建议设计相对应的平台管理功能,把硬件监控、Hadoop平台监控都集成进来。建设企业级一体化的监控与管理平台,后期便于更好地统一管理和统一维护。
2.高可用
高可用是指尽可能避免重复投入,应尽可能考虑包括物理设备、系统软件、框架组件、规范方法以及业务应用等多个层面上的复用。
3.可扩展
可扩展性是指大数据平台在实施之后能够支持业务系统和应用系统发展的需要,可以动态扩展平台功能,并以服务接口的方式无缝对接其他应用系统。
4.开放性
企业在做大数据技术选型,特别是 Hadoop 选型时,应该从平台整体的维护成本和学习成本两方面考虑。
5.前瞻性
建设一套成熟的大数据平台,首先要在技术和架构上具有一定的前瞻性。通过部署 Apache Hadoop 生态组件及 Spark、Mathout 等计算分析组件,对开发更深层次数据探索能力的大数据战略,并通过云平台服务优化现有平台功能的企业而言非常重要。
6.高性能
高性能是指在硬件资源有限的情况下,大数据应用开发平台及实施服务应尽可能地支持尽量多的数据服务需求,还能承受用户峰值时间段压力。
7.稳定性
稳定性是指平台发生结构变化或增加新功能时,依靠架构的有效设计,仍然能保证正常运行。
8.安全性
在大数据平台中,安全性主要包括两个层面的含义∶一是防止数据服务体系的数据资源被恶意修改和盗取;二是防止数据在传输过程中被截留和篡改。
9.易维护
易维护是指大数据平台在运行的过程当中,不需要投入太多的人员和精力,使平台在出现故障或者升级时能够轻松快速地完成。大数据平台的运维工作主要涉及硬件设备、Hadoop平台、应用系统三个方面。
10.实用性
在大数据平台的实用性方面,一定要避免为了跟风而使用某些新技术的情况,在集群中部署多套组件会使整个集群的运行效率降低,所以一定要从实际需求出发。