海量数据战争——谁能赢得未来？

时至今日，海量数据时代的来临已经毋庸置疑，尤其是在互联网、电信、金融等行业，几乎已经到了“数据就是业务本身”的地步。在这其中，还挟裹着一个更为重要的趋势，即数据的社会化，这也是我们通常所说的非结构化数据。

以往人们认为，把企业自有的运营数据进行深度分析后，自然会有所得。但在今天看来，这种做法的一大缺陷就是，数据不够全面、及时。从理论上讲，谁掌握的数据越全面，得出的结论就越趋向于合理。企业只有构建一个容纳了足够多关键信息的“深水池”，才更有可能做出正确的决策。

这种趋势已经让很多相信数据之力量的企业做出改变，随之而来的，则是企业在IT架构上的改变，这也意味着，海量数据市场，正孕育着一个前景无法限量的巨大商机。

海量数据市场争夺——对IT大佬们而言，这也是一场谁也输不起的“战争”。

Hadoop的神话

从Yahoo的 Web搜索研究，到Facebook的数据分析，再到百度的搜索日志分析、淘宝的数据魔方服务，以及中移动推出了 “大云”(BigCloud)系统，Hadoop的身影都已经到处闪现。简单来讲，社会化数据时代的企业需要像八爪鱼一样，能够发现并拿到他需要的数据，而Hadoop技术的好处就是，不但可以方便地嵌入到各种实际应用中以实现全文搜索/索引，而且可以进行数据抓取。比如雅虎，通过应用这一技术，几乎可以实时分析每一个页面点击并优化内容的排名，每7分钟就能更新一次结果。

以Hadoop为代表的海量数据处理开源工具无疑是吸引人的，“开源工具可以查看代码，这样开发者可以找到他们整合时里面是什么。在几乎所有的案例中，开源分析都更具性价比和灵活性。”Revolution Analytics的Minelli表示。

数据量在持续的增长，公司将被迫增加基础设施的部署。专利费用将一直增加，而开源技术，则省了这笔一直持续的专利费。Twitter选择Hadoop，其中重要的原因是专有工具的费用太高。

Hadoop之所以能够风靡一时，在笔者看来，除了其在海量数据处理上的方式，最重要的因素关键在于它是免费的。

更长远的来看，开源工具使企业创建新的分析技术，更好的处理非结构化的语言，比如图片等。而不能寄托于传统厂商发展新的分析技术。开源工具给了企业创新的机会。

但是Hadoop也并不能代表一切，Hadoop的MapReduce在性能上的确是有局限性的：比如MapReduce没有索引，只有靠强大的运算能力来处理；此外，MapReduce本身存在一些lower-level实现的问题, 特别是skew和数据交换等等。

Cloudscale创始人和首席执行官Bill McColl曾指出，从性能上而言，下一代的架构需要在MapReduce/Hadoop的基础上有10——10000倍的性能提高。正因如此，我们看到，针对Hadoop遭遇到的性能瓶颈，Yahoo正准备开始对Hadoop进行重构。

与此同时，Hadoop的竞争对手们，比如Cloudera、Mapr们，正紧锣密鼓地推出更具竞争力的产品和技术，而最新的产品无疑是Mapr，Marp是一个比现有Hadoop分布式文件系统还要快三倍的产品，并且也是开源的。Mapr配备了快照，并号称不会出现SPOF单节点故障，且被认为是与现有HDFS的API兼容。因此非常容易替换原有的系统。

总之，Hadoop并不一定适合所有的案例。比如海量数据的捕捉、存储、分析，依靠特殊的应用的特性，等等，这些都非Hadoop所长。相比较Hadoop的处理能力，一些SQL架构依然呈现数量级的优势。从某种意义上而言，在采用scale-out网络连接方式的EMC Isilon或IBM的SONAS，可能对于使用非结构化的数据比如图片、视频会更好。

因此，海量数据竞争的另外一个领域就是开源与专有工具的混合使用，这也是传统的IT大佬们正在努力的方向。

IT大佬们的海量数据算盘

如果你认为IBM、EMC、Oracle、微软这些传统的数据技术大佬们对海量数据这个市场视而不见，那么你就错了。IBM、EMC、甚至包括微软，他们与开源项目的合作一直都非常紧密。

IBM

实际上，IBM早已拥有了Hadoop项目，并推出了在Hadoop架构上建立作为群集运行DB2或Oracle数据库的集群系统，根据IBM的测试数据显示，在IBM一个拥有40个节点的文件系统将有12GB/sec吞吐量，并与400个节点的系统可以达到120GB/sec吞吐量。

如果再深究的话，你可以发现，在海量数据上，IBM其实主打的是小型机的并行运算，这一点，从其前不久推出的Watson就能看出，由90台Power组成的Watson是一个非常典型的BI实例，从数据存储、到数据分析与挖掘，Watson体现的是IBM对于未来海量数据的实现原理，Watson存储了海量的百科全书、论文文献等等以文章方式存储的资料，它们之中也会有相关的信息。但由于这些资料是非结构化的，所以watson必须通过非常费力的文本搜索来取得信息。而这个过程中又会用到前面用过的提取专有名词、词性、文本结构等方式。

从架构上可以看到，Watson所使用的软件实质是建立在IBM开源的UIMA体系结构之上。UIMA是一个用于非结构化信息管理应用的平台，提供了一个可使问题处理模块独立工作的框架，能够对结果进行筛选得出最佳答案。而Apache项目则开发了当前的UIMA版本以及一些通用模块，而Watson在电视节目中使用的模块只是其中的一部分。

EMC

2010年7月，当EMC宣布以现金方式收购私有数据存储公司Greenplum后，迅速以Greenplum为基础，在信息基础架构业务部门之下组成一个新的部门——数据计算产品部。而在完成了Isilon的收购后，EMC也完全具备了进军海量数据市场的一切产品和技术。

根据EMC的Isilon横向扩展NAS架构（使用其OneFS操作系统）可以看到，其可在单一文件系统中扩展至10PB以上，并支持每秒50GB的吞吐量。然而，大数据应用可能会更注重某方面或其其他相关数据。因此，Isilon中的S产品系列主要针对于高事务处理和IOPS密集的应用，比如基因组研究；而X系列解决方案主要针对容量密集型应用，诸如医疗图像这样的需要高并发处理和顺序吞吐的应用。

而Greenplum则专注于应对大数据所带来的分析挑战。其产品套件支持分析密集型的大数据集，最终帮助终端用户大数据中挖掘突出价值。这通常需要复杂分析，比如特定的互动分析，而非简单的结构报告。分析速度尤其重要，特别是在需要频繁执行时以及数据分析结果有助于决策时。此外，为满足更大规模的数据应用需求，Greenplum还开发了大规模并行处理（MPP）系统，其关键要素在于性能和可扩展性。

微软

应该说，在非结构化数据市场，微软一直都在对这个市场持续认真地投入，并于去年年底发布了公测版Dryad平台，其实，Dryad也并非微软的新产品，Dryad和DryadLINQ其实早在微软收购Powerset之前就已经存在，目前推出的，只不过是商业版。微软于2007年首度揭晓了关于技术的研究成果，并于2009年向学术界推出了非商业版Dryad和DryadLINQ。

值得注意的是，2008年，微软曾收购了Powerset，并将Powerset基于Hadoop的技术应用于其（bing）搜索引擎之上。而微软当时甚至答应Powerset员工继续向Hadoop贡献源代码，Powerset也由此建立了Hadoop的姊妹项目——HBase，模拟Google的BigTable数据库。

与MapReduce不同的是，Dryad是针对运行Windows HPC Server的集群计算设计的，而非Linux——这恐怕是Dryad容易被人所诟病的一点。由于Hadoop是基于Java编写的，因此这些程序恐怕并不太适合跑在微软的Windows平台或者.NET之上；另外，微软是在2005年进入到高性能计算市场的，目前而言，这个市场是被Linux所占领的。而目前Apache的Hadoop环境是只支持Linux的，Windows还在不断开发中。

不仅如此，微软还在近日发布了其图数据库系统Trinity。Trinity是一个基于内存的数据存储与运算系统，目前在微软为Probase和AEther这两个产品服务。

专有工具、开源工具你选谁？

海量数据正在不断生成，对于急需改变自己传统IT架构的企业而言，传统的结构化数据与非结构化数据的融合，成了所有人的心病，凭心而论，在Google公开其Megastore之前，类似象金融、电信这样的客户，很少敢于将自己的数据系统做全面的迁移，而这对于传统的结构化数据厂商来说，无疑是给了一个喘息的机会。

短期来讲，开源分析将越来越广泛的使用，并且增长迅速。长期来看，混合技术的应用将在高度竞争的市场上出现，两者将同样有巨大的需求。

提供了处理大数据分析能力的专有软件包括AsterData；IBM的专有软件Netezza、Datameer, 建立在Apache的Hadoop上的专有软件以及Paraccel。

此外，Oracle 的Exadata以及EMC的Greenplum也是处理大数据量的专有工具。EMC引入了Greenplum数据库的免费社区版本，该社区版本只是软件。Greenplum社区报表包括3个协作模块Greenplum DB, MADlib, 和Alpine Miner。

处理大数据量的开源工具包括Hadoop、Map/Reduce，以及Jaspersoft 的BI工具。

Jaspersoft提供的BI工具，提供了报告、分析、ETLETL (解压、转换、加载) ，针对大量的并行分析数据库，包括EMC Greenplum和HP Vertica。Jaspersoft也提供本地报告，通过Hadoop和各种类型的NoSQL数据库包括MongoDB, Riak, CouchDB and Infinispan的开源连接。

标签：战争,IBM,微软,海量,Hadoop,开源,赢得,数据
From： https://blog.51cto.com/u_11295556/5911864

海量数据战争——谁能赢得未来？

相关文章

赞助商

阅读排行