首页 > 其他分享 >海量数据战争——谁能赢得未来?

海量数据战争——谁能赢得未来?

时间:2022-12-05 12:39:46浏览次数:42  
标签:战争 IBM 微软 海量 Hadoop 开源 赢得 数据


时至今日,海量数据时代的来临已经毋庸置疑,尤其是在互联网、电信、金融等行业,几乎已经到了“数据就是业务本身”的地步。在这其中,还挟裹着一个更为重要的趋势,即数据的社会化,这也是我们通常所说的非结构化数据。

以往人们认为,把企业自有的运营数据进行深度分析后,自然会有所得。但在今天看来,这种做法的一大缺陷就是,数据不够全面、及时。从理论上讲,谁掌握的数据越全面,得出的结论就越趋向于合理。企业只有构建一个容纳了足够多关键信息的“深水池”,才更有可能做出正确的决策。

这种趋势已经让很多相信数据之力量的企业做出改变,随之而来的,则是企业在IT架构上的改变,这也意味着,海量数据市场,正孕育着一个前景无法限量的巨大商机。

海量数据市场争夺——对IT大佬们而言,这也是一场谁也输不起的“战争”。


Hadoop的神话

从Yahoo的 Web搜索研究,到Facebook的数据分析,再到百度的搜索日志分析、淘宝的数据魔方服务,以及中移动推出了 “大云”(BigCloud)系统,Hadoop的身影都已经到处闪现。简单来讲,社会化数据时代的企业需要像八爪鱼一样,能够发现并拿到他需要的数据,而Hadoop技术的好处就是,不但可以方便地嵌入到各种实际应用中以实现全文搜索/索引,而且可以进行数据抓取。比如雅虎,通过应用这一技术,几乎可以实时分析每一个页面点击并优化内容的排名,每7分钟就能更新一次结果。

以Hadoop为代表的海量数据处理开源工具无疑是吸引人的,“开源工具可以查看代码,这样开发者可以找到他们整合时里面是什么。在几乎所有的案例中,开源分析都更具性价比和灵活性。”Revolution Analytics的Minelli表示。

数据量在持续的增长,公司将被迫增加基础设施的部署。专利费用将一直增加,而开源技术,则省了这笔一直持续的专利费。Twitter选择Hadoop,其中重要的原因是专有工具的费用太高。

Hadoop之所以能够风靡一时,在笔者看来,除了其在海量数据处理上的方式,最重要的因素关键在于它是免费的。

更长远的来看,开源工具使企业创建新的分析技术,更好的处理非结构化的语言,比如图片等。而不能寄托于传统厂商发展新的分析技术。开源工具给了企业创新的机会。

但是Hadoop也并不能代表一切,Hadoop的MapReduce在性能上的确是有局限性的:比如MapReduce没有索引,只有靠强大的运算能力来处理;此外,MapReduce本身存在一些lower-level实现的问题, 特别是skew和数据交换等等。

Cloudscale创始人和首席执行官Bill McColl曾指出,从性能上而言,下一代的架构需要在MapReduce/Hadoop的基础上有10——10000倍的性能提高。正因如此,我们看到,针对Hadoop遭遇到的性能瓶颈,Yahoo正准备开始对Hadoop进行重构。

与此同时,Hadoop的竞争对手们,比如Cloudera、Mapr们,正紧锣密鼓地推出更具竞争力的产品和技术,而​​最新的产品无疑是Mapr​​,Marp是一个比现有Hadoop分布式文件系统还要快三倍的产品,并且也是开源的。Mapr配备了快照,并号称不会出现SPOF单节点故障,且被认为是与现有HDFS的API兼容。因此非常容易替换原有的系统。

总之,Hadoop并不一定适合所有的案例。比如海量数据的捕捉、存储、分析,依靠特殊的应用的特性,等等,这些都非Hadoop所长。相比较Hadoop的处理能力,一些SQL架构依然呈现数量级的优势。从某种意义上而言,在采用scale-out网络连接方式的EMC Isilon或IBM的SONAS,可能对于使用非结构化的数据比如图片、视频会更好。

因此,海量数据竞争的另外一个领域就是开源与专有工具的混合使用,这也是传统的IT大佬们正在努力的方向。

IT大佬们的海量数据算盘

如果你认为IBM、EMC、Oracle、微软这些传统的数据技术大佬们对海量数据这个市场视而不见,那么你就错了。IBM、EMC、甚至包括微软,他们与开源项目的合作一直都非常紧密。

IBM

实际上,​​IBM早已拥有了Hadoop项目​​,并推出了在Hadoop架构上建立作为群集运行DB2或Oracle数据库的集群系统,根据IBM的测试数据显示,在IBM一个拥有40个节点的文件系统将有12GB/sec吞吐量,并与400个节点的系统可以达到120GB/sec吞吐量。

如果再深究的话,你可以发现,在海量数据上,IBM其实主打的是小型机的并行运算,这一点,从其前不久推出的Watson就能看出,由90台Power组成的Watson是一个非常典型的BI实例,从数据存储、到数据分析与挖掘,Watson体现的是IBM对于未来海量数据的实现原理,Watson存储了海量的百科全书、论文文献等等以文章方式存储的资料,它们之中也会有相关的信息。但由于这些资料是非结构化的,所以watson必须通过非常费力的文本搜索来取得信息。而这个过程中又会用到前面用过的提取专有名词、词性、文本结构等方式。

从架构上可以看到,Watson所使用的软件实质是建立在IBM开源的UIMA体系结构之上。UIMA是一个用于非结构化信息管理应用的平台,提供了一个可使问题处理模块独立工作的框架,能够对结果进行筛选得出最佳答案。而Apache项目则开发了当前的UIMA版本以及一些通用模块,而Watson在电视节目中使用的模块只是其中的一部分。

EMC

2010年7月,当EMC宣布以现金方式收购私有数据存储公司Greenplum后,迅速以Greenplum为基础,在信息基础架构业务部门之下组成一个新的部门——数据计算产品部。而在完成了Isilon的收购后,EMC也完全具备了进军海量数据市场的一切产品和技术。

根据EMC的Isilon横向扩展NAS架构(使用其OneFS操作系统)可以看到,其可在单一文件系统中扩展至10PB以上,并支持每秒50GB的吞吐量。然而,大数据应用可能会更注重某方面或其其他相关数据。因此,Isilon中的S产品系列主要针对于高事务处理和IOPS密集的应用,比如基因组研究;而X系列解决方案主要针对容量密集型应用,诸如医疗图像这样的需要高并发处理和顺序吞吐的应用。

而Greenplum则专注于应对大数据所带来的分析挑战。其产品套件支持分析密集型的大数据集,最终帮助终端用户大数据中挖掘突出价值。这通常需要复杂分析,比如特定的互动分析,而非简单的结构报告。分析速度尤其重要,特别是在需要频繁执行时以及数据分析结果有助于决策时。此外,为满足更大规模的数据应用需求,Greenplum还开发了大规模并行处理(MPP)系统,其关键要素在于性能和可扩展性。

微软

应该说,在非结构化数据市场,微软一直都在对这个市场持续认真地投入,并于去年年底发布了公测版Dryad平台,其实,Dryad也并非微软的新产品,Dryad和DryadLINQ其实早在微软收购Powerset之前就已经存在,目前推出的,只不过是商业版。微软于2007年首度揭晓了关于技术的研究成果,并于2009年向学术界推出了非商业版Dryad和DryadLINQ。

值得注意的是,2008年,微软曾收购了Powerset,并将Powerset基于Hadoop的技术应用于其(bing)搜索引擎之上。而微软当时甚至答应Powerset员工继续向Hadoop贡献源代码,Powerset也由此建立了Hadoop的姊妹项目——HBase,模拟Google的BigTable数据库。

与MapReduce不同的是,Dryad是针对运行Windows HPC Server的集群计算设计的,而非Linux——这恐怕是Dryad容易被人所诟病的一点。由于Hadoop是基于Java编写的,因此这些程序恐怕并不太适合跑在微软的Windows平台或者.NET之上;另外,微软是在2005年进入到高性能计算市场的,目前而言,这个市场是被Linux所占领的。而目前Apache的Hadoop环境是只支持Linux的,Windows还在不断开发中。

不仅如此,微软还在​​近日发布了其图数据库系统Trinity​​。Trinity是一个基于内存的数据存储与运算系统,目前在微软为Probase和AEther这两个产品服务。

专有工具、开源工具你选谁?

海量数据正在不断生成,对于急需改变自己传统IT架构的企业而言,传统的结构化数据与非结构化数据的融合,成了所有人的心病,凭心而论,在Google公开其Megastore之前,类似象金融、电信这样的客户,很少敢于将自己的数据系统做全面的迁移,而这对于传统的结构化数据厂商来说,无疑是给了一个喘息的机会。

短期来讲,开源分析将越来越广泛的使用,并且增长迅速。长期来看,混合技术的应用将在高度竞争的市场上出现,两者将同样有巨大的需求。

提供了处理大数据分析能力的专有软件包括AsterData;IBM的专有软件Netezza、Datameer, 建立在Apache的Hadoop上的专有软件以及Paraccel。

此外,Oracle 的Exadata以及EMC的Greenplum也是处理大数据量的专有工具。EMC引入了Greenplum数据库的免费社区版本,该社区版本只是软件。Greenplum社区报表包括3个协作模块Greenplum DB, MADlib, 和Alpine Miner。

处理大数据量的开源工具包括Hadoop、Map/Reduce,以及Jaspersoft 的BI工具。

Jaspersoft提供的BI工具,提供了报告、分析、ETLETL (解压、转换、加载) ,针对大量的并行分析数据库,包括EMC Greenplum和HP Vertica。Jaspersoft也提供本地报告,通过Hadoop和各种类型的NoSQL数据库包括MongoDB, Riak, CouchDB and Infinispan的开源连接。

标签:战争,IBM,微软,海量,Hadoop,开源,赢得,数据
From: https://blog.51cto.com/u_11295556/5911864

相关文章