半个世纪信息技术的发展,主要解决的是云计算中“结构性”数据的存储、处理与应用。“结构性”数据的特征有如你到银行去存取款,银行的计算机系统记录着你的名字,在名字之后是你存取款的数量、时间、类型等信息。这些数据的特征是“逻辑性强”,每个“因”都有“果”。
|
半个世纪信息技术的发展,主要解决的是云计算中“结构性”数据的存储、处理与应用。“结构性”数据的特征有如你到银行去存取款,银行的计算机系统记录着你的名字,在名字之后是你存取款的数量、时间、类型等信息。这些数据的特征是“逻辑性强”,每个“因”都有“果”。
企业开展“大数据”分析程序需要一个强有力的实施计划,以确保分析过程切实可行。准备一个大数据倡议时,正确的选择将要使用的技术只是成功的一半。一旦企业确定了正确的数据库软件和分析工具,并开始将技术基础设施部署到位,就要准备向前进到一个新的水平,并开发出真正的成功策略。
近一两年来,尤其进入2012年后,“大数据”这个词儿就塞满了耳朵,无论是IT厂商,还是经济学家,还是媒体,似乎如果不讨论“大数据”,那就已经out了。笔者分别在百度和Google搜索了一下“大数据”,百度说“找到相关结果约13,100,000个”,Google说“找到约623,000,000条结果”,这里我们不讨论为何百度和Google为何出现了较大的搜索差……
大数据拥有巨大的发展空间,从各国政府对大数据的政策中可见一斑。美国总统奥巴马推出的大数据发展计划,集合全美最顶尖的专家,将数据转变成商业资产和价值。IT厂商纷纷推出各自的大数据战略,EMC也不例外。
万国数据认为:“高成长性企业以及其他客户,都对IT基础设施的可持续性运行能力要求很高,即使出现一次系统宕机或者系统响应不及时,都可能造成企业核心业务流程停止运行。所以,公有云真正的控制力就是要满足永不停机的需求。而在以虚拟化为核心的云计算平台中,不论是物理服务器需要停机进行维护,还是出现故障,虚拟机都可在以在线的、自动方式迁移到其集群内的物理服务器上,真正实……
就在去年刮过云计算之风,其中部分“泡沫”已经破裂,人们的关注度有些下降之后。大数据这个概念又被一些厂商“利用”为宣传利器,EMC作为其中的代表从去年EMCWorld2011大会就开始发动了攻势。
目前大数据存储有两种方案可供选择:行存储和列存储。业界对两种存储方案有很多争持,集中焦点是:谁能够更有效地处理海量数据,且兼顾安全、可靠、完整性。
Hadoop是基于谷歌文件系统(GFS)的,后者是用来支持谷歌的BigTable,而BigTable是面向列的数据库。因此,Hadoop更可能支持前文所提到的那些ColumnStore工具。在此前提到的工具中,许多工具已经开发了面向Hadoop的界面,因此它们可以利用Hadoop来存储数据。
未来十年内,全球数据量会增长4倍,可见大数据规模之大。随着客户需求的飞速变化,数据业务也在不断变化。怎么从数据里抽取出对公司业务有用的信息,去帮助公司增强运营效率十分关键。
那一个个关于大数据的传奇故事,一桩桩争夺大数据制高点而展开的并购案,一个接一个轮流发布大数据战略的IT厂商,还有那一场场以大数据为主题的各种研讨会,无一不在宣告,IT界又迎来了新的兴奋点、新的机遇,同时,也是新的挑战。
随着大数据热潮的涌现,CIO们必须了解的事情很多。本文IDG集团PCWorld记者JoabJackson所写,经常被用来当作针对大数据提出建议。