大数据的智能时代

 “大数据”(BigData)是继云计算、物联网之后IT产业又一次颠覆性的技术变革。当今信息时代所产生的数据量已经大到无法用传统的工具进行采集、存储、管理和分析。大数据不是云计算,而是云计算的终极目标和升级方向;大数据只有当针对某个方面的应用,找出数据源,确定数据量,选择处理方法,并得出最终结果的过程才有意义。即:大数据=互联网+有价值的数据+应用+方法。互联网是大数据的载体;离开了一定量的数据,大数据就失去了灵魂;避开实际应用数据量再大也将毫无意义;没有正确的方法管理数据,应用就成了无本之木。

而无论是分析专家还是数据科学家最终都会殊途同归的探索新的,无法想象的庞大数据集,以期发现一些有价值的趋势、形态和解决问题的方法。由于多大数据源都是半结构化或多结构化的,而不是非结构化的,因此处理数据不像处理传统结构化数据那么简单。而要处理半结构化的数据,不但需要花费很多时间,而且也很难找出解决问题的方法。这也是为什么人们很难就大数据给出一个即严格又准确的定义,而是用几乎玄学的说法去神话它的存在。这也是为什么大数据发展至今也没有建立起一套完整的理论体系的原因所在。对它的定义也多少有些牵强附会和模棱两可。

今天大数据时代已悄然来到我们身边,并渗透到我们每个人的日常生活消费之中,每时每刻,事无巨细,谁都无法回避,因为它无微不至:它提供了光怪陆离的全媒体,难以琢磨的云计算,无法抵御的虚拟仿真的环境和随处可在的网络服务,这就是大数据带给人类的福音。说穿了,大数据就是互联网的产物,同时它又让互联网生机无限。而随着互联网的技术的蓬勃发展,我们一定会迎来大数据的智能时代,即大数据的技术和你我生活紧密相连,它也再不仅仅是人们津津乐道的一种时尚,而是作为我们生活上的向导和助手存在于世。我们完全有理由期待着这一天早日到来。

 
一、大数据的基本概念

大数据(BigData)是继云计算、物联网之后IT产业又一次颠覆性的技术变革。当今信息时代所产生的数据量已经大到无法用传统的工具进行采集、存储、管理与分析。全球产生的数据量,仅在2011就达到1ZB,且根据预测,未来十年全球数据存储量将增长50倍。大数据不是云计算, 而是云计算的终极目标和升级方向,更是数据量,实际应用以及处理方法的过程和结果。即:

大数据=数据量+实际应用+处理方法

离开了一定的数据量,大数据就失去了灵魂; 避开实际应用数据量再大也将毫无意义;没有正确的方法管理数据量,应用就成了无本之木。总之无论是分析专家还是数据科学家最终都会殊途同归的去探索新的,无法想象的庞大数据集,以发现一些有价值的趋、形态和解决问题的方法。由于数据源和相关应用之间的关系的复杂性,即很多大数据源都是半结构化或多结构化的,而不是非结构化的,因此处理数据不像处理传统结构化数据那么简单,要驾驭半结构化的数据,需要花费很多时间,且很难找出处理它们的方法。因此人们很难就大数据给出一个即严格又准确的定义,而是用几乎玄学的说法去神话它的存在。这也是为什么大数据发展至今也没有建立起一套完整的理论体系的原因所在。而很多对它的所谓定义都很牵强和模棱两可。技术层面上看,大数据无法用单台的计算机进行处理,而必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但它必须依托一些现有的数据处理方法,如云计算的分布式处理、分布式数据库、云存储和/或虚拟化技术。


二、大数据的发展简史

回顾过去的50 多年,我们可以看到IT 产业已经经历过几轮新兴和重叠的技术浪潮。这里面的每一波浪潮都是由新兴的IT 供应商主导的。他们改变了已有的秩序,重新定义了已有的计算机规范,并为进入新时代铺平了道路。所有这一切开始于60 年代和70 年代的大型机浪潮,它是以BUNCH(Burroughs、Univac、NCR、Control Data 和Honeywell)等公司为首的。然后,在步入70 年代和80 年代后,小型机浪潮和分布式计算涌现出来,为首的公司包括:DEC、IBM、Data General、Wang、Prime 等。

在70 年代后期到进入90 年代,微处理器或者个人计算机浪潮冲刷了IT 产业,领先者为Microsoft、Intel、IBM 和Apple 等公司。从90 年代中期开始,我们进入了网络化浪潮。如今,全球在线的人数已经超过了10 亿,而且有更多几倍的人在使用移动电话。这一浪潮由Cisco、Google、Oracle、EMC、Salesforce.com 等公司领导。有些公司更善于驾驭这些连续的浪潮,而另一些公司则被落下了。

那么,下一波浪潮会是什么?它还没有被正式命名。我们更愿意称它为云计算和大数据浪潮。其实,不管它被叫做什么,它都将比在它之前发生过的浪潮更大、触及面更广。非常重要的是:新的浪潮正在迅速地朝我们涌来,并将触及IT的各个方面。

数字信息每天在无线电波、电话电路和计算机电缆中川流不息。我们周围到处都是数字信息。我们在高清电视机上看数字信息,在互联网上听数字信息,我们自己也在不断制造新的数字信息。每次用数码相机拍照后,都产生了新的数字信息,通过电子邮件把照片发给朋友和家人,又制造了更多的数字信息。

不过,我们不知道的是,这些数字比特总共有多少?数字比特增加的速度有多快?比特激增意味着什么?

人们制造、获取和复制的所有1 和0 组成了数字世界。人们通过拍照片和共享音乐制造了数字比特,而公司则组织和管理对这些数字信息的访问和存储并为其提供安全保障。

三种主要的模拟数字转换为这种增长提供了动力:用胶片拍摄影像转换为数字影像拍摄、模拟语音转换为数字语音,以及模拟电视转换为数字电视。从数码相机、可视电话、医用扫描仪到保安摄像头,全世界有10 亿多台设备在拍摄影像,这些影像成为数字宇宙中最大的组成部分。这些影像通过互联网、企业内部网在PC 和服务器及数据中心中复制,通过数字电视广播和数字投影银幕播放。

2007 年是人类创造的信息量有史以来第一次在理论上超过可用存储空间总量的一年。然而,这没有什么好怕的,调查结果强调现在人类应该也必须合理调整数据存储和管理。有很多数据是没有必要复制和存储下来的,而且存储那些数据的成本也很高。

IDC和EMC都认为数字信息量的增长是因为网络应用的不断增长,以及人类开始将物理数据转化为数字格式的数据所致。被存储下来的数据从本质上说已经发生了重大的变化,数字化数据总量增长得很快。大约在30 年前,通信行业的数据大部分是结构化数据。如今,多媒体技术的普及导致非结构化数据如音乐和视频等的数量出现爆炸式增长。虽然30 多年前的一个普通企业用户文件也许表现为数据库中的一排数字,但是如今的类似普通文件可能包含许多数字化图片和文件的影像或者数字化录音内容。现在,95%以上的数字信息都是非结构化数据。在各组织和企业中,非结构化数据占到了所有信息数据总量的80%以上。

“可视化”是引起数字世界急速膨胀的主要原因之一。由于数码相机、数码监控摄像机和数字电视内容的加速增多,以及信息的大量复制趋势,使得数字宇宙的容量和膨胀速度超过此前估计。

IDC 的数字世界白皮书指出,个人日常生活的“数字足迹”也大大刺激了数字宇宙的快速增长。通过互联网及社交网络、电子邮件、移动电话、数码相机和在线信用卡交易等多种方式,每个人日常生活都在被数字化。数字世界的规模从2006 年到2011 年这五年间膨胀了10倍!

大数据快速增长的部分原因归功于智能设备的普及,比如传感器和医疗设备,以及智能建筑,比如大楼和桥梁。此外,非结构化信息,比如文件、电子邮件和视频,将占到未来10 年新生数据的90%。非结构化信息的增长部分应归功于高宽带数据的增长,比如视频。

用户手中的手机和移动设备是数据量爆炸的一个重要原因,目前,全球用户拥有50 亿台手机,其中20 亿台为智能电话,这相当于80 年代20 亿台IBM 的大型机在消费者手里。


三、大数据技术架构

各种各样的大数据应用需求迫切需要新的工具和技术来存储、管理和实现商业价值。新的工具、流程和方法支撑起了新的技术架构,使得企业能够建立、操作和管理这些超大规模的数据集和储藏数据的存储环境。在全新的数据增长速度条件下,一切都必须重新评估。这项工作必须从全盘入手,并考虑大数据分析。

要容纳数据本身,IT 基础架构必须能够以经济的方式存储比以往更大量、类型更多的数据。此外,还必须能适应数据速度,即数据变化的速度。数量如此大的数据难以在当今的网络连接条件下快速来回移动。大数据基础架构必须分布计算能力,以便能在接近用户的位置进行数据分析,减少跨越网络所引起的延迟。随着企业逐渐认识到必须在数据驻留的位置进行分析,分布这类计算能力,以便为分析工具提供实时响应将带来挑战。考虑到数据速度和数据量,来回移动数据进行处理是不现实的。相反,计算和分析工具可能会移到数据附近。而且,云计算模式对大数据的成功至关重要。云模型在从大数据中提取商业价值的同时也在驯服它。这种交付模型能为企业提供一种灵活的选择,以实现大数据分析所需的效率、可扩展性、数据便携性和经济性。仅仅存储和提供数据还不够,必须以新方式合成、分析和关联数据,才能提供商业价值。部分大数据方法要求处理未经建模的数据,因此,可以用来跨毫不相干的数据源比较不同类型的数据和进行模式匹配。这使得大数据分析能以新视角挖掘企业传统数据,并带来传统上未曾分析过的数据洞察力。基于上述考虑,我们构建了适合大数据的四层堆栈式技术架构。

1.基础层

第一层作为整个大数据技术架构基础的最底层,也是基础层。要实现大数据规模的应用,企业需要一个高度自动化的、可横向扩展的存储和计算平台。这个基础设施需要从以前的存储孤岛发展为具有共享能力的高容量存储池。容量、性能和吞吐量必须可以线性扩展。

云模型鼓励访问数据并提供弹性资源池来应对大规模问题,解决了如何存储大量数据,以及如何积聚所需的计算资源来操作数据的问题。在云中,数据跨多个节点调配和分布,使得数据更接近需要它的用户,从而缩短响应时间和提高生产率。

2.管理层

要支持在多源数据上做深层次的分析,大数据技术架构中需要一个管理平台,使结构化和非结构化数据管理为一体,具备实时传送和查询、计算功能。本层既包括数据的存储和管理,也涉及数据的计算。并行化和分布式是大数据管理平台所必须考虑的要素。

3.分析层

大数据应用需要大数据分析。分析层提供基于统计学的数据挖掘和机器学习算法,用于分析和解释数据集,帮助企业获得对数据价值深入的领悟。可扩展性强、使用灵活的大数据分析平台更可成为数据科学家的利器,起到事半功倍的效果。

4.应用层

大数据的价值体现在帮助企业进行决策和为终端用户提供服务的应用。不同的新型商业需求驱动了大数据的应用。反之,大数据应用为企业提供的竞争优势使得企业更加重视大数据的价值。新型大数据应用对大数据技术不断提出新的要求,大数据技术也因此在不断的发展变化中日趋成熟。


四、大数据的特点

大数据(BigData)通常用来形容一个公司创造的大量非结构化和半结构化数据,这些数据在下载到关系数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。简言之,从各种各样类型的数据中,快速获得有价值信息的能力,就是大数据技术。明白这一点至关重要,也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V” 即4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。换句话说其特点有四个层面:
1)数据体量巨大。从TB级别,跃升到PB级别;
2)数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。
3)价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒。
4)处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。  
    
业界将其归纳为4个“V”——Volume,Variety,Value,Velocity。而物联网、云计算、移动互联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。


五、大数据技术

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据技术分为整体技术和关键技术两个方面。

(1)整体技术

数据采集:ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。

数据存取:关系数据库、NOSQL、SQL等。

基础架构:云存储、分布式文件存储等。

数据处理:自然语言处理(NLP,Natural Language Processing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言,所以自然语言处理又叫做自然语言理解(NLU,Natural Language Understanding),也称为计算语言学(Computational Linguistics)。一方面它是语言信息处理的一个分支,另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

统计分析:假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析(最优尺度分析)、bootstrap技术等等。

数据挖掘:分类(Classification)、估计(Estimation)、预测(Prediction)、相关性分组或关联规则(Affinity grouping or association rules)、聚类(Clustering)、描述和可视化、Description and Visualization)、复杂数据类型挖掘(Text, Web ,图形图像,视频,音频等)

模型预测:预测模型、机器学习、建模仿真。

结果呈现:云计算、标签云、关系图等。

(2)关键技术

大数据处理关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。

大数据采集技术:数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化(或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。

大数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等。

大数据预处理技术:主要完成对已接收数据的辨析、抽取、清洗等操作。
1)抽取:因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型,以达到快速分析处理的目的。
2)清洗:对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。

大数据存储及管理技术:大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、备份、复制等技术;开发大数据可视化技术。

开发新型数据库技术: 数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库等类型。关系型数据库包含了传统关系数据库系统以及NewSQL数据库。开发大数据安全技术。改进数据销毁、透明加解密、分布式访问控制、数据审计等技术;突破隐私保护和推理控制、数据真伪识别和取证、数据持有完整性验证等技术。

大数据分析及挖掘技术:

大数据分析技术。改进已有数据挖掘和机器学习技术;开发数据网络挖掘、特异群组挖掘、图挖掘等新型数据挖掘技术;突破基于对象的数据连接、相似性连接等大数据融合技术;突破用户兴趣分析、网络行为分析、情感语义分析等面向领域的大数据挖掘技术。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘涉及的技术方法很多,有多种分类法。根据挖掘任务可分为分类或预测模型发现、数据总结、聚类、关联规则发现、序列模式发现、依赖关系或依赖模型发现、异常和趋势发现等等;根据挖掘对象可分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异质数据库、遗产数据库以及环球网Web;根据挖掘方法分,可粗分为:机器学习方法、统计方法、神经网络方法和数据库方法。机器学习中,可细分为:归纳学习方法(决策树、规则归纳等)、基于范例学习、遗传算法等。统计方法中,可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等)等。神经网络方法中,可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。数据库方法主要是多维数据分析或OLAP方法,另外还有面向属性的归纳方法。

从挖掘任务和挖掘方法的角度,着重突破:
1.可视化分析。 数据可视化无论对于普通用户或是数据分析专家,都是最基本的功能。数据图像化可以让数据自己说话,让用户直观的感受到结果。
2.数据挖掘算法。图像化是将机器语言翻译给人看,而数据挖掘就是机器的母语。分割、集群、孤立点分析还有各种各样五花八门的算法让我们精炼数据,挖掘价值。这些算法一定要能够应付大数据的量,同时还具有很高的处理速度。
3.预测性分析。预测性分析可以让分析师根据图像化分析和数据挖掘的结果做出一些前瞻性判断。
4.语义引擎。语义引擎需要设计到有足够的人工智能以足以从数据中主动地提取信息。语言处理技术包括机器翻译、情感分析、舆情分析、智能输入、问答系统等。
5.数据质量和数据管理。数据质量与管理是管理的最佳实践,透过标准化流程和机器对数据进行处理可以确保获得一个预设质量的分析结果。

大数据展现与应用技术:大数据技术能够将隐藏于海量数据中的信息和知识挖掘出来,为人类的社会经济活动提供依据,从而提高各个领域的运行效率,大大提高整个社会经济的集约化程度。

在我国,大数据将重点应用于以下三大领域:商业智能、政府决策、公共服务。例如:商业智能技术,政府决策技术,电信数据信息处理与挖掘技术,电网数据信息处理与挖掘技术,气象信息分析技术,环境监测技术,警务云应用系统(道路监控、视频监控、网络监控、智能交通、反电信诈骗、指挥调度等公安信息系统),大规模基因序列分析比对技术,Web信息挖掘技术,多媒体数据并行化处理技术,影视制作渲染技术,其他各种行业的云计算和海量数据处理应用技术等。


六、大数据处理分析的三种典型工具介绍

大数据分析是研究大量的数据的过程中寻找模式,相关性和其他有用的信息,可以帮助企业更好地适应变化,并做出更明智的决策。

1.Hadoop

Hadoop 是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop 是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理 PB 级数据。此外,Hadoop 依赖于社区服务器,因此它的成本比较低,任何人都可以使用。其特点是:

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

(1)高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

(2)高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

(3)高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

(4)容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

Hadoop带有用 Java 语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。Hadoop 上的应用程序也可以使用其他语言编写,比如 C++。

2.HPCC

HPCC,High Performance Computing and Communications (高性能计算与通信)的缩写。1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。该项目主要由五部分组成:

(1)高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;

(2)先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;

(3)国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;

(4)基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支持这些调查和研究活动;

(5)信息基础结构技术和应用(IITA ),目的在于保证美国在先进信息技术开发方面的领先地位。

3.Storm

Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。

Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、

ETL(Extraction-Transformation-Loading的缩写,即数据抽取、转换和加载)等等。Storm的处理速度惊人:经测试,每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错,很容易设置和操作。


七、大数据的2个案例

(1)IBM战略IBM的大数据战略以其在2012年5月发布智慧分析洞察“3A5步”动态路线图作为基础。所谓“3A5步”,指的是在“掌握信息”(Align)的基础上“获取洞察”(Anticipate),进而采取行动(Act),优化决策策划能够救业务绩效。除此之外,还需要不断地“学习”(Learn)从每一次业务结果中获得反馈,改善基于信息的决策流程,从而实现“转型”(Transform)。

基于“3A5步”动态路线图,IBM提出了“大数据平台”架构。该平台的四大核心能力包括Hadoop系统、流计算(Stream Computing)、数据仓库(Data Warehouse)和信息整合与治理(Information Integration and Governance)。如下图所示。

在大数据处理领域,IBM于2012年10月推出了IBM Pure Systems专家集成系统的新成员——IBM Pure Data系统。这是IBM在数据处理领域发布的首个集成系统产品系列。Pure Data系统具体包含三款产品,分别为Pure Data System for Transactions、Pure Data System for Analytics和Pure Data System for Operational Analytics,可分别应用于OLTP(联机事务处理)、OLAP(联机分析处理)和大数据分析操作。与此前发布的IBM Pure Systems系列产品一样,IBM Pure Data系统提供内置的专业知识、源于设计的集成,以及在其整个生命周期中的简化体验。

(2)大数据时代的热潮,微软公司生产了一款数据驱动的软件,主要是为工程建设节约资源提高效率。在这个过程里可以为世界节约40%的能源。抛开这个软件的前景不看,从微软团队致力于研究开始,可以看他们的目标不仅是为了节约了能源,更加关注智能化运营。通过跟踪取暖器、空调、风扇以及灯光等积累下来的超大量数据,捕捉如何杜绝能源浪费。“给我提供一些数据,我就能做一些改变。如果给我提供所有数据,我就能拯救世界。”微软史密斯这样说。而智能建筑正是他的团队专注的事情。


八、大数据未来走向

大数据正在以不可阻拦的磅礴气势,与当代同样具有革命意义的最新科技进步(如纳米技术、生物工程、全球化等)一起,揭开人类新世纪的序幕。

对于地球上每一个普通居民而言,大数据有什么应用价值呢? 只要看看周围正在变化的一切,你就可以知道,大数据对每个人的重要性不亚于人类初期对火的使用。大数据让人类对一切事物的认识回归本源;大数据通过影响经济生活、政治博弈、社会管理、文化教育科研、医疗保健休闲等等行业,与每个人产生密切的联系。

大数据技术离你我都并不遥远,它已经来到我们身边,渗透进入我们每个人的日常生活消费之中,时时刻刻,事事处处,我们无法逃遁,因为它无微不至:它提供了光怪陆离的全媒体,难以琢磨的云计算,无法抵御的仿真环境。通过大数据技术,人们能够在医院之外得悉自己的健康情况;而通过收集普通家庭的能耗数据,大数据技术给出人们切实可用的节能提醒;通过对城市交通的数据收集处理,大数据技术能够实现城市交通的优化。

2013年,大数据应用带来了令人瞩目的成绩。作为新的重要资源,世界各国都在加快大数据的战略布局,制定战略规划。美国奥巴马政府发起了《大数据研究和发展倡议》,斥资2亿美元用于大数据研究;英国政府预计在大数据和节能计算研究上投资1.89亿英镑;法国政府宣布投入1150万欧元,用于7个大数据市场研发项目;日本在新一轮IT振兴计划中,将发展大数据作为国家战略层面提出,重点关注大数据应用技术,如社会化媒体、新医疗、交通拥堵治理等公共领域的应用。

中国的“基础研究大数据服务平台应用示范项目”正在启动,有关部门正在积极研究相关发展目标、发展原则、关键技术等方面的顶层设计。目前我国大数据产业还处于发展初期,市场规模仍然比较小,2012年仅为4.5亿元,而且主导厂商仍以外企居多。2016年我国大数据应用的整体市场规模将突破百亿元量级,未来将形成全球最大的大数据产业带。然而,相对于发展前景的乐观预测,我国发展大数据产业面临的现实挑战更值得认真分析和对待。

总而言之,大数据技术的发展有可能解开宇宙起源的奥秘。因为,计算机技术将一切信息无论是有与无、正与负,都归结为0与1,原来一切存在都在于数的排列组合,在于大数据。

(2014-6-6)

登录后才可评论.