

01
在以互联网为基础的移动互联网、云计算和物联网等新趋势及新技术推动下,信息技术的发展及创新正使各个产业发生改变。智能设备的普及、物联网的广泛应用、存储设备性能的提高、网络带宽的不断增长,为大数据的产生提供了储存和流通的物质基础。随着互联网商业模式和数字化应用渗透着各行各业,每天都有海量数据生成。大数据正是在这样的背景下应运而生的。
2010年2月,美国《经济学人》杂志发表了《The Data Deluge》封面文章,文章指出,今天世界上的信息数量正以恐怖的速度递增,随着这股信息洪流不断增加,分析这些数据,提取并存储有用信息将变得更困难。2011年6月麦肯锡咨询公司发布《大数据:下一个竞争、创新和生产力的前沿领域》研究报告,报告指出,数据正渗透到当今每一个行业和业务职能领域,成为重要的生产因素。各行各业海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来,“大数据”时代已经降临。
02
大数据时代的到来,也给信息分析工作带来了更大的机遇和挑战。大数据本身是一个比较抽象的概念,单从字面来看,它表示数据规模的庞大。但是仅仅从数量上的庞大显然无法看出大数据这一概念和以往的“海量数据”、“超大规模数据”等概念之间有何区别。对于大数据尚未有一个公认的定义,不同的定义基本上是从大数据的特征出发,通过这些特征的阐述和归纳试图给出其定义。在这些定义中,比较有代表性的是3V定义,即认为大数据须满足3个特点:规模性(volume)、多样性(variety)和高速性(velocity)。除此之外,还有提出4V定义的,即尝试在3V的基础上增加一个新的特性,真实性(Veracity)。后来IBM在4V的基础上又提出了第5个“V”,即价值性(Value)。目前仍有研究者向5V体系中添加更多大数据的特点,但5V仍然是当下最被接受的大数据特征总结。
维基百科对大数据的定义简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。结合常说的大数据的几种特性来审视大数据的话,可以发现:
(1)Volume,数据体量大。大型的数据集动辄多少TB甚至多少PB,这在以前是无法想象的,在此类情况下已经无法用传统的数据库工具对其内容进行抓取、管理和处理,更不用说用传统的人工分析了。
(2)Variety,数据多样性。数据来自多种数据源,数据种类和格式日渐丰富,已冲破了以前所限定的结构化数据范畴,囊括了半结构化和非结构化数据,信息分析也面临着多源数据的处理和文本数据的语义分析等挑战。
(3)Velocity,处理速度快。一方面是数据量的庞大,另外一方面是客观应用又有实时性需求,以前平衡两者之间的矛盾经常采用的方式是抽样,现在看来也越来越不适用了,一来抽样本身需要耗时,而且大数据分析中希望分析的是全部数据,而非抽样数据,只有这样才能保证数据的完整和挖掘的可信。
(4)Veracity,数据的真实性,指保证数据的质量/完整性/可信性以及准确性,当下大数据往往来源于多种渠道,因此在使用数据进行相关业务的分析之前,需要对数据的真实性进行查验
(5)Value,数据的价值性,对数据价值性的理解存在两种说法。其一强调大数据具有高价值,认为不管是大数据分析还是一般意义上的数据分析,其目标都是为了能够创造价值,尤其需要强调的是人们在大规模数据的基础上可以做的事情,可能是以前在小规模数据的基础上无法实现的。换句话说,大数据环境下的信息分析将使得分析者能够获得有巨大价值的产品和服务,或者是深刻的洞见,并最终形成变革之力,这种说法以IBM为代表。而另一种说法则认为,大数据的价值性指大数据价值密度相对较低。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。
03
随着信息化水平的提升,企业内建设的信息系统逐渐增多,为企业的日常运作带来了便利,提高了企业的管理效率。企业内管理的数据格式一般包括结构化数据和非结构化数据两种。其中结构化数据一般指统一格式、有固定字段、能基于关系型数据库定义的数据。另外一种是非结构化数据,这种数据没有固定的格式,或者其格式经常发生变化,不能用一些固定的方法进行格式化。非结构化的数据总体上具备分布广泛、格式多样化以及数据量大等特征。因而,企业信息系统的数据管理偏重于结构化数据的管理。然而,随着信息化系统的持续运行,企业的数据在不断积累,逐渐形成了大数据的环境。根据IDC的调查报告显示,现在企业的结构化数据只占全部数据量的20%,剩下的80%是以文件形式存在的非结构化和半结构化数据,这些非结构化数据每年增加60%。因此,企业信息系统应当关注企业中存在的大量非结构化数据,利用大数据技术挖掘其中的商业价值。
大数据技术是在信息系统环境下,将数据结构比较复杂、关联性比较强的海量数据进行数据挖掘与加工处理的技术集合,是客观世界与虚拟世界沟通的桥梁。大数据技术是系统科学、通信技术、决策支持系统等领域在发展运行过程中与海量数据及增量数据使用的经验挖掘。理解并使用好大数据,应从以下两方面入手:一方面从信息系统建设的数据源着手,用数据提炼模型的基础技术和运筹学的基础原理解决现实世界的有规律事务,并对事务进行客观描述及应用;另一方面需要遵循结构化开发方法的基础原则,坚持“自顶向下”及“自底向上”相结合的原则,在信息系统运行中不断采集及挖掘数据,对不同职能的信息数据以及相关信息数据的主要特征进行归纳并整理。企业信息化发展到如今的大数据阶段,必然面临如何处理日益增长的大数据的问题,企业亟需管理和增值这部分数据,通过采集、存储、搜索、聚合、分析和展现给企业带来更多价值。整合企业流程与商业决策的关键在于信息系统。

随着大数据分析技术不断完善,未来对信息系统建设的海量数据挖掘及加工处理手段会越来越多样化,转变传统对数据只重管理而忽略技术分析的观念。大数据要充分体现其使用价值,只有将信息系统建设及信息产业发展的核心转移到市场上才能发挥其主体作用,挖掘纷繁数据的意义,产生巨大社会经济价值。
04
大数据已经不再简简单单是数据量大的事实了,最重要的现实是对大数据进行分析,只有通过分析才能获取智能的、深入的、有价值的信息。大数据时代的到来对传统的信息分析工作造成了很大的冲击,同时也对信息分析研究工作拓宽服务对象、采用现代化研究手段、提高从业人员业务素质和研究水平等方面提出了更高的要求。大数据分析主要有以下五个层面:
① 可视化分析。大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观地呈现大数据的特点,同时非常容易被读者所接受,就如同看图说话一样简单明了。
② 数据挖掘算法。大数据分析的理论核心就是数据挖掘算法,各种数据挖掘的算法基于不同的数据类型和格式才能更加科学地呈现出数据本身具备的特点,也正是因为这些被全世界统计学家所公认的各种统计方法,才能深入数据内部,挖掘出公认的价值。大数据环境对各种数据挖掘方法提出了许多新的挑战。
③ 预测性分析。大数据分析最重要的应用领域之一就是预测性分析,从大数据中挖掘出特点,通过科学地建立模型,之后便可以通过模型代入新的数据,从而预测未来的情况。
④ 语义引擎。非结构化数据的多元化给数据分析带来新的挑战,我们需要一套工具系统地去分析,提炼数据。语义引擎需要设计到有足够的人工智能,足以从数据中主动地提取信息。
⑤ 数据质量和数据管理。大数据分析离不开数据质量和数据管理。无论是在学术研究还是在商业应用领域,高质量的数据和有效的数据管理都能保证分析结果的真实性和价值性。
随着大数据应用的爆发式增长,大数据已经衍生出了自己独特的架构,而且直接推动了存储、网络以及计算技术的发展。当然,硬件的发展最终也还是由软件需求推动的,在政务管理、科学研究、商业应用等诸多方面产生了大量的大数据分析需求。以商业应用为例,“大数据”可以为企业提供精准的价值主张:①洞悉消费者的真实需求。消费者的真实需求具有隐蔽性、复杂性、易变性和情景依赖性,“大数据”使企业获得消费者的真实需求成为可能。例如网友在网络中的点击、浏览、评论等行为能直接反映消费偏好和意愿。②消费者精准细分。根据消费者的网络和使用行为数据,可以对消费者精心“精准画像”,从而运用于消费市场细分和精准营销等领域。③产品实时分析。大数据的实时个性化以及多来源、多格式数据的快速综合对比分析能力使数据的收集、整理、分析、反馈、响应可以在瞬间完成,使企业随时随地精准圈定用户群,并满足他们的真实需求和潜在需求成为可能。零售业就是一个典型的数据驱动定制化的行业,目前在线零售商利用实时数据提供精准的商品推介已经十分普遍。

农夫山泉大数据系统的应用
关于运输的数据场景到底有多重要呢?将自己定位成“大自然搬运工”的农夫山泉,在全国有十多个水源地。农夫山泉把水灌装、配送、上架,一瓶超市售价2元的550ml饮用水,其中3毛钱花在了运输上。在农夫山泉内部,有着“搬上搬下,银子哗哗”的说法。如何根据不同的变量因素来控制自己的物流成本,成为问题的核心。
基于上述场景,SAP团队和农夫山泉团队开始共同开发基于“饮用水”这个产业形态中,运输环境的数据场景进行开发,他们将很多数据纳入了进来:高速公路的收费、道路等级、天气、配送中心辐射半径、季节性变化、不同市场的售价、不同渠道的费用、各地的人力成本、甚至突发性的需求。在采购、仓储、配送这条线上,农夫山泉特别希望大数据获取解决三个顽症:首先是解决生产和销售的不平衡,准确获知该产多少,送多少;其次,让400家办事处、30个配送中心能够纳入到体系中来,形成一个动态网状结构,而非简单的树状结构;最后,让退货、残次等问题与生产基地能够实时连接起来。
2011年,SAP推出了创新性的数据库平台SAP Hana,农夫山泉成为全球第三个、亚洲第一个上线该系统的企业。利用这些大数据,农夫山泉计算出一套最优的仓储运输方案,使各条线路的运输成本、物流中心设置最佳地点等信息及时呈现;将全国十多个水源地、几百家办事处和配送中心整合到一个体系之中,形成一个动态网状结构,进行即时的管控。让退货、残次等问题与生产基地能够实时连接起来,通过大数据准确获知该生产多少,送多少。农夫山泉最终解决了采购、仓储、配送这条线上的顽症,实现产品运输决策的智能化、物流成本的精准化、运输资源的配置合理化。
有了强大的数据分析能力做支持后,农夫山泉运用大数据技术,销售、市场费用、物流、生产、财务等数据的计算速度,从过去的24小时缩短到了0.67秒,几乎做到实时计算,极大地提高了销售额和市场份额。并且精准的管控物流成本将不再局限于已有的项目,也可以针对未来的项目。农夫山泉董事长只要将手指放在一台平板电脑显示的中国地图上,随着手指的移动,建立一个物流配送中心的成本就随之显示出来。

转载:请在微信后台回复“转载”
商业合作或投稿:xvmaster130@163.com




