4、大数据定义及4V特性
那么到底什么是大数据呢?大数据是指超出了常规数据库获取、存储、管理和分析能力的数据集合。在总数据量相同的情况下,与个别分析独立的小型数据集相比,合并后进行分析可得出许多额外的信息和数据关系性(WIKI)。大数据一般具有四个基本特种,如下图5所示:

图5 大数据四大特性
这四个特性的英文单词都从V字开头的,因此也叫4V特性。在这个4V特性中,v1数据量大特性是指通过过去的集中式存储技术很难满足数据处理需求,因为集中存储设备的控制器缓存及数量将会成为IO瓶颈,就算能够解决但成本非常高。因此,在大数据环境下分布式技术显得更加适合推广和设计开发。V4特性速度快是指在后台实时处理并关联分析大量数据,并快速展现给正在使用数据的个人或群体。例如淘宝双十一交易量,当我们看到某个网页或购买某种产品时,给给我们及时推荐的类似内容和商品等。V3特性价值密度低是指数据量大到已经超过过按GB或TB等存储单位来存储的计量范围(为了存储这些数据,得买大量存储设备或存储空间),从中获取的有用数据反而很小。就像社交媒体软件APP上看了半天短视频,都不知自己学了点儿什么一样。V2特性类型多可谓非常关键,简单说大数据的本质是结构化和非结构数据的关联分析。其中非结构化数据的分析尤为重要,涉及到模式识别、数据挖掘、统计学、线性代数等。如下图6所示的是大数据概念热门时期较早出现的几本代表著作:

图6 大数据热潮中较早出现几本著作
5、大数据两大分支-处理与分析
实际上,大数据管理技术可分为两大范畴,即大数据处理和大数据分析。处理技术主要解决大量数据所需的分布式存储空间和快速的分布式计算问题。其代表的NoSQL数据库中对数据数据管理目的,尤其是数据一致性保障问题的认识发生了变化,而这些变化具有两个重要理论为依据——CAP理论与BASE原则。CAP理论的基本思想是指,一个分布式系统不能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition Tolerance)3个需求,而最多只能同时满足其中的两个特征,所如图7所示。
图7 CAP理论
大数据分析范畴更注重数据挖掘和数据科学技术以自动化或智能化手段将大量数据中发现内在关联关系和将其应用企业经营提升数据资产价值最大化,如图8所示。
图8 数据挖掘过程
回顾在人类文明演变史,再开始造纸术、印刷术就是当时的数据存储技术。而现在个体之间连接密度空前加大,借助移动互联网每个人从过去的数据消费者转变为数据的生产者,因此研究怎么有效处理和分析数据的数据科学发展过程实际上也是人类对真实世界的建模过程。如图9所示:
图9 数据挖掘过程
6、结束语
从大数据的两大分支可以看出,大数据最终目的是分析和建模的手段挖掘数据内在价值。因此建设大数据平台前要理解什么是大数据,且要认清自己所属组织通过建设大数据平台来想要解决什么问题非常关键。玉工在“精益创业”一本书中曾经看过做一个产品或创业设想的最小化或最小规模方式尝试实现后再根据客户或市场需求逐步做大完善的思想,实际上这个思想非常适合大数据平台的建设。为了建模我们必须有数据,但这并不是说必须搭建大量服务器和采集大量数据的大规模平台才能实现建模。一开始我们要做的也许只是训练和测试所需数据而已,这些数据也许不用搭建很大规模平台,而其他手段也能够采集、处理、清晰之后用于训练和建模过程。通过前期训练数据,如果训练和测试的能够得到良好的模型,那么这样的大数据平台值得继续投入和规模化扩展。对甲方来说,乙方大数据分析和建模能力也是考核大数据公司的核心指标,因此,想管理好您的数据,请先判断模型是否做成而不是所采集和存储的数量占用了多少个机柜空间或多少PB的存储空间。参考资料:
数据挖掘概念与技术 Jiawei Han Micheline Kamber
数据科学 韩乐门
https://mp.weixin.qq.com/s/6uXypUmF4CuUq7828yn-sg