暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

第四范式——以数据为中心的价值变现

数据极客 2015-05-26
1488

“第四范式”是个很小众的称谓,但已经分别有来自国内和海外的创业公司采用它做为自己公司的名称,比如http://www.4paradigm.com/,还有http://www.paradigm4.com/ 。前者是来自曾主导百度凤巢的戴文渊于15年初启动的创业公司,面向企业大数据,后者则是老牌的SciDB,面向科学机构期望从存储引擎层面提供基于大数据层面的分析型查询。本文重要摘取了第四范式科技公司的博文,试图让更多的人熟悉这一领域跟我们的生活有多么密切相关。

第四范式来自于微软Jim Gray的一个演讲, 他曾获得1998年图灵奖,是关系数据库的鼻祖,也算是数据领域的牛顿或爱因斯坦。他的代表作是定义了ACID这四个数据库管理系统的特性,成就了Oracle甚至是IBM在数据库时代的辉煌。2007年1月28日,Jim Gray独自驾驶自己的小船出海,为母亲海葬,但是他这一去再也没有回来。他失踪前留给世界的最后一笔财富,是一个关于“第四范式”的演讲。在这个演讲 中,Jim Gray将人类的认知世界的方式分为四个阶段,每个阶段称为一个“范式”。最早期的“第一范式”,是几千年前的实验科学阶段。那时的人们在不断地观察和发现自然界的现象:天冷了水会结冰,物体摩擦后会变热,…对这一系列自然现 象的认识,指导着人们几千年的日常生产活动。观察并选取对自己有利的现象,进行复制,是这一时期人们改善生活的主要手段。例如,人们发现钻木可以取火,生火以后很暖和,就不断地重复这种取火的方法。来到距今几百年前,一个苹果引发了“第一范式”进阶到“第二范式”。当苹果砸到牛顿头上的时候,他想到的不是“苹果会往下落”这个现象,而是推演到“万有引力”这条理论。这种由具体现象上升到理论,再由理论来推演世间万物现象的思想,让人类进入到了“第二范式”的时代。除了牛顿定律,开普勒定律、麦克斯韦方程组、相对论等都是这一时期的产物。手握理论依据,人们不一定需要去观察已有现象,甚至可以推测一个没有见过的场景会出现什么样的现象。然而,随着理论推演的发展,推导过程中的计算量逐渐成为了瓶颈。据说中国造第一颗原子弹时,动用了大量的人力用算盘算了一年。电子计算机的出现突破了这一瓶颈。用计算机根据理论,模拟自然界的现象,大大拓展了理论推演的触及面,让人类在近几十年进入到了“第三范式”时代。如今,计算机模拟已经广泛被应用。 远的有模拟核试验。近的,与我们生活息息相关的,有天气预报,电影动画特效等。
计算机的出现,除了带来计算能力的显著提升外,还带来了存储能力的飞跃。通过强劲的存储能力,计算机以数据形式记录了比人类更多的自然现象。如今,天文望 远镜早已不是给人肉眼观察的了,而是为计算机带来海量的来自外太空的数据,供计算机分析外太空的情况。Jim Gray认为这将会让人类认知世界的方式发生新的变化。人们可以利用计算机的存储能力,从自然界收集到比过去多很多数量级海量数据,再利用计算机的计算能 力,从数据中发现有价值的规律。Jim Gray称之为“数据密集型科学”(Data-Intensive Science),也是“第四范式”(The Fourth Paradigm)。


这么讲可能不够通俗,这里作一个类比。在“第二范式”时代,牛顿终其一生,将他观察到的现象,总结出三条规律。但是,伟大如牛顿这样的专家,也是有局限的,他没有观察到速度特别快的情况下他的理论并不适用。如果牛顿能观察到更全面的现象,相信他还可以进一步修正和丰富自己的理论。在“第四范式”时代,我 们就是要用计算机来干牛顿的活。计算机的优势是,它能比牛顿分析更多的实例,全面覆盖从速度0到接近光速的情况。最终,计算机可能会根据观测的实例,总结 出“三千万定律”而不是“三定律”来刻画观测到的现象,“三千万定律”会比“三定律”对现象的描述更加精准。
拿牛顿来举例,只是为了形象。一个真实的案例,发生在对冲基金领域。传统对冲基金的投资逻辑,举例说:投资经理觉得未来两年水泥上涨的趋势是好的,但是有一个风险是万一国家出台一个对房地产不利的政策,那么这个看好的趋势就不成立了。因此,一个策略是买入水泥,并且买入相关衍生品来规避国家政策的影响。但是,投资经理的局限是,就像牛顿只能总结出三个定律一样,投资经理的精力是有限的,他们能发现的机会点和风险点也是有限的。近些年,新兴的对冲基金逐渐用计算机替代了投资经理,让计算机去发现投资经理精力无法顾及的机会和风险,并取得了比传统基金更为优秀的成绩。
另一个案例来自互联网。互联网公司可能是仅次于华尔街的大数据玩家,甚至某些程度上后来居上了。过去我们在网上买东西,网站会推荐给我们“买了商品A的顾 客,也买了B, C, D, …”。这其实只是一条规则。近年来,基于大数据建模技术,分析海量的用户购买行为,有些互联网公司已经有能力建立超过10^11条规则的规则库用来推荐商 品,覆盖你能想到和想不到的各种情况,推荐的成功率是以前的数倍。
说到底,在“第四范式”时代,就是计算机要代替科学家来从海量的观测数据中自动生成科学研究结果。那么,科学家们是不是就可以下岗了呢?不是的。科学家们在这个时代需要进化,拿一个很火的词来描述,就是要变成“数据科学家”。


但是,数据科学家具体要做一些什么样的工作呢?答案众说纷纭。
有一种很有名的说法,来自IBM,它们把“大数据”定义成为了“四个V”:Volume(体量大)、Variety(种类多)、Velocity(响应快),最后产生Value(价值)。这是一种很酷的说法。但是,仔细想想,“四个V”是否解答了“大数据的”的问题?其实,四个V至解答了一部分问题,也就是“系统能力”层面的问题。系统能力的提升,与价值提升之间,还是存在了一定gap的
另有一派人,是来自人工智能(包括机器学习、数据挖掘)的专家,他们认为“大数据”的问题就是一个更大规模的建模问题。于是,近年来,各种算法的并行化问题研究变得异常火热:并行的SVM,并行的决策树,包括近两年特别火热的深度学习。他们是否找到了“大数据”的真谛呢?如果是的话,每年人工智能、机器学习、数据挖掘毕业的博士上千人,再加上过去几十年积累的专家,不可能业界还这么缺数据科学家。建模能力只是大数据的一个环节,它重要,但不是全部。
最后一派是传统的业务专家,他们认为系统再牛、模型再花哨,不如懂业务。因为,如果你抓不住业务的需要,其他方面做得再牛,也不能解决问题。确实,我见过挺多看似高大上的所谓大数据系统,最后比不过专家写的几条规则。最夸张的,某ICML(机器学习领域最优秀的学习会议)论文的优秀算法的推荐系统,最后比不过专家的一条规则。不过,人毕竟有处理能力的局限,人工规则系统,上万条已是极限。真正要将规则做到极细分场景,例如拥有超过1亿条规则,就必须要依赖系统,依赖算法,自动生成规则。
实际上,对于一个出色的数据科学家来说,上面的三种能力,无一可以偏废,从这个角度来讲,我们更愿意把数据科学家的工作成为“数据极客”,因为他们的工作需要非常全面:能理解业务目标,擅长各类建模技术,有很强的系统能力。听懂业务的语言,将业务的语言翻译成模型的语言,并且将模型的语言,在数据量极大的情况下,变成系统的语言。所以,这是一个跨三领域的工作。任何领域的专家都容易找,能兼顾三个领域缺非常难得。
打个更形象的比方。与摄影类比,系统能力对应的是机身,建模能力对应到镜头,不同的镜头能帮助你提供各种视角的成像,但这也不是决定性因素。业务能力对应的是摄影师,好的摄影师可以拍出优秀的作品,但再优秀的摄影师也无法用iPhone在弱光中拍出好的夜景。一张好照片,合适的机身、镜头、摄影师,缺一不可。一个好的大数据系统,合适的业务、建模、系统,缺一不可。一个很多人都可以理解的道理是,即便一个很简单的操作,当数据量大了,都是不是一件很容易的事情。

对于模型来说,道理当然也是一样的。你有想象过,模型大到内存放不下吗?其实这是很容易遇到的问题。试想一个模型有100亿个特征,每个特征用double型存储,即便不算key值,也需要80G的存储空间才能存放下。如果是1000亿、10000亿,那就更不可能单机存下了。数据无法单机硬盘存下就是更普遍的现象了。当前动辄PB级别的数据量,需要调动几百上千台机器。
那么,如果同时满足上述两个情况呢?因为特征无法单机内存存下,需要分布在不同的机器上,数据也需要存放在不同的机器上,就会出现,基于这台机器上的数据 计算,得到的结论是,需要修改另一台机器上存放的特征值。这是一个相当复杂的调度过程,系统稍微设计得不太好,就会导致计算或者数据传输集中在少数几台机 器上,使得分布式的效率大大降低。
上面举的例子,相对还是比较容易想到的。有很多问题,如果你不亲身做一遍,可能很难想到,大数据下建个模型还会遇到这样的问题。例如,我们曾经发现过,因为有大量数据异常,最后发现黑客攻击,这部分数据导致模型效果大大折扣。我们也曾经发现,有的特征会随时间有大幅波动,导致模型效果起起伏伏,需要针对性设计解决方案。我们还发现,你不能假设集群里任意两台机器之间传输速率都是接近的。我们还被兄弟团队提醒过,需要注意不同配置的机器的耗电量,因为每个机架位的电是有限的——不是要配置性能最好的机器,而是要让有限的电发挥出最好的性能。
做过管理的人肯定有感触,管得人多了,什么事都有可能发生。争权夺利的、争风吃醋的、……同样管的数据多了,每天也会遇到各种问题。一台服务器如果一年宕机一次,可能不会带来什么困扰。但是,如果一个系统跑在1000台服务器上,这意味着你每天要面对3次宕机。
这种种可以或者不可以预见的困境,是给数据极客的工作带来了很大的烦恼。不过,乐观地看,也正是有这么多的困难,才有了数据极客存在的价值。

大数据早已与我们融为一 体,密不可分,比如:
一名规规矩矩的上班族,每天整理部门的资料累的苦不堪言,需要收集大量的数据和资料,不同部门关注不同的内容——财务部关注利润,生产部关注资源,销售部 关注市场——不仅要整理数据和资料,更要分析内部状况外部竞争对手,如何实现资源优化配置,整合显得尤为关键。有了大数据的帮助,由各职能部门和专业的调查公司提供数据,就可以有效且精准地建立所有内容的数据库,并将不同内容设定不同保密级别,便于查看,实现了“事半功倍“的效果。
最近手头有点闲钱,就想找个机会理理财。纷至沓来的销售电话和传单让我们苦不堪言,无力分辨方向,担心被骗就只能捂紧钱包,最终既没有找到帮助自己的产 品,又无端让从业人员背负”忽悠”、“欺骗“的黑锅,走入所谓的买卖思维定式“双陷阱“。解决方法很简单,依靠大数据。运用互联网大数据分析和推荐算法, 生成适合各类理财产品购买的潜力客户名单,有针对性开展短信定点发送,省时省力,同时银行推荐给我们的是已经根据数据分析出来的最适合的资产状况和风险承 受力的理财产品,“双陷阱“借助大数据摇身一变成为“双盈利“。
即使不出门不理财,大数据还是与我们融为一体,密不可分。
拿学生来举例,每天的日常是上课、做作业,传统的教育模式和思维定式让每天的我循规蹈矩,尤其是当假期到来,往常的生物钟被改变,打乱的作息规律让我无所 适从。新的学习体验——移动学习已经渗入到生活中。在互联网时代,不会用电脑的学生不是好学生,勤奋与毅力依旧重要,但更重要的是如何利用新技术更好的学 习:经济实惠且效率翻倍。移动学习技术不断成熟,巧妙运用大数据分析总结你的知识掌握情况、熟练程度以及缺乏领域等等,让你在毫不费力的情况下,更了解自 己,做出更为明确的学习规划,有效的提高了学习的技术性。在学习体验方面,在线教育整合了跨时空、跨地域的资源,融合更多创新机会,更好的帮助我实现学习目标。
无论是学生还是上班族,还是别的社会群体,互联网时代,哪有不上网的?先说说网上购物,各种“猜你喜欢”、“找同款”、“找相似”都是大数据无处不在的影 子,甚至有时候那些“猜你喜欢”能够让你更快的发现自己的需求,比你自己更了解你。再说说大家再熟悉不过的交友。2010年,人们花在交友网站上的时间是 手机交友应用的2倍;2011年,还是2倍,不过是应用比网站。这一数据在单身男女中体现更为明显,没错,丘比特已经改行,现在是大数据射箭。不管消费者选择什么平台,在线交友都需要服务提供商能够给他们推荐、匹配最合适、最投缘、最有话聊、最能谈下去的交友对象。随着智能手机的普及,交友应用用户的增长速度比其他所有应用程序加起来都要高。
说到这里,你应该不再怀疑无处不在的大数据了吧,其实每个人在现实中都是与大数据朝夕相伴。引用美国海军高级情报分析中有句经典的常识:情报的95%来自公开资料,4%来自半公开资料,仅1%或更少来自机密资料。大数据就是能够通过各种交叉复现你生活的公开资料,没有人能够抗拒。马云把阿里的未来战略定位在金融和大数据。但是大家可能不知道,一家做行业ERP的小公司,就有可能成为银行贷款的批发商?大家都知道卖软件是可以赚钱 的,但大家可能不知道,某小公司就可以靠卖软件中必须的数据,赚到近亿的收入。数据,几乎是没有什么成本的,能带来的收益却何止千万。

大数据已经改变了很多行业,未来还会颠覆更多。如果您对大数据有兴趣,请关注本公众号——数据极客将致力于大数据算法和技术的深度钻研,欢迎用您的高度见证我们彼此的深度。

文章转载自数据极客,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论