VERTICA ⎪ 你的数据「冷浪漫」

Michael Stonebraker 博士(Photo: M. Scott Brauer)
近期,被誉为“全世界最重要的数据库专家”之一、统一分析平台 Vertica 创始人——Michael Stonebraker 博士特邀现身于第八届中国国际大数据产业博览会,并发表主旨演讲。
69 年前的今天(6月7日),一代先杰艾伦·图灵在伦敦英年早逝。所幸,计算机学界后继人才辈出。
你知道吗?捧得百万美元归的“计算机诺贝尔奖”图灵奖得主 Stonebraker 博士,也是首位从事大规模连续创业的大奖赢家,他对数据库设计、应用及产业化有着学产界均无人可匹敌的独到心得。下面,就让我们一睹他年逾古稀仍精神矍铄的熠熠风采,从其话语中洞悉数据库的未来。
■ 从大数据到云经济

“数据,不仅仅是‘21世纪的石油’,更是‘未来的新型石油’,好比新型硅。”
从营销话术发端,到数字经济时代的核心命题之一,「大数据」无疑将成为时代命题之“题眼”。
自 2012 年起,大数据悄然成风,Stonebraker 博士坦言:“那时,我终于明白过去 40 余年一直在做什么,原来就是大数据。”在微软亚洲研究院主办的二十一世纪计算大会上,他认为,大数据就是三件事,对应“3V”问题——“海量、高速、多元”(Volume/velocity/variety)。对于大数据,就不能用“小分析学”的局限方法做处理,简单的“Select”查询会招来无法应对的 TB 级数据。替代方案是启用包括数据聚类、回归分析、机器学习、高级分析等在内的更复杂的“大分析学”。
在 5 月大数据产业博览会的开幕式上,Stonebraker 博士特别提及数据从业者的现状:即便对于 iRobot(全球消费机器人公司)这样知名公司的数据科学家而言,数据收集、整合与清洗这三步也要占用到 99% 的工时,反观业界平均用时也在 80% 之高。
这意味着,数据科学家的精力被琐碎操作而过分占用。而对数据领导者如 CDO、CIO 这样的 C-level 角色而言,如果“不做数据集成整合,企业数据湖极有可能变成数据泥沼(Swamp)”。

针对此,博士推崇的是云迁移,在无服务器的环境中重构数据架构与应用程序,这将“一劳永逸”地解决数据一致性问题,甚至为继来者植福荫——“他们一定会感谢你强制推行了数据集成策略!”
云,正是 Vertica 的重中之重。正如 Vertica 负责人所言:“Vertica 针对云优化的 Eon 模式与三大主流云平台合作,新增对 Docker 容器和 Kubernetes 的支持,大大提升了其在高级分析(包括时序及预测分析等)和机器学习市场的领先优势。”最新 Vertica 既支持主流的公有云、混合云,也支持 Pure Storage、Minio 和 HDFS 等在本地部署的对象存储和分布式存储,即”随处部署“。

当然,云迁移断不会指“轻装”上云,要知道大规模数据平台每一节点都存有至少 10 TB 的数据,上云的速度是能力,更是盈利!所以,必须满足云上工作负载弹性变化的要求,作为业界首个 MPP(大规模并行处理)列式分析数据库,Vertica 自诞生起就拥有可扩展的性能基础,包括就地分析、库内机器学习和高级实时分析等,高标准满足企业决策支持与事务处理系统上云的效率需求。
试想,一个无所谓在哪里的码头集装箱式的数据中心,一定比位于国际大都市摩天大楼的私有数据中心要便宜许多倍,人员用电尚且不计,单论地价就已经胜券在握。不过,成本只是其中一个因素,基于云的数据统一利用与深度分析已经奠定了未来战局之基——

“可以说,机器学习(ML)就是智能分析的未来,无论是深度学习还是传统 ML 都在遍地开花,”Stonebraker 博士直言,“自动驾驶、无人收银,甚至滴滴打车这样的新型公司对传统业态的颠覆是绝对的,并很可能在未来产生‘赢家通吃’的现象。”
战略性提出“数据库内机器学习”的 Vertica,无疑为尚未部署 ML 或正苦于 ML 项目预算的公司打开了新世界的大门。其内置超过 700 个即开即用的 ML 算法,配合超快查询与大规模工作的超强负载力,将为观望期/困顿期的各大公司注入强心剂。

■ 从数字化到元宇宙

“要么成为颠覆者,要么被竞争者颠覆。”
从媒体采访中,Stonebraker 博士对全球格局与人类未来的态度可见一斑:“我时常担心是否会给下一代留下一个更糟糕的世界,但我同样有理由保持信心——愈来愈精进的数字技术可以帮助人类解决这些难题。”(数字观,2022)
他认为,资源共享(共享经济)与资源消耗(可持续发展)是数字经济“跨越式发展”的两大驱动力。同样,在人类社会经历气候变暖、大流行病、贫富悬殊、网络安全及数字伦理等困境与拷问之时,数字化转型将为时代带来“新解法”:比如,数字化生物科技、人工智能及区块链技术等“组合拳”,已经卓有成效地回应大流行病肆虐的问题;再比如,中国“东数西算”工程优化算力需求与供应产业布局,打通数据资源及其相关经济要素多渠道,加速整体数字化转型升级的步伐。
博士同样认可:“我们的最终目标就是实现数据驱动、满足可信的数据流通和计算要求,通过将散落在不同地方的数据联合起来,转化为有价值的信息或模型,从更高层面促进数据的自由流通。”
但是,“数据孤岛”与“信息孤岛”,将数据分割于不同存储与格式限制之下,严重阻碍了数据的联合统一,并直接导致了上文所述、数据科学项目被数据迁移严重侵占等等问题,成为企业转型之路的重大障碍之一。统一分析平台 Vertica 与生俱来的气质,决定了它就是专为这些挑战而设计的。这同样凸显了创始人 Stonebraker 博士的先见之明——从底层基础架构中解脱出来,不依赖基础设施、分析所有数据。

“要么成为颠覆者,要么被竞争者颠覆。”要不为困境所难,就必须勇敢拥抱新技术。尚在探索演进之中的”元宇宙“,也可算作近年来新生的数字概念之一。其发端于脸书(Facebook)正式更名“Meta”(元-),资本热钱大批涌入,营销媒体趁热猛炒,导致人们对其产生纷纷不一的认知理解。
而 Stonebraker 博士的判断非常谨慎,他认为:“元宇宙落地尚早。”并且,当前停留于公共语境的元宇宙概念非常复杂,还掺杂着真假虚实、噱头口号等等,不利于其实践落地与服务大众。但基于多年浸淫于产学研三界的丰富经历,博士整体对未来的“数字文明”抱有信心。简单回顾他 40 余年的”奋斗史“便可知:
1965 年,Michael Stonebraker 任职于加州大学伯克利分校,并于 1999 年保留研究生院教授职称荣誉退休,东迁加入麻省理工学院担任助理教授,并将全部精力放在特定领域数据库技术的开发和商业化上。
2005 年,Stonebraker 博士与来自布兰迪斯、布朗大学和麻省理工学院的同事合作发起“C-Store”项目,以开发专注于分析的新型数据库系统,即在大型数据库上长时间运行扫描密集型的查询工作,相对于交易型工作负载,这种方式强调对单一数据库执行多频、微型、并发的读写查询。
C-Store 就是 Vertica 的前身。它是一个无共享、面向列的数据仓库,专为分析工作负载而设计,比传统将数据存储在行中的系统具有更高的输入/输出效率(I/O-efficient),其数量级提速远远赶超当时领先的商业系统。改名 Vertica 后在 2011 年被惠普公司收购,并于 2017 年加入当前母集团、全球前七大企业软件集团 Micro Focus 的麾下。
尽管 Stonebraker 博士并非第一个提出“面向列的数据库”想法的人,但 Vertica 的大获成功,将面向列设计的商业系统推向了新高度,并为很多后来者提供了借鉴参考。这就包括微软的平行数据仓库项目(现已归入微软 SQL 服务器的列存储索引)和 Oracle 内存的列式存储。

他对“理论家”的著名建议早已深入人心:“与其费尽心思讨论本就可以解决的问题,不如花些时间在现实世界中,研究人们想要解决的问题。”
博士对自己职业生涯的总结也很有意思:“如果当时我知道现在所知道的,我可能永远不会都创建 Ingres(最早的关系数据库之一,SQL Server 与 Sybase 的前身),因为这实在太难了.... 但我对年轻人的建议,就像在跟年轻的自己在对话——暂停怀疑,做就够了!正如攀登珠穆朗玛,一步一个脚印,脚踏实地方能有朝一日登顶…”
■ 本文主要参考自「数据观」专访内容,并结合一手资料及互联网公开内容进行整合。
Turing Award
图灵奖

国际计算机领域最高奖、“计算机界的诺贝尔奖”——图灵奖由美国计算机协会(ACM)于 1966 年设立,旨在纪念计算机科学之父、人工智能之父艾伦·图灵,并奖励对计算机事业作出重要贡献的个人。
Turing Award Winner
Michael Stonebraker
Michael Stonebraker,数据库领域著名布道者,以在关系数据库管理系统(RDBMS)和数据仓库(DWH)方面创建、开发和改进等基础工作而闻名于世。
他于 1994 年成为国际计算机协会(ACM)会士,1997 年当选为美国国家工程院院士,2005 年获 IEEE 冯诺伊曼奖,2014 年凭借“对现代数据库系统底层的概念与实践所做出的基础性贡献”成为数据库领域第 4 位图灵奖得主。

Vertica Unify 2022
全球峰会即将启幕
扫码预约您的席位

猛戳「阅读原文」
VERTICA 免费版等着你









