暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

一年三次发布,OLTP、OLAP和ML集中于单一数据库,使用SQL构建ML模型,湖仓一体,MySQL“热浪”背后的行业趋势···

339


图片来源:/pixabay.com/


在数据库领域耕耘了45年的甲骨文(Oracle),面向云计算大势,拿出了自己的看家本领——在云基础设施(OCI)上运行的是双引擎的数据库,即Oracle数据库和MySQL数据库,这两个数据库都是目前世界上最通用也是最流行的数据库之一。


在拥有MySQL企业版、MySQL标准版、MySQL经典版、MySQL集群CGE,以及用于OEM/ISV嵌入式场景的MySQL Embedded等外,甲骨文刮起了一股“热浪”,推出MySQL HeatWave并在2022年推出了三大更新:


一是基于AWS的MySQL HeatWave,将OLTP、OLAP和ML集中于一个的单一数据库,比 Amazon RDS快5400倍。


二是MySQL HeatWave ML用于本机数据库内机器学习,使用SQL命令构建ML模型,自动化ML生命周期,据称性能比AWS Redshift ML快25倍。


三是MySQL HeatWave LakeHouse(beta),在最近的Oracle Cloud World(OCW)2022大会上发布的,可以用MySQL语法管理400TB超大容量数据,实现数仓与数据湖一体化管理,性能比Snowflake快17倍,比Amazon Redshift快6倍。


从这三次发布来看,甲骨文的目标市场是公有云数据服务用户,性能对标的是公有云上数据服务提供商,如公有云市场第一把交椅的亚马逊云技术AWS的数据库、数仓、数据湖服务,以及数据云市场叱咤风云的基于公有云的Snowflake等。


三次产品发布中的“突变”


第一次:MySQL HeatWave on AWS,从甲骨文的Oracle的云端基础架构扩展到AWS、Azure 等平台。


甲骨文于2020年12月为其MySQL云服务发布重大更新,推出MySQL HeatWave。最初,HeatWave作为Oracle Cloud Infrastructure(OCI)的服务运行,可运行在线分析处理工作负载(OLAP)以及在线事务处理(OLTP)。


随后甲骨文引入MySQL Autopilot功能,旨在优化查询加速和数据库配置。HeatWave用户现在还可获得新的MySQL横向扩展数据管理功能,可加速数据加载。


特别值得一提的是,MySQL HeatWave的数据库服务是目前市场上仅有的一款支持客户直接从其MySQL数据库运行OLTP和OLAP负载的服务,无需复杂、耗时且昂贵的数据移动,也无需与单独的分析数据库集成。


今年3月,甲骨文公司发布基于亚马逊云科技运行的MySQL HeatWave。MySQL HeatWave能够在单一MySQL数据库中整合事务 、分析、机器学习和基于机器学习的自动化功能,无需在不同的数据库之间进行耗时的 ETL复制。


基于AWS的MySQL HeatWave拥有出色的性价比。根据4TB TPC-H基准测试,基于AWS的 MySQL HeatWave的性价比比Amazon Redshift高7倍,比 Snowflake 高10倍,比Google BigQuery高12倍,比 Azure Synapse高4倍。


在机器学习方面,基于AWS的MySQL HeatWave 比 Redshift ML快25倍。针对 10GB TPC-C工作负载的高并发处理能力,MySQL HeatWave可持续保持比 Amazon Aurora多10倍的吞吐量。这些基准测试脚本完全透明,可以在GitHub 上获取相关信息并重现测试结果。


图片来源:甲骨文公司官网


目前,MySQL HeatWave现已支持多个云平台,包括 Oracle 云基础设施 (Oracle Cloud Infrastructure, OCI) 、AWS 和 Microsoft Azure。


第二次:MySQL HeatWave ML,针对自己的MySQL应用,方便快速地加载机器学习能力,自动化ML生命周期。


3月30日发布的Oracle MySQL HeatWave ML,使基于MySQL HeatWave的机器学习开发者可以针对自己的MySQL应用,方便快速地加载机器学习能力,大大降低开发人员在向MySQL应用程序添加机器学习功能时的耗时和复杂性,包括自动模型训练、推理解释、超参数调整、算法选择和特征选择。


由此,在运行于OCI之上的一个数据库中不仅可以实现分析,还能通过内嵌的方式利用机器学习进行模型训练,实现预测、给出结果的解释或提供智能的建议,让企业在更好地支持多样化应用的同时,有效简化了部署、管理和运维。


MySQL HeatWave ML全面自动执行机器学习生命周期,并将所有经过训练的模型存储在MySQL数据库中,而无需将数据或模型移动到机器学习工具或服务中,消除提取、转换和加载 (ETL) 流程,可降低应用程序的复杂性与成本,并提高数据和模型的安全性。


第三次:MySQL HeatWave Lakehouse,是今年的第三个重大发布,客户可以处理驻留在对象存储中的数据。


甲骨文公司推出的MySQL HeatWave Lakehouse云数据湖库,能够帮助用户处理和查询对象存储中数百TB量级的数据,支持各种文件格式,包括 CSV、Parquet 以及Aurora和Redshift备份格式。


MySQL HeatWave现推出了Lakehouse的Beta版供客户试用,正式版将于2023上半年发布。


数据湖库Lakehouse是一种结合了数据湖和数据仓库功能的软件平台,让企业组织能够在单一环境中分析结构化信息和非结构化信息,此外还能提供其他某些功能,如确保数据分析执行无误等。


Oracle表示,该软件可以查询多达400TB的数据,同时,内置的自动化工具有望加快过去处理大量信息所涉及的一些手动任务。


据称,MySQL HeatWave Lakehouse的查询运行速度要比Snowflake同名的云数据平台快17倍,并且承诺其性能要比AWS Amazon Redshift数据仓库高6倍。


现在MySQL HeatWave可以在多个云上提供事务处理、跨数据仓库和数据湖的分析、以及无需ETL的机器学习等的集成服务。


甲骨文还宣布推出新的MySQL Autopilot功能,可提高性能并让MySQL HeatWave Lakehouse 方便易用。


甲骨文的做法能否成为行业发展趋势?


“Hadoop大数据应用”观察了甲骨文MySQL HeatWave今年的三大发布,其做法还是很有代表性,与行业发展潮流不谋而合。


第一是云原生,云原生数据库快速发展,未来支持混合云将成为核心能力与方向。


无论是在企业应用中落地,还是生态的发展,云原生技术都已经步入了快车道。IDC的报告显示,在2018年云原生应用的比例只有40%,到2023年,企业云原生应用的占比将超过80%。


所谓云原生,就是从开发到部署、运维都在云上进行。云原生的落地基本形成了这样一套标准的流程或者说方法论:先容器化(Container);在此基础上采用微服务的架构解构整个架构和应用程序,使之变成一种松耦合;同时借助Kubernetes实现全面的编排和调度;然后再通过CD/CI做持续迭代。


不过,云原生是一个持续演进的过程,适合云原生化的增量市场与暂时还无法云原生化或不适宜云原生化的存量市场都要兼顾。在数据库服务上,甲骨文采用Oracle数据库和MySQL数据库双引擎的数据库策略就是适应这一需求。


未来,云数据库的终极状态是支持混合云、多云,用持续迭代的方式更敏捷地满足不断变化的应用需求,并让运维变得更加容易。


第二个趋势与第一个趋势类似,分布式数据库终将迭代集中式数据库,但是并不意味着集中式数据库会走向灭亡。


分布式数据库被赋予了“去O”的的重大使命。行业也普遍认为,分布式数据库必将取代集中是数据库。不过这一过程将相当漫长。


Oracle、DB2、MySQL及国内的达梦、人大金仓、openGauss等都是集中式的数据库的典型代表,而星环科技分布式分析型数据库ArgoDB和交易型数据库KunDB、蚂蚁集团OceanBase,以及为TiDB、CockroachDB等则是典型的分布式数据库。


从发展角度看,分布式数据库最终会逐步替代集中式数据库,但并不意味着集中式数据库会走向灭亡,集中式数据库能解决一些分布式所解决不了的东西,如延迟。


分布式数据库不应该仅仅考虑对集中式数据库产品的替换,而是应该面向新的“全量数据”的场景,成为可以给客户提供释放数据价值的新数据基础设施。


第三个趋势是提高系统的自治性,进而提高数据库云服务的性价比。


随着云计算的发展,无论对于数据库服务还是云服务来说,提高系统的自治性,提高性能价格比,都至将是至关重要的。


对于数据库而言,采用自治服务的方式,实现从数据到服务的管理,自治的管理加上自动化的运维,将大大节省人工运维的成本,并且减少因人工操作导致的低效和出错几率。


甲骨文在“自治式数据库”起步较早,在2013年发布了云化数据库Oracle Database 12c以后,在2017年推出的一款无人驾驶的Oracle自治式数据库云(Oracle Autonomous Database Cloud)。


与传统的数据库相比,甲骨文自治式数据库云强调无需相关人力介入,即可在数据库运行的情况下,实现自动升级、微调、修补、更新、维护数据库与自行调整计算和存储资源,可将代价高昂的计划性与非计划性停机时间缩短。


第四个趋势是单一数据库可以同时处理事务与分析负载,融合数据库会不断壮大。


众所周知,MySQL是为了在线事务处理(OLTP)设计的开源数据库,一直以来弱于对于分析型业务场景的支持。


为了MySQL更好地支持数据分析业务,MySQL发布了新的分析执行引擎——MySQL HeatWave,支持客户直接从其MySQL数据库运行OLTP和OLAP负载的服务,无需复杂、耗时且昂贵的数据移动,也无需与单独的分析数据库集成。


为了解决多数据类型问题,甲骨文发展融合数据库(Converged Database),根据企业的需要提供全面支持多种数据类型、工作负载和开发模式的数据库,能够为企业用户提供一致、可扩展、可用且安全的数据服务。在这一方向上,甲骨文也进行很多探索。









参考资料:



·https://www.mysql.com/cloud/


·https://mp.weixin.qq.com/s/IMrkhaYQZyJNt8cGk7usHQ


·https://mp.weixin.qq.com/s/9waUNlfz1IYjtS9nMUBSrQ


·https://www.oracle.com/news/announcement/ocw-oracle-announces-mysql-heatwave-lakehouse-2022-10-18/


END





大数据应用,从现在开始




文章转载自Hadoop大数据应用,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论