暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

自研大数据软件全面替代开源;微软承认泄露全球客户数据;甲骨文推类“多模”数据库;大数据、数据库融资频频过亿;图数据库新品迭出··

43









产研报告



1.大数据领域3项国家标准正式发布


2022年10月,国家市场监督管理总局(国家标准化管理委员会)发布《中华人民共和国国家标准公告(2022年第13号)》批准《信息技术 工业大数据 术语》、《信息技术 大数据 面向分析的数据存储与检索技术要求》、《信息技术 大数据 政务数据开放共享 第4部分:共享评价》等3项大数据领域国家标准正式发布,实施日期为2023年5月1日。



2.《2035数字议程重大议题:数据治理》报告发布,8大趋势、4大挑战及时看



“2035数字议程”是由中国信息化百人会于2020年组织发起的一项倡议,旨在持续研究未来十五年数字发展关键内容和优先程序的长期行动计划。近日,信息化百人会2035数字议程重大议题——《数据治理》研究报告推出。


数据治理的八大趋势


趋势1:数据治理成为国家治理核心议题


趋势2:数据治理成为国际竞合优先议题


趋势3:数据治理参与主体更加广泛均衡


趋势4:数据治理政府企业协同快速深化


趋势5:数据治理将更加场景化和智能化


趋势6:数据治理带来组织机构重大变革


趋势7:数据治理将会催生新的商业模式


趋势8:数据治理推动智慧社会更快到来

数据治理面临的四大挑战

挑战1:基础制度层面,数据权属、数据分类分级等核心问题尚未取得突破


挑战2:关键技术层面,数据的标识确权、认证授权、安全交换等技术亟待突破


挑战3:数据产业层面,数据流通和数据竞争问题影响市场构建


挑战4:国际社会层面,数据治理呈现风险全球化、安全政治化、规则碎片化和强弱循环博弈

面向2035数据治理的五个重要问题

问题1:如何统一数据治理理念认知


问题2:如何释放数据要素价值潜能


问题3:如何实现数据市场有效监管


问题4:如何避免数字基础设施碎片化


问题5:如何建立数据治理全球协商机制








新产品/新技术



3.甲骨文推出类“多模”的数据库,简化关键任务应用开发并增强保护


甲骨文公司宣布推出新版融合数据库——Oracle数据库23c Beta,支持所有数据类型、工作负载和开发风格。


Oracle数据库23c的代码名称是“App Simple”,意味着该数据库旨在简化应用和开发任务。Oracle 数据库服务和产品组合中的许多其他创新功能强化了Oracle 关键任务工作负载的性能、安全性和可用性优势。


现代应用是使用新的数据类型(如JSON 和 Graph)、新的分析类型(如机器学习)和新的开发样式(如微服务)构建而成。现代应用使用的数据技术的广度和深度使应用开发和运行变得越来越复杂。Oracle数据库23c “App Simple”推出创新技术,让开发和运行这些现代应用变得非常容易。




4.将数据库扩展到数据湖,甲骨文推出MySQL HeatWave Lakehouse


甲骨文公司宣布推出 MySQL HeatWave Lakehouse,能够帮助客户处理和查询对象存储中数百TB量级的数据,支持各种文件格式,包括 CSV、Parquet 以及 Aurora 和 Redshift 备份格式。


MySQL HeatWave Lakehouse 是 MySQL HeatWave 产品组合的新产品,能够将事务处理、分析、机器学习和基于机器学习的自动化结合在单一 MySQL 数据库中。


MySQL Heatwave 是 Oracle 于 2020 年 12 月首次推向市场的云服务,它将分析和事务数据库功能整合到一个统一的产品中。


MySQL HeatWave Lakehouse 采用大规模并行横向扩展 MySQL HeatWave 架构,根据行业标准基准测试的结果,在运行查询和加载数据性能方面表现出色。此外,客户可以通过单个查询在 MySQL 数据库中查询事务处理数据,并使用标准 MySQL 语法将其与对象存储中的数据组合。


甲骨文还宣布推出新的 MySQL Autopilot 功能,可提高性能并让 MySQL HeatWave Lakehouse 方便易用。MySQL HeatWave 现推出了 Lakehouse 的 Beta 版供客户试用,正式版将于 2023 上半年发布。


湖屋背后的基本思想是将数据仓库和数据湖相结合,可以对大量数据的查询进行分析,是由Databricks首创,现在供应商包括Snowflake、Dremio、 Google、 Starburst 、 Cloudera等。湖屋概念不仅限于直接存储在MySQL中的数据,而是可以访问位于对象存储中的外部数据,从而提供更多的整体容量。




5.达梦推出数据库一体机,开箱即用,内置麒麟操作系统


近日,达梦数据重磅推出达梦数据库一体机 DAMENG PAI产品,通过工程化的手段,集成数据库运行所需要的全部 IT 基础设备,向用户交付开箱即用的整体解决方案。


图片来源达梦数据


达梦数据库一体机基于飞腾CPU和麒麟操作系统等全国产架构打造,共推出三个系列产品。其中,DAMENG PAI P 系列数据库一体机是面向核心业务系统的首选方案;DAMENG PAI A面向企业级数据库多租户场景,提供插电即用的交付应用体验;DAMENG PAI I 旨在提供运维简单的、极具性价比的高可用软硬一体数据库解决方案。



6.中科闻歌天湖知识图谱平台GraphLakeV2.4.0版本发布


中科闻歌发布天湖知识图谱平台GraphLakeV2.4.0版本。天湖知识图谱平台GraphLake是一套基于多模态内容理解与认知技术以及知识图谱技术的知识管理与探索式洞察分析平台。通过多模态数据对象化治理、知识抽取、推理计算等,将数据要素业务化,完成从数据到知识沉淀的认知跃迁,为政企提供知识驱动的辅助决策。


天湖知识图谱平台 GraphLake 产品矩阵包括:自动化知识构建工厂Factory,本体建模与知识管理工具Core,探索式图谱分析引擎Explorer 。




7.ArangoDB扩展图形数据库平台的应用范围


近日ArangoDB提升了其技术,发布了针对机器学习应用程序的ArangoGraph Insights Platform,并升级其同名数据库平台。


ArangoDB成立于2014年,近年来一直在构建其开源图形数据库,以支持越来越多的数据类型,包括JSON和地理空间数据。在今年2月份,该供应商发布了ArangoDB3.9平台,重点是提高可扩展性。随着10月4日推出的新ArangoDB 3.10版本,该供应商提高了搜索性能,集成数据转换功能,并增加对基于Arm的服务器的支持。


此外,该图形数据库供应商还重新发布了其云平台(此前被称为ArangoDB Oasis)作为ArangoGraph Insights Platform,该平台支持机器学习。ArangoDB在图形数据库市场与多家供应商竞争,包括资金充足的Neo4j和TigerGraph。



8.TigerGraph宣布即将正式在GSQL中支持openCypher


TigerGraph即将正式支持 openCypher,这是一种用于构建图数据库应用程序的流行查询语言。开发人员现在可以访问预览工具,以了解如何在 TigerGraph 的图查询语言 GSQL 中支持 openCypher。


对 openCypher 的支持将为开发人员提供更多选择来构建或迁移图应用程序到 TigerGraph 的可扩展、安全和完全托管的图数据库平台。


“借助 openCypher 支持,我们正在推动图创新,并为开发人员提供另一种方式来采用和扩展他们对图的使用,从而在他们的数据中找到具有竞争力的洞察力。”




9.数据开发、数据治理、数据运营套件能力升级,星环科技发布TDS 2.4.0


近日,星环科技大数据开发工具 Transwarp Data Studio 2.4.0版本发布,新版本中数据开发、数据治理、数据运营三大套件能力全部升级,让数据开发更便捷、数据治理更高效、数据运营更智能。


数据开发套件包含了大数据整合工具 Transpoter、数据库在线开发与协同工具 SQLBook 和任务调度软件 Workflow ,针对数据开发场景,提供数据集成、SQL 开发和任务调度的能力,帮助企业将数据归集到数据湖仓,完成数据统一化的过程。


数据治理模块新增数据模型管理能力,提供逻辑模型和物理模型的开发和管理能力;元数据模块增强元数据自动采集范围,新增支持 KunDB、达梦、SAP HANA 等数据源类型;支持批量订阅元数据等。


数据运营套件包含数据服务平台 Midgard、标签平台 Starviewer、数据商城 Foresight。




10.首个由国内隐私计算团队研发的(全)同态加密算法库——开源同态加密库 HEhub 发布


(全)同态加密已经成为隐私计算行业与企业不可或缺的一条技术路线。此前,原语科技独立自主研发的企业级开源隐私计算平台产品 PrimiHub。近日,原语科技推出同态加密开源算法库 HEhub,作为 PrimiHub 开源生态的一部分。


HEhub是一个易于使用、可扩展性强且性能优秀的密码学算法库,致力于汇集各类同态加密算法及其应用。其目前包含了 BGV、CKKS、TFHE 等全同态加密算法,并将进一步集成更多同态加密方案、常用的计算逻辑以及上层应用接口。对开发者而言,HEhub 有助于其跟踪同态加密领域的最前沿进展,将同态加密技术应用到各类隐私计算场景中。


与此同时,HEhub 也是国内第一个自研的开源(全)同态加密算法库,填补了国内开源生态中的空白,其将有利于国内同行在同态加密领域的前沿研究与落地实践,并促进隐私技术的自主发展。




11.Linux 6.0释出,Linus Torvalds致Linux开发者:不要再熬夜了


Linus Torvalds 在内核邮件列表上宣布释出Linux 6.0。主要新特性包括:改进 ACPI 处理和电源管理;一系列 io_uring 改进,支持 XFS 文件系统缓冲写入,Zero-copy 网络传输,基于 io_uring 的块驱动机制,运行时验证子系统;等等。更多可浏览 LWN 概况一 和 二。


从Linux 内核 6.0 发布起,为期两周的合并窗口现已关闭,当地时间 10月 16 日,Linus Torvalds 发布了 Linux 内核 6.1 版的第一个候选版本,并准备好让测试者、早期采用者和尝鲜用户使用,最终版本预计在 2022 年 12 月初或中旬发布。Torvalds 在每周内核更新状态中,吐槽了“在合并窗口的最后几天收到相当多 pull 请求”一事,“这真的非常烦人。”


“合并窗口需要两周的时间,这让我有足够的时间进行检查,而不是“用两周的时间匆忙地组装一个分支,然后在第二周的周五发布了”。Torvalds 表示,那种“在截止日期前一天,通宵达旦写作业”的行为在高中毕业后就应该不存在了,更别说用在内核开发上。









爆点事件



12.星环科技成功上市,自研大数据软件全面替代开源


近年来,开源软件安全事故频发。与此同时,美国的开源软件也开始陆续收紧许可证,基于开源软件包装二次销售变成非法,这种“免费”的午餐显然是不长久的。


中国的数据库软件,多源自或者借鉴开源数据库及其变种,大数据平台,多源自或直接整合开源大数据生态组件,纯自研的还是少数,这是事实。可以通过开源软件,去学习别人的经验,但绝不是简单的“拿来主义”。因为,这没有技术创新,也解决不了核心技术供应问题,还会造成“劣币驱逐良币”的恶性竞争发展趋势。


核心技术领域必须自主研发,大数据技术是新技术,中国在起步时间上并不落后,这正是我们超越的机会,核心技术的突围之路,不能依靠成本优势,而要重点发展原创性技术。这意味着我们不仅要用自主研发技术替代原有技术,还要以世界领先的原创性新技术替代国外的技术。


星环科技坚定的走上了自研之路,并逐步完成了自研产品全面替代开源。星环科技从创立之初就坚持在技术上高要求,这种高要求的具体体现是,技术上至少要领先国内外竞品一代(3-5年)。因此,星环科技的产品迭代速度非常快。每年都要实现大版本的发布,每隔两三年,都要有重大技术突破。孙元浩说,只有不断实现突破,才能使我们的产品在功能及性能上,与国内外竞品相比有着显著差异,而基于开源软件做不到这点。




13.亚马逊云科技确立“3个支柱和1个基石”云原生数据战略


亚马逊云科技基于成功的数据驱动型企业的经验总结了一套云原生数据平台战略,它有3个支柱和1个基石:


3个支柱是:采用云原生的数据基础设施,存储和处理数据;用智能湖仓架构打破数据孤岛,去实现数据一体化融合的分析;数据驱动智能创新,利用机器学习等技术帮助企业重塑创新引擎。


1个基石是数据安全与数据治理。Amazon Lake Formation帮助企业去快速的构建一个数据湖,然后将围绕着Amazon S3数据湖的各种分析引擎和Amazon SageMaker的数据目录打通,同时能够做到统一的数据的访问授权。


亚马逊科技3+1的云原生数据战略,是客户数据平台建设的指南针,亚马逊自己的16年云原生数据库探索之旅,始于Dynamo DB,智能湖仓2.0助力客户加速数智联动,亚马逊云科技机器学习4步走最佳实践,帮助客户快速迭代和创新,赋能客户产业化机器学习能力是能规模化机器学习的核心数据治理,要从大处着眼,小处着手。




14.微软承认服务器错误配置导致全球客户数据泄露


微软安全响应中心在当地时间 10 月 20 日发布公告,针对 19 日网络安全供应商 SOCRadar 通报的数据泄露事件的调查报告,微软承认了关键事实——即由于公有云服务器端点配置错误,可能导致未经身份认证的访问行为,继而泄漏微软和客户之间的某些业务交易数据以及客户的客人信息。但微软同时反驳称,SOCRadar 报告中的数字被刻意夸大。


SOCRadar 表示,它在搜寻和监控公共云存储桶的过程中,发现了六个由微软管理的大型公共存储桶,其中暴露了覆盖 123 个国家 地区超过 15 万家公司的信息。SOCRadar 将这次的数据泄漏统称为 BlueBleed。




15.数据库巨头甲骨文Oracle官宣采购超万个英伟达顶级GPU


甲骨文Oracle已经官宣计划将数万Nvidia顶级A100和H100的GPU部署到甲骨文云基础设施Oracle Cloud Infrastructure (OCI)。A100和H100 GPU将为甲骨文的云客户提供,以满足他们通过英伟达的AI软件实现的AI工作负载。这笔交易的确切条款仍然保密,业界估计一笔价值数亿美元的交易。


英伟达和甲骨文之间的新合作将使所有企业客户都能获得人工智能培训、计算机视觉、数据处理、深度学习推理和模拟。他们将不必花费大量资金来使用Nvidia昂贵的计算GPU部署数据中心。Oracle已经为OCI客户提供了访问高性能计算实例的机会,现在将为他们提供各种AI功能。









IPO/投融资



16.中科闻歌完成超5亿元E轮融资,深耕人工智能与大数据技术应用赛道


近日,中科闻歌完成超5亿元人民币E轮融资,获得国开制造业转型升级基金、央视融媒体产业投资基金、中关村科学城科技成长基金等机构增资,老股东盈富泰克国家新兴产业投资基金、恒邦资本、中科院资本等进一步增持。知名机构助力中科闻歌进一步布局人工智能与大数据基础平台技术,深耕和推广社会治理、媒体宣传和金融决策等领域数智化应用。


中科闻歌是中国科学院科技成果转化企业,在大数据、人工智能和运筹学方向有十五年技术积累,定位于领先的数据、算法和决策智能服务商,公司致力全链条自主创新的智能计算算法研发,提供面向媒宣、安全、城市和金融等多领域的大数据与人工智能基础平台及解决方案。


基于“闻海”海量数据平台和“天湖”智能计算平台两大核心引擎能力,面向数智复杂系统场景,提炼人工智能与复杂场景结合的工程技术方法创新,在非结构化数据管理、多模态内容智能生成、泛媒体内容认知与理解、大数据驱动的领域决策模型等关键技术形成竞争壁垒,累计申请发明专利超百项,自主研发核心算法数千个,获“新一代人工智能”、“科技冬奥”等国家级重点研发项目四项,并得到中科院“弘光专项”支持,入选国家级“专精特新小巨人”企业。




17.国产数据库领先企业GBASE南大通用完成数亿元新一轮融资


天津南大通用数据技术股份有限公司(南大通用)宣布完成数亿元新一轮融资。本轮融资由君联资本领投,耀途资本、国投创合、宇信科技集团、信一创科技、宇狮南数、苏国发、相城金控联合投资。


图片来源:南大通用


南大通用公司是国内最早创立且具有自主知识产权的独立数据库产品与服务提供商之一。经过近二十年发展,南大通用已构建了覆盖数据管理全生命周期、全技术栈的数据产品体系,以“场景化解决方案”为客户提供量身定制的数据库产品与服务。公司自主研发的GBase数据库满足各行业商用OLAP和OLTP的应用需求,部署节点超过30000个,管理数据总量超过300PB。




18.RisingWave实验室流处理数据库筹集了3600万美元


RisingWave Labs表示,由于开发其技术和上市努力,公司计划以3600万美元的新资金来发展其开源流处理数据库。


这家总部位于旧金山的初创公司成立于2021年1月,其目标是建立一种数据库技术,专门用于处理来自Apache Kafka等来源的流数据。


RisingWave的数据库旨在获取流数据,并使其实时用于数据分析和业务运营。核心数据库平台是用开源 Rust 编程语言编写的,它提供了增强的安全性和性能。


随着这笔资金于10月18日公开,该供应商计划构建一个云数据库即服务(DBaaS),该数据库将成为开源RisingWave数据库的托管版本。



19.1.01亿美元融资,Stable Diffusion背后的公司两年迅速成长为AI内容生成独角兽


英国开源人工智能公司Stability AI宣布获得1.01亿美元融资,由Coatue、Lightspeed Venture Partners和O'Shaughnessy Ventures LLC投资。Stability AI将利用这笔资金加速开发面向全球消费者和企业用例的图像、语言、音频、视频、3D等开放AI模型。


Stability AI总部位于英国伦敦,是Stable Diffusion背后的公司,它正试图使AI民主化,并利用其潜力“唤醒人类的潜力”,在其官网顶部赫然写着“AI by the people,for the people”。


Stable Diffusion是一款功能强大、免费且开源的文本到图像生成器。不仅完全开放了图片版权,甚至开放了源代码,并允许用户免费使用该工具,允许后继的创业者们使用开源框架构建起更加开放而生猛的内容大生态。




END





大数据应用,从现在开始



文章转载自Hadoop大数据应用,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论