2024年11月19日,微软一年一度的Ignite大会在芝加哥拉开帷幕。在第一天的主题演讲中,公司宣布了一系列与数据和分析相关的重大消息。

数据库操作进入Fabric
以Fabric为例,这是微软的端到端云数据分析平台,去年此时已经全面上市。填补空白对于这个平台来说恰到好处。市场仍在迎头赶上并了解这个平台,完善它可能会增强其采用率,而不是令人沮丧。话虽如此,填补的一个空白是我们大多数人没有意识到Fabric有的,或者寻求填补的:增加操作/事务数据库能力。微软大胆尝试使Fabric成为通用数据的端到端平台,而不仅仅是分析。
微软通过将Azure SQL数据库——其SQL Server数据库的云版本——整合到Fabric中,作为预览版,增加了事务数据库能力。这种整合是多方面的:涉及用户界面、经济/计费模型和OneLake(Fabric的全能数据湖)。现在,参与预览的Fabric用户将能够像之前添加lakehouses和warehouses一样,将数据库添加到他们的工作空间。
从那里开始,客户可以在Fabric自己的用户界面中设计和使用数据库,或者同样容易(也许更可取)地转向标准工具,如SQL Server Management Studio (SSMS)、Azure Data Studio和Visual Studio Code (VS Code)。
Fabric数据库预览应该对所有人开放,无需注册。实际上,在我写这篇文章时,它已经出现在我自己的Fabric租户中:

为每个优化,不为两者妥协
在某些方面,Fabric的SQL数据库将像其仓库一样运作:毕竟,它是一个可写的SQL Server实例,可以通过标准SQL Server工具寻址,并兼容标准SQL Server协议。此外,运行Fabric中的数据库所需的计算能力是从客户已经配置的Fabric“容量”中抽取和计费的,无需Azure账户或单独计费。
但是,作为一个操作数据库,它在重要方面也是不同的。首先,Fabric中的SQL数据库将以Azure SQL数据库的标准格式存储数据,以获得最佳操作性能。因此,与使用Delta Lake作为本地格式的Fabric仓库不同,Fabric数据库将“继续”使用更传统、更合适的行存储方法。
但Fabric中的数据库也将直接将数据复制到OneLake中,以Delta格式(基于Parquet,因此是列式的),显然使用了Fabric已经支持的镜像技术。但这种镜像是一个隐式过程,客户不需要自己设置;相反,复制的数据将自动出现在OneLake中。
此外,与Fabric lakehouses类似,SQL分析端点也将自动创建,并提供对OneLake中复制数据库的只读T-SQL接口。
这样,原生SQL实例和行存储数据可以用于读写操作的OLTP应用程序,SQL分析端点可用于分析目的的列式版本数据。随着SQL分析端点的创建,还将创建一个Fabric语义模型,使数据准备好在Power BI中使用其Direct Lake模式进行分析,该模式提供原生模型性能,无需额外复制数据。
所有这些对于操作分析可能非常有效,但数据在OneLake中意味着它也可以被转换、丰富和建模成托管在仓库中的星型模式。
SQL Server 2025开始私人预览
还有很多关于Fabric的消息,但让我们先转向SQL Server。微软每三年推出一次其核心本地数据库的新版本,公司正按计划进行。作为当前SQL Server 2022版本的后续,微软今天宣布了SQL Server 2025的私人预览。正如这个产品几十年来的情况一样,这个新版本保留了并增强了核心数据库功能和优化查询性能的经典能力,同时,另一方面,引入了适应技术新发展的功能——今年意味着生成性AI。
SQL Server 2025中的GenAI能力将包括通过向平台添加向量数据类型来实现的本地向量存储,以及基于由DiskANN支持的索引的向量搜索能力。SQL Server还将以集成的Microsoft Copilot技术的形式,在SSMS中添加基于GenAI的辅助功能(详见下文)。
在企业性能方面,查询优化是一个重点,包括对SQL Server的多计划框架、可选参数计划优化(OPPO)和次要副本上的持久统计信息的增强。还有改进的锁定,对于操作分析,批量模式处理和列存储索引的改进。在安全方面,正在加强托管身份支持,允许自动化流程访问数据库,从而避免它们冒充人类用户,同时仍然可以正确管理它们的访问。还有对TLS 1.3的支持。
对于开发人员也有很多好处。首先,SSMS将进行多年来的首次重大改革。SSMS 21将升级到最新版本的Visual Studio“外壳”,并将拥有自己的内置Copilot,支持实时建议、代码补全和最佳实践推荐。SSMS还将首次支持暗模式UI皮肤。在数据库本身,开发人员获得了上述的向量支持,但也获得了实际的东西,如增强的JSON支持、原生正则表达式(RegEx)支持和新的事件更改/流系统,使开发人员能够构建自己的更改源(与CDC——更改数据捕获概念类似)。
这个SQL Server版本还标志着对混合操作的深化投资,通过增强Azure Arc的实施——这项技术允许Azure云资源和本地资源在Azure门户中一起管理。这为SQL Server带来了访问云中大型语言模型(LLMs)进行AI开发、支持Microsoft Defender和增强对Microsoft Entra ID(以前称为Azure Active Directory – AAD)的支持。
SQL Server 2025还将支持Fabric镜像技术。这意味着(a)在Fabric中工作的数据专业人员现在可以有良好管理的访问本地数据,以及(b)SQL Server将具有与本文开头涵盖的Fabric数据库支持“对称”的Fabric集成。
Fabric额外功能
SQL Server 2025-Fabric镜像集成是回到Fabric主题的一个很好的过渡,还有我们尚未涵盖的更多公告。包括实时智能的正式发布(GA)版本,GraphQL API(将与Fabric数据库一起工作),Azure SQL DB镜像和Azure SQL MI(托管实例)镜像,以及外部数据共享。说到Fabric镜像,微软正在推出所谓的“开放镜像”的预览,它表示将允许“任何应用程序或数据提供商将更改数据直接写入Fabric中的镜像数据库。”
微软还启动了新实时智能功能的预览,包括对eventstreams、eventhouses和实时仪表板的增强。其他预览包括与Esri ArcGIS集成,用于高级空间分析,以及工作负载开发套件,允许其他第三方类似地将他们自己的工作负载集成到Fabric中,与七个标准工作负载一起。
还宣布了即将推出的AI功能在笔记本中的预览和AI技能的增强,Fabric的无代码GenAI基础的自然语言查询助手。当后者预览启动时,AI技能将能够与语义模型和eventhouses/KQL数据库一起工作,而不仅仅是warehouses和lakehouses。微软还将启用AI技能与公司新宣布的Azure AI Foundry中的新代理运行时的集成。
另一个即将推出的预览涉及OneLake数据中心向OneLake目录的演变,它将有一个用于当前数据中心功能的Explore标签和一个带来数据目录功能的新的Govern标签。Govern标签本身将是即将推出的预览的主题。公司的主要治理平台仍然是Microsoft Purview,与Fabric的集成将更加深入,允许保护策略涵盖更多来源,并允许数据丢失预防策略限制对任何可能包含敏感数据的Fabric语义模型的访问。
苹果对苹果
虽然Purview仍然是独立的治理平台,但OneLake目录将使微软能够拥有与Databricks Unity Catalog和Snowflake基于Apache Polaris的新Open Catalog更直接的对应物。拥有这样的竞争数据平台的回应正是微软所需要的。虽然Azure SQL数据库可能是一个专用的操作数据库平台,但其整合到Fabric中为微软提供了一个更直接的回应Snowflake的Unistore。虽然微软可能有比任何人都多的合作伙伴,但工作负载开发套件为公司提供了一个更直接的回应Snowflake Native Apps。虽然在Azure Data Lake Storage上有无限多的数据共享方式,但Fabric的外部数据共享为公司提供了一个更直接的回应Snowflake Secure Data Sharing和Databricks上的Delta Sharing。
虽然微软拥有几乎令人惊叹的平台和技术阵列,但这一事实使它面临着简化这些产品使用和操作、集成它们的功能以及简化它们的采购和支付方式的任务。在分析领域(现在总体上是数据领域),这正是Fabric承担的任务。目标是将事物编织成一个连贯的织物,而不是留下一个不规则的拼布被子。今天的公告在这方面是非常看好的迹象。执行现在是关键。
2024 年 11 月 19 日 上午 7:02 by Andrew Brust




