暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

微软提供Azure ML数据导入CLI、Snowflake等数据库的SDK

云原生数据库 2023-06-05
141
微软已推出新的集成功能,允许Snowflake和AWS S3用户将他们的数据导入到其Azure机器学习(ML)服务中,以进行AI模型的训练和开发。
这个集成是通过新的数据导入命令行界面(CLI)和软件开发工具包(SDK)完成的,它允许将数据从平台外的数据存储库中导入,Azure机器学习的高级经理Amar Badal在博客文章中写道。
CLI是一种基于文本的用户界面,可用于查询文件、运行程序和与计算机实例或服务器进行交互。
CLI和SDK工具包可用于例如在Snowflake实例和Azure ML之间创建连接,Badal写道,他补充说,数据科学家可以查询该连接以将所需数据拉入机器学习服务。“如果场景需要定时导入数据,可以使用流行的cron或重复模式来定义导入频率。”Badal写道。
Crons是实用程序,允许用户通过在CLI中输入一组命令,在指定时间安排重复任务。
新的CLI和SDK帮助数据科学家 
根据dbInsights的首席分析师Tony Baer,这种新的集成旨在帮助数据科学家提高生产力,缩短他们的产品开发或模型训练周期。
微软强调,新的功能将消除数据科学家与数据工程团队定期沟通的需求。
现在已经开放2024年IT工作最佳场所的提名 “每次导入,无论是否定时,都会创建数据集的唯一版本,该版本反过来用于训练任务,为需要重新训练或模型审计的场景提供必要的可追溯性。”Badal写道。
Constellation Research的首席分析师Doug Henschen同意,新工具对数据科学家特别有帮助,他指出,“任何在Azure上运行Snowflake的公司都将获得另一个良好集成的选项,用于在Snowflake内部管理的数据进行数据科学。”
Azure ML策略与Snowflake的Snowpark不同 
分析师表示,微软的集成方法与Snowflake在机器学习上的方法有所不同。Snowflake提供Snowpark,该平台旨在允许开发者以无服务器的方式将他们喜欢的工具应用到Snowflake的虚拟仓库计算引擎。
“Azure ML并没有采用Snowpark的路线。相反,微软说,可以从Snowflake导入数据,并在我们的环境中处理,而不是在Snowpark中实现Azure ML功能作为用户定义的函数(UDFs)。这并非没有先例,因为Snowflake的合作伙伴H2O已经采取了类似的做法。” Baer说。
据Henschen说,Azure不走Snowpark路线的策略很大程度上可以归因于Snowflake的策略。
“Snowflake创建了Snowpark以便于数据科学工作,但大部分还是依赖合作伙伴提供执行所需的软件和服务。Snowflake的客户需要像微软这样的合作伙伴,以充分利用Snowflake平台上管理的数据。” Henschen说。
除了新的CLI和SDK集成(仍在公开预览)外,该公司还在Azure ML的托管数据存储上引入了一项名为“代表托管”或HOBO数据存储的新生命周期管理特性。
Badal表示,该产品赋予了用户通过新的CLI和SDK集成管理从Snowflake和AWS S3等仓库导入的数据的权力。
“AzureML管理的数据存储中的每个导入的数据资产都设置了一项策略,如果任何任务在30天内未使用导入的数据资产,将自动删除该数据资产。人们只需在定义他们的导入时将‘azureml://datastores/workspacemanagedstore’设为路径,剩下的部分将由AzureML处理。” Badal写道,并补充说,该产品带有一个自动删除功能,对于超过30天未使用的任何导入数据集都有效。
据Henschen说,这个特性在机器学习模型的开发和持续的刷新和替换中是至关重要的。
微软表示,生命周期管理特性也在公开预览中。



文章转载自云原生数据库,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论