暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

怎样抓住大模型的尾巴?数据云Snowflake这样做!

347

似乎是在一夜之间,语言大模型LLM成为香饽饽,在中国超过100家企业推出了自己的通用大模型,真对特定行业和领域的行业大模型更是如雨后春笋般。每一家企业都希望抓住LLM的机会,把AI引向更多的领域。


现实却是一地鸡毛。现实中能用的LLM凤毛麟角,一些挂羊头买狗肉,据传有些LLM公司开始裁员了。


不过LLM带来的机遇并没有消失。在抓住LLM的机会方面,曾经创造了美国IPO历史上辉煌记录的数据云公司Snowflake的做法值得借鉴。


大家都知道软件即服务(SaaS),用户通过自己的终端和网络就可以访问软件,省去了自己购买硬件、软件、部署、管理等繁琐的工作,按使用计费。


Snowflake成立于2014年,是一家数据仓库即服务公司(云数仓),让用户通过终端和网络,来访问数据仓库这种软件,省去极高的费用。


数据仓库是专为分析而设计的高度并行的SQL或NoSQL数据库,允许用户从多个来源导入数据,并从PB级数据中快速生成复杂的报告。Snowflake在云中的竞争对手包括Amazon Redshift、Google BigQuery、Microsoft Azure SQL Data Warehouse。其他主要竞争对手如Teradata,Oracle Exadata,MarkLogic和SAP BW 4HANA则可安装在云中或者本地。


现在,基于云的数据仓库公司Snowflake正在将注意力转向大型语言模型和生成式AI。那它是怎么做的呢?



1.与英伟达合作,发挥AI软硬件协同作用


为了帮助企业使用存储在Snowflake中的数据训练LLM,Snowflake与AI GPU的供应商英伟达Nvidia合作,以访问Nvidia结合了硬件和软件功能的AI平台。


首先,通过集成Snowflake和Nvidia的AI技术,客户可以快速轻松地构建、部署和管理定制应用,从而将生成式AI的功能带到各种用例中。


借助英伟达的开发大语言模型(LLM)的Nvidia NeMo平台和Nvidia GPU加速计算,Snowflake将使企业用户能够使用其Snowflake帐户中的数据,为高级生成式AI服务(包括聊天机器人、智能搜索引擎搜等)制作自定义LLM。


Nvidia和Snowflake将共同创建一个AI工厂,为企业带来了一个新的机遇。Snowflake用户能够使用其专有数据(范围从数百TB到PB的原始和精选业务信息)来创建和微调自定义LLM,为特定于业务的应用和服务提供支持。


其次,在数据云中扩展AI功能,使客户能够在其受治理数据已驻留的位置创建生成式AI应用,可显著降低成本和延迟。同时,在不移动数据的情况下自定义LLM的能力,使专有信息能够在Snowflake平台中保持完全安全和治理。


最后,在年度Snowflake峰会上,Snowflake宣布了与Nvidia合作的Snowpark Container Services,以及其Streamlit Python库的更新,旨在帮助企业用户管理大型语言模型(LLM)


Snowpark Container Services目前处于个人预览状态,允许企业将更多样化的工作负载(包括LLM)引入数据云平台,还允许开发人员使用任何编程语言构建应用。


新的容器服务将存储在Snowflake中的企业数据与LLM、模型训练接口、模型治理框架、第三方数据增强应用程序、机器学习模型、API和Snowflake 的原生应用框架连接起来。


随着企业发现与训练LLM和其他机器学习模型相关的大量数据输入和使用存在潜在的合规风险时,将这些模型转移到受治理和隔离的系统中,安全移动工作负载的过程将变得越来越重要。Snowpark Containerized Services将帮助公司根据客户的偏好在公共云和私有云之间移动工作负载,如机器学习模型或LLM。


Snowpark Container Services还将有助于减轻Snowflake数据仓库引擎的负担,因为它将在抽象的Kubernetes环境中运行。


此外,Snowpark Container Services将允许企业访问第三方生成AI模型提供商,如Reka AI。其他LLM,例如来自OpenAI,Cohere和Anthropic的LLM,也可以通过API访问。


分析师表示,Snowflake的更新是一种旨在应对Databricks的策略。Databricks目前为构建原生AI、ML模型提供了比Snowflake更多的功能,特别是收购MosiacML承诺能够更便宜,更快地训练模型。



2.推出Document AI大模型,从非结构化数据中生成见解


在LLM方面,Snowflake的另一个举措是将LLM的强大功能带入数据云,推出Document AI大模型(个人预览版)等新创新,以帮助客户理解文档,更多地利用非结构化数据,帮助提高企业生产力。


Document AI基于Snowflake去年收购的Applica LLM技术构建的。通过将此模型集成到Snowflake的平台中,组织能够轻松地从文档中提取发票金额或合同条款等内容,并使用可视化界面和自然语言微调结果。


这一新LLM的加入是跟上AWS、Oracle和Microsoft等竞争对手步伐的重要一步。


根据IDC预测,在未来五年内,全球超过90%的数据将以文档、图像、视频、音频等非结构化形式存储,但是从中获得有价值的见解历来需要手动、容易出错的流程和有限的专家技能。


基于Snowflake对非结构化数据的支持,Snowflake的内置Document AI将使组织能够毫不费力地使用自然语言处理从文档中提取价值。客户正在使用Document AI 来帮助团队更智能地处理业务,并以安全且可扩展的方式提高用户生产力。



3.发展MLOps工具,让ML自动化


开发生产就绪型机器学习模型并非一件易事。根据一项机器学习研究,55%的公司尚未将模型部署到生产中,40%或更多的公司需要30天以上的时间来部署一个模型,41%的受访者承认对机器学习模型进行版本控制和可重现性比较困难。


尽管数据科学家很难标记数据并开发出准确的机器学习模型,但在生产中管理模型可能更加艰巨。识别模型漂移、通过更新数据集重新训练模型、提高性能和维护底层技术平台都是重要的数据科学实践。如果没有这些规则,模型可能会产生错误的结果,从而对业务产生重大影响。


好消息是出现了开源MLFlow和DVC等平台和库,以及来自Alteryx、Databricks、Dataiku、SAS、DataRobot、ModelOp等的商业工具正在使数据科学团队的模型管理和操作变得更加容易。公有云提供商也在共享实践,如使用Azure机器学习实现MLops。


为了帮助企业进行机器学习模型操作(MLOps),Snowflake也推出了一系列工具,这是软件公司的根本。


其中之一就是Snowpark Model Registry,是企业机器学习模型的统一存储库,旨在使用户能够集中发布和发现模型,从而简化数据科学家和机器学习工程师之间的协作。


尽管AWS、Databricks、Google Cloud和Microsoft等竞争对手已经提供MLOps工具,但分析师认为Snowflake新的Snowpark Model Registry是一个重要的更新。


模型注册表和存储库是数据领域的新战场之一,因为公司选择放置其珍贵的专有或商业模型的位置,并确保存储、元数据和版本控制得到适当的管理。


此外,Snowflake还在将Streamlit集成到其数据云平台中,将其带入公共预览版,以便在正式发布之前进行最终微调


随着Apache Iceberg作为开放表格式的行业标准越来越受欢迎。Snowflake为了使企业更容易将数据云的价值扩展到Iceberg数据,正在将Apache Iceberg表的使用扩展到企业自己的存储。


其他更新主要针对开发人员,包括数据云平台中Git和新命令行界面(CLI)的集成,两者都为个人预览版。


Snowflake表示,虽然原生Git集成预计将支持CI CD工作流程,但新的CLI将有助于Snowflake中的应用程序开发和测试。


为了帮助开发人员摄取流数据并消除批处理和流管道之间的界限,Snowflake 还推出了动态表和Snowpipe流形式的新功能。虽然Snowpipe流式处理预计将很快正式发布,但动态表目前为公共预览版。


Snowflake还表示,Native Application Framework现在在AWS上处于公共预览状态。


Snowflake迈向MLL的三大举措能否奏效呢?让我们拭目以待!


参考资料:



·https://www.snowflake.com/blog/generative-ai-LLMs-summit-2023/


·https://www.infoworld.com/article/3700715/snowflake-updates-target-generative-ai-demand-from-enterprises.html


·https://www.infoworld.com/article/3435115/snowflake-review-a-data-warehouse-made-better-in-the-cloud.html


·https://www.infoworld.com/article/3570716/mlops-the-rise-of-machine-learning-operations.html


·https://nvidianews.nvidia.com/news/snowflake-and-nvidia-team-to-help-businesses-harness-their-data-for-generative-ai-in-the-data-cloud



春华秋实!

扫码关注

大数据应用

从现在开始

End


文章转载自Hadoop大数据应用,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论