数据科学是利用科学方法、流程、算法和系统从数据中提取价值的跨学科领域。数据科学家结合了一系列技能(包括统计学、计算机科学和业务知识)来分析从网络、智能手机、客户、传感器和其他来源收集的数据。
数据科学揭示趋势并产生见解,企业可以利用这些见解做出更好的决策并推出更多创新产品和服务。数据是创新的基础,但它的价值主要在于科学家可以从中收集信息,然后采取行动。
数据科学家使用的工具有很多种,但常见的一种是开源笔记本,它是用于编写和运行代码、对数据执行可视化并查看结果的 web 应用 — 所有这些均在同一个环境中实现。一些流行的笔记本包括 Jupyter、RStudio 和Zepplin。笔记本在进行分析时非常有用,但在数据科学家需要进行团队协作时,笔记本也有其局限性。数据科学平台的出现解决了这一问题。
“有效的机器学习模型是成功的数据科学项目的基础,但是企业面临的数据量和种类繁多,可能会使这些计划在付诸实践之前就停滞不前。借助Oracle Cloud Infrastructure Data Science,我们可以通过自动化其整个工作流程并增加强大的团队支持协作来提高单个数据科学家的生产力,以帮助确保数据科学项目为企业带来真正的价值。”
--Oracle Data and AI产品开发高级副总裁Greg Pavlik
尽管有数据科学的承诺和对数据科学团队的巨大投资,许多企业并未意识到其数据的全部价值。在人才招聘和数据科学项目创建的竞争中,一些公司经历了低效的团队工作流程,不同的人使用不同的工具和流程,而这些工具和流程不能很好地协同工作。如果没有更严格、更集中的管理,高管们可能无法获得全面的投资回报。这种混乱的环境带来了很多挑战。
数据科学家不能有效地工作。由于访问数据需经 IT 管理员授权,因此数据科学家往往要等待很长时间才能获得其需要分析的数据和资源。获得访问权限后,数据科学团队可能会使用不同且不兼容的工具来分析数据。例如,数据科学家可能使用 R 语言开发一个模型,但是将使用该模型的应用则是用另一种语言编写的。这就是为什么将模型部署到有效的应用中可能要几周甚至几个月的时间。
应用开发人员无法获得可用的机器学习。有时,开发人员接收到的机器学习模型需要重新编码,或者不能直接部署到应用中。而且,由于接入点不灵活,无法在所有场景中部署模型,应用开发人员仍需面对可扩展性问题。
IT 管理员在支持工作上花费太多时间。由于开源工具的激增,IT 需要支持的工具越来越多。例如,营销领域与金融领域的数据科学家可能使用不同的工具。不同团队的工作流程也可能不同,这意味着 IT 必须不断重建和更新环境。
业务经理也无法有效参与数据科学流程。数据科学工作流程并不总是会集成到业务决策流程和系统中,这导致业务经理难以与数据科学家进行信息全面的协作。如果集成欠佳,那么业务经理会难于理解为什么从原型到生产需要这么长的时间 — 并且他们不太可能对自己认为太慢的项目上的投资表示支持。
在考察数据科学平台的功能时,一些应考虑的关键功能包括:
选择基于项目的 UI 来促进协作。.该平台应让工作人员能够在从模型构思到最终开发的整个过程中开展协作。它应当支持所有团队成员自助访问数据和资源。
优先考虑集成和灵活性。确保该平台支持新的开源工具以及常见的版本控制提供程序,如 GitHub、GitLab 和 Bitbucket,并与其他资源紧密集成。
包含企业级功能。确保该平台可以随着您团队和业务的发展而扩展。该平台应当具备高可用性和强大的访问控制,并支持大量并发用户。
为数据科学提供更强大的自助服务。 寻找一个能够减轻 IT 和工程负担的平台,让数据科学家能够轻松便捷地即时启动环境,跟踪其所有工作,并轻松将模型部署到生产环境中。
Oracle Cloud Infrastructure Data Science是专为数据科学团队和科学家而设计。
Oracle前不久宣布了Oracle Cloud Data Science的可用性。它和Oracle其他许多产品一起提供一揽子的服务来为企业客户提供AI,ML和数据科学的服务。甲骨文数据科学平台的众多产品中最重要的就是这个OracleCloud Infrastructure Data Science,它可帮助企业协作构建,培训,管理和部署机器学习模型,以提高数据科学项目的成功率。

与其他专注于单个数据科学家的数据科学产品不同,Oracle云基础架构数据科学通过共享项目,模型目录,团队安全策略,可再现性和可审计性等功能来帮助提高数据科学团队的效率。
企业已经意识到,缺少了集成平台的数据科学工作是低效、不安全且难以扩展的。这种认识促成了数据科学平台的兴起。数据科学平台是所有数据科学工作所围绕的软件中心。一个优秀的平台可以减轻实施数据科学过程中的诸多挑战,并帮助企业更快速、高效地将数据转化为洞察。
有了集中的平台,数据科学家可以使用他们喜欢的开源工具在协作环境中工作,他们的所有工作都通过版本控制系统进行同步。

集中,组织和记录团队工作的项目。这些项目描述了工作的目的,并允许用户组织笔记本会话和模型。

用于Python分析和模型开发的笔记本会话。用户可以轻松启动针对Python数据科学工作负载的Oracle Cloud Infrastructure计算,存储和网络。这些课程使您可以轻松访问JupyterLab和其他精选的开源机器学习库,以构建和训练模型。此外,这些笔记本会话还附带了教程和示例用例,使入门比以往更加容易。

加速数据科学(Accelerated Data Science,ADS)SDK,可以使通用数据科学任务更快,更轻松且更不易出错。这是一个Python库,提供用于数据探索和处理,模型解释和解释的功能,以及用于自动模型训练的AutoML的功能。

模型目录可实现模型的可审核性和可重复性。您可以跟踪模型元数据(包括创建者,创建日期,名称和出处),将模型工件保存在服务管理的对象存储中,并将模型加载到笔记本会话中以进行测试。

建立机器学习模型的过程是一个反复迭代的过程,并且这一过程基本上永无止境。让我们逐步了解一下Oracle Cloud Infrastructure Data Science如何使整个生命周期的每个步骤中的模型管理变得更加轻松。

建立模型
Oracle云基础设施数据科学的JupyterLab环境提供了许多用于构建机器学习模型的开源库。它还包括加速数据科学(ADS)SDK,该SDK提供有关数据提取,数据概要分析和可视化,自动功能工程,自动机器学习,模型评估和模型解释的API。这是统一的Python SDK所需的一切,只需几行代码即可完成数据科学家通常在数百行代码中要做的工作。
训练模型
数据科学家可以通过ADS AutoML API自动进行模型训练。ADS可以帮助数据科学家找到数据集的最佳数据转换。在模型评估表明模型已准备好用于生产后,任何需要使用它的人都可以使用该模型。
评估模型
ADS还可以帮助评估模型,以确保模型准确可靠。使用该模型可以达到百分之几的精度?如何使它更准确?您希望在开始部署模型之前有所了解。
解释模型
模型的可解释性正成为机器学习和数据科学中越来越重要的一部分。您的模型能否为您提供有关其为何做出决策的更多信息?比如,围绕知情权的欧洲法规越来越多,GDPR(通用数据保护条例General Data Protection Regulation,简称GDPR为欧洲联盟的条例)声明数据主体有权解释模型所做出的决定。
部署模型
采用训练有素的机器学习模型并将其放入正确的系统中通常是一个困难而费力的过程。
但
模型监控
不幸的是,部署模型还没有结束。部署后必须始终对模型进行监视以保持良好的运行状况。训练过的数据过一段时间后可能不再与将来的预测相关。例如,在欺诈检测的情况下,欺诈者可能想出了新的方法来欺骗系统,并且模型将不再那么精确。Oracle Cloud Infrastructure Data Science致力于为数据科学家提供工具,以轻松监视模型在部署过程中的继续运行,从而随着时间的推移监视模型的准确性变得更加容易。
为什么选择Oracle DataScience
成功地将有效的机器学习模型成功投入生产,不仅需要专门的人员。这需要数据科学家团队共同合作。Oracle云基础架构数据科学提供强大的团队功能,包括:
共享项目可帮助用户组织,启用版本控制并可靠地共享团队的工作,包括数据和笔记本会话。
模型目录使团队成员能够可靠地共享已经构建的模型以及修改和部署它们所需的工件。
基于团队的安全策略允许用户控制对模型,代码和数据的访问,这些模型,代码和数据与Oracle Cloud Infrastructure Identity and Access Management完全集成。
可再现性和可审计性功能使企业能够跟踪所有相关资产,从而即使团队成员离开,也可以复制和审计所有模型。
借助Oracle Cloud Infrastructure Data Science,组织可以加速成功的模型部署,并产生企业级结果和性能以进行预测分析,以推动积极的业务成果。

AgroScout致力于检测早期农作物病害,以提高农作物产量,减少农药使用并增加利润。“我们的愿景是使全球范围内有5亿个农场的10亿农民在经济上可以使用现代农业,占全球劳动力的30%。我们计划通过提供基于云的,由AI驱动的可持续农业技术来实现这一目标,它完全依赖于低成本无人机,移动电话以及种植者的人工输入,” AgroScout创始人兼首席执行官Simcha Shore说。
“这一愿景的成功取决于管理连续不断增长的输入数据流的能力以及我们自己的基于AI的解决方案,以将数据大规模转换为精确的决策农业。Oracle Cloud的速度,规模和敏捷性帮助我们实现了梦想。现在,最近增加的Oracle Cloud Infrastructure Data Science开辟了新的视野,它提高了我们的数据科学家协作构建,训练和部署机器学习模型的能力。这种增加降低了成本,提高了效率,并帮助我们更快地扩大了全球足迹。”
IDenTV基于计算机视觉,自动语音识别和文本语义分类器支持的AI功能提供高级视频分析。“借助Oracle云基础架构数据科学,我们可以扩展我们的数据科学工作,以前所未有的速度提供业务价值。我们的数据科学团队现在可以无缝访问数据,而不必担心数据位置或访问机制的复杂性。在使用嵌入到环境中的TensorFlow,Keras和Jupyter笔记本等开源功能时,我们可以简化我们的模型训练和部署任务,从而节省大量成本并获得更快的结果,” IDenTV创始人兼首席运营官Amro Shihadah说道。“我们认为Oracle云基础架构数据科学与自治数据库的优势将为我们提供在市场上具有竞争力和独特性所需的优势。”
Oracle云基础架构数据科学是一项企业级服务,数据科学家团队可以在其中协作解决业务问题,并利用Oracle Cloud Infrastructure的最新和最大功能在云中构建,训练和部署其模型。
它是Oracle数据和AI平台的一部分,使您可以轻松集成和管理数据,并利用数据科学和机器学习的功能来获得更多业务成果。
借助OracleCloud Infrastructure Data Science,数据科学家比以往任何时候都更容易上手,使用所需的工具和库,并简化了对Oracle Cloud Infrastructure及更高版本中所有数据的访问。

作者简介
曹彬峰,甲骨文PaaS专家团队资深咨询顾问,专注于甲骨文PaaS云平台及区块链、人工智能领域,具有15年的IT行业从业经验,擅长互联网电子商务,Fintech方向的系统架构和实现。您可以通过binfeng.cao@oracle.com与他联系。
扫描二维码或点击阅读原文
快速预约精选云解决方案演示






