暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

[译]2025年及未来的颠覆性技术

原创 王语嫣 2025-07-14
177

变化正在发生,而且发生得如此之快,以至于即使是经验最丰富的数据管理人员和专业人士也难以跟上。新技术以及数据管理的新方法正在重构——并重新构想——与数据相关的工作。

行业领导者对数据世界变化的速度感到惊叹。“我正在目睹一些将使一切变得不同的事情,”Cytel 的首席企业架构师 Milan Parikh 说。“那种在五个不同的工具之间跳来跳去,仅仅是为了生成一份基本报告的感觉——这里有一个 ETL 工具,那里有一个 BI 仪表板,中间还有些人工智能?那将成为过去。新的平台正在将所有内容整合到一个平台上。BI、ETL、AI——整个堆栈。”

例如,Parikh 说明了以下情况:“我们最近完成了一个项目,用这些打包组件替换了我们的旧配置。我的团队需要花费整整 3 天时间来提取数据、清理数据、将其复制到各个地方,并生成一份周报。现在,同样的报告只需要 4 个小时。其中一半的时间只是因为不敢相信它会这么快而进行了两次检查。”

将新发展销售给数据团队或许是最大的挑战,Parikh 承认。“我不得不让我的 BI 人员学习数据工程。让我的数据工程师学习人工智能部署内容。从小处着手。选择一些即使失败也不会致命的东西。让你的团队为变化做好准备。还有,看在上帝的份上,从第一天起就考虑安全性。”

正在重塑数据场景的新兴技术和方法如下。

检索增强生成

检索增强生成(Retrieval-augmented generation,简称 RAG)在过去两年才出现,帮助解决了人工智能的一个主要弱点——准确性和可信度。谈到人工智能时,“起点必须是‘不信任并验证’,”芝加哥大学 NORC 的总裁兼首席执行官 Dan Gaylin 说,他也是《事实前行:错误信息的危害以及数据素养社会的承诺》一书的作者。“在数据源和分析上走捷径会导致不良结果。”

Gaylin 解释说,RAG 可以通过让人工智能系统从其训练数据之外的可信数据源检索信息来提高生成性人工智能响应的准确性和可靠性。“通过为人工智能系统提供对其查询领域的可信、专门知识的访问,RAG 使人工智能更不可能提供错误信息。”

采用 RAG 架构“可以让组织利用其专有信息,同时最大限度地减少错误和虚假内容的风险,”Gaylin 说。然而,RAG 也面临许多挑战,首先是需要可靠的数据源。Gaylin 建议数据管理人员“制定标准,以识别可以被授予‘高质量信息源’批准印章的关键来源。”

正如 Gaylin 还指出的那样,“RAG 启用的系统使用更多的计算资源,并且受到可靠数据源的可用性和质量的限制。它们还可能误解源数据与系统训练所依据的庞大语料库之间的关系。”

RAG 的另一个限制是“开发、激活和维护 RAG 过程所涉及的人力资源,”他补充道。虽然 RAG 是确保企业中更可信数据的有前景的方法,但“RAG 并不是万能的,”Gaylin 认为。“相反,它是朝着能够更好地支持我们社会迫切需要的数据完整性和透明度的人工智能系统迈出的有前景的一步。”

数字孪生

今年逐渐受到关注的另一项有前景的技术是数字孪生,即系统、设施甚至人员的虚拟副本。SAS 公司制造业、电信业、游戏和模拟领域市场营销经理 Glynn Newby 表示:“数字孪生通过实时数据进行驱动,被广泛应用于从游戏到医疗保健以及供应链等多个行业,用于生成真实产品或工作流程的模拟或数字模型。通过整合先进的机器学习和人工智能技术,数字孪生能够以更高的精度模拟各种场景,实时分析复杂数据集,并提供推动流程效率和韧性的见解。”

Newby 还提到,数字孪生技术“使企业能够为真实世界的应用程序构建虚拟测试场地,从而产生更准确的业务预测。”此外,数字孪生还可以提升企业中人类员工的绩效,助力企业在整合人工智能和人类员工时应对挑战。

Newby 提到阻碍数字孪生项目推进的一个棘手问题是数据质量问题。数据质量的不足“会破坏孪生的可靠性,因为分散的数据源和不一致的格式会创建不准确的模型。当将孪生与遗留系统和多样化的数据环境连接时,集成复杂性会加剧这一问题。”

数据管理者还需要警惕“高保真度模拟的计算需求常常会[使]现有基础设施[承受压力],同时虚拟副本通过为敏感数据创造额外的攻击面来扩大安全漏洞”,Newby 警告说。而且,与其他许多技术项目一样,实施和更新数字孪生需要专业人才,“将模拟建模与数据科学和系统工程相结合”,他补充道。

人工智能原生数据架构

从现在开始,面向未来的数据架构需要配置以支持人工智能应用程序和工作流程。而人工智能也可以协助开发这样的架构。谷歌公司中小型企业分析与洞察部门负责人 Jiaxi Zhu 表示,人工智能原生数据架构是今年最热门的项目。“随着企业加速使用人工智能,它们正从单一的管道架构转向由领域拥有、基于事件流的架构,将数据视为一种产品。”他解释说,“大多数现有的数据架构是为报告或批处理而构建的,这不足以支持应用人工智能所需的规模、灵活性和治理。”

人工智能原生架构需要设计为“支持实时人工智能推理,例如个性化、推荐、流失风险或异常检测等跨微服务的应用”,Zhu 说。“它通过在业务线之间扩展而无需经过中央数据团队(这可能会成为瓶颈)来加快洞察速度。它与隐私设计相一致,通过在领域级别启用治理和数据沿袭来实现。”

开发此类架构的挑战在于,它“需要组织在数据所有权、可观测性和跨业务线的 SLA(服务水平协议)执行方式上进行文化转变”,Zhu 建议道。此外,“它需要强大的元数据、模式演变策略和数据产品接口。”还需要大量的前期投资,“特别是在设置流处理平台(如 Kafka 或 Pub/Sub)以及实时编排方面。”

分布式数据架构

分布式数据架构一直是数据技术持续演进的终极目标,今年我们似乎正接近这一愿景。Akamai Technologies 的云布道师兼营销副总裁 Ari Weil 表示:“如今的数据架构新兴方法关注的焦点不再是‘我们对数据做了什么’,而是‘数据存在于何处’。”他补充道:“我们终于看到了新一代的数据平台,它们实现了像数据网格和雾计算等旧模型所追求的愿景。通过从数据中心延伸到边缘,这些平台能够在数据真正需要的地方存储和使用数据——更接近用户——而不会增加复杂性。”

Weil 还表示:“降低数据延迟长期以来一直被认为是改善用户体验和提高转化率的关键因素。”他将其称为“为动态内容加速首字节传输时间”。

Weil 进一步指出:“高度分布式的数据平台还在解决一些最棘手、最长期的基础设施难题。”例如,在库存系统中,“企业现在可以在更接近订单下单地点的地方实时跟踪和更新产品可用性,而不是依赖于通常会引入延迟或不匹配的较慢的集中式数据库。”

在运维方面,“团队能够更快地发现和解决故障,因为诊断数据可以在生成的地方进行处理,而无需等待其在网络中传输。”Weil 说道。

代理型人工智能

在过去一年中,关于代理型人工智能的潜力,已经有过许多讨论和猜测,但它在数据领域中如何发挥作用呢?InterSystems 全球医疗保健解决方案负责人 Don Woodlock 表示:“与仅对预定义输入做出响应的传统机器学习模型不同,代理型系统被设计为可以自主运行。”这包括“设定目标、做出决策以及在计划层面而非持续的人类提示下采取行动等功能。它标志着人工智能从被动工具向主动合作者的根本转变,能够带着意图在复杂的真实世界环境中导航。”

Woodlock 还表示:“代理型人工智能有潜力将人工智能从被动反应转变为真正主动,提前预判需求,并在数据与行动之间形成闭环。”

Percona 首席运营官 Bennie Grant 表示:“代理型人工智能有望带来远超渐进式效率提升的显著收益——它标志着企业在解锁其已经拥有并持续生成的数据价值方面的一次根本性演变。”他补充道:“代理型人工智能使企业能够超越被动的数据收集,迈向智能、自主的决策制定。数据成为一种活生生的资产——不断地被分析、解读,并实时采取行动。”

代理型人工智能在医疗保健数据站点的推广可能会带来强大的益处。Woodlock 说:“这样的系统可以在医院或门诊护理等临床环境中持续分析患者数据,并在无需每次细节都等待明确人类输入的情况下采取主动措施。例如,它们可以建议进行实验室检查、通知护理团队或准备术前材料。”

此外,Woodlock 还表示:“代理型系统可能会在预定程序之前自动协调任务,确保完成必要的检查,并交付患者教育和知情同意表。这种程度的自动化可以减轻临床医生的工作负担,加快响应时间,并支持更一致、可扩展的护理。随着这些系统的自主性增强,它们能够以人工难以实现的规模实时管理复杂的流程。”

然而,深入采用代理型人工智能架构的注意事项包括需要增强透明度、安全性和问责制,Woodlock 说道:“这些系统需要解释它们的决策,赢得用户的信任,并以确保人类监督的方式进行治理。此外还有监管和测试的问题,特别是在医疗保健等高风险领域。”

代理型人工智能面临的其他挑战涉及安全、治理和信任。Grant 表示:“公司需要确保他们遵守不断演变的法规,并负责任地处理数据。”虽然这是任何技术的常见问题,但“在这里,风险更高,因为代理型系统本质上是自主的,意味着它们在几乎无人类监督的情况下做出决策并采取行动。这引发了关于问责制、控制和风险管理的关键问题。让人工智能自主行事需要一种大多数组织目前尚未准备好授予的信任水平,至少目前还没有。赢得这种信任可能需要花费数年时间。”

向量原生数据织网

随着人工智能的兴起,对向量数据环境的需求也越来越大。这引发了对自主向量原生数据织网的浓厚兴趣,这种数据织网能够“将人工智能驱动的机制直接集成到数据织网中,实现实时语义理解和自适应数据处理”,Orcus 的联合创始人兼首席执行官 Nic Adams 说道。这种织网是实时的,能够“在无需预定义查询的情况下即时检索相关信息”。Adams 补充说,这种织网注定会引发“数据管理的重新定位”,因为它们将智能直接嵌入数据基础设施中。

然而,Adams 警告说,实施这种织网的挑战在于其复杂性。此外,他还提到,“由于恶意输入,存在数据投毒的风险。如果管理不当,这些输入可能会破坏学习模型。”

数据合同

随着越来越多的企业决策者将组织的未来成功寄托于数据,确保数据的可用性和可靠性,正式的数据合同在数据提供者和使用者之间变得至关重要。HCLSoftware 的首席产品官 Kalyan Kumar 表示:“这种合同可以通过自动监控和在合同违规发生时发出警报——无论是模式变更、质量下降还是服务水平协议(SLA)违反——来推动数据管理从被动的救火模式转向主动的治理模式。”这还包括满足监管合规要求。

数据合同还有助于“减少在数据发现、清理和可靠性问题上花费的时间”,Kumar 补充道。它们还有助于确保可靠的代理架构,为代理提供一个清晰的上下文,以便它们学习如何使用数据。据 Kumar 说,挑战在于“实施以合同为中心的数据管理实践需要重大的文化变革,因为数据合同要求传统上相互隔离的团队之间进行合作。”

灵活加密

网络安全是数据站点的首要任务——然而,数据加密得越多,就越不利于高级分析。一种名为全同态加密的新兴技术可以在保持数据安全性和保密性的同时,对加密数据进行分析。

“目前,企业只能实现其数据资产价值的一小部分,”Niobium Microsystems 的首席技术官 David Archer 说。“例如,麦肯锡估计,如果企业能够安全地与第三方共享数据库内容,组织可以从财务数据中获取 80% 至 90% 的额外价值。”

Archer 解释说,全同态加密“全面部署后,将推动新的开放数据应用的出现,创造数万亿美元的收入机会”。通过这种技术,“数据库内容、查询和结果始终处于加密状态。客户可以在不透露问题的情况下查询数据库,数据库所有者可以在不被利用的情况下共享数据。这将为零信任开放数据应用铺平道路,例如暗池交易、欺诈检测、医学研究等。”

然而,Archer 警告说,全同态加密“既慢又复杂”。目前,全同态加密软件应用“比明文计算慢几个数量级。商业上可行的安全数据共享需要硬件加速,而所需的硬件刚刚进入市场。”他预测,这种能力最终可能成为企业数据库环境的必备功能。

原文地址:https://www.dbta.com/Editorial/Trends-and-Applications/Game-Changing-Technologies-in-2025-and-Beyond-170187.aspx?PageNum=4
原文作者:Joe McKendrick

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论