
点击箭头处“蓝色字”,关注我们哦!!
下一代人工智能技术之于企业,就像智能手机之于青少年:几乎每个人都想要的东西,但并不是每个人都准备好正确使用。
根据云安全联盟和谷歌云的一项调查,55%的组织计划在今年内采用GenAI 解决方案,这表明在企业应用中集成GenAI将大幅增加。
报告指出,82%的受访者表示行政领导是推动力的幕后推手。GenAI采用背后的推动力很大程度上可归因于C级高管。C-level高管是指组织机构中最高层的管理人员,他们充分认识到人工智能在现代商业环境中提供的竞争优势。
那么企业落地GenAI面临的最大挑战是什么?今年2月,Informatica 的一项调查标明,在实施GenAI面临的最大挑战中,数据质量位居榜首。



1.数据质量是实施生成式AI的头号障碍
Informatica CDO Insights 2024 报告对全球600名大公司数据领导者进行调查。
对于GenAI,45%的公司已经以某种形式实施GenAI,另有 53% 的公司计划实施,36% 的公司表示他们将在两年内实施,只有 2% 的公司表示 GenAI 不适合他们——对于大多数人在14个月前还不知道存在的技术来说,这个数字非常低。
然而,在GenAI上取得成功并不像注册 OpenAI 账户并让 GPT 撕裂那么容易。
Informatica 对数据领导者进行的一项新调查发现,数据质量是实施生成式 AI 的头号障碍。目前部署或计划部署GenAI的数据领导者中,有42%的人将数据质量列为GenAI成功的首要问题。


图片来源:
datanami.com
数据质量之后是数据隐私和保护,占比为40%;人工智能伦理也达到38%;用于训练和微调语言模型的数据量,占比38%,以及人工智能治理36%等。
虽然今天的预训练大型语言模型(LLM)比过去的自然语言处理(NLP)技术更容易使用,但拥有良好的数据对于使其正常工作仍然至关重要,无论是从头开始训练模型、微调预构建模型,还是在运行时提示 LLM。糟糕的数据会破坏 GenAI 项目,就像它会让任何类型的 AI 或 ML 项目陷入困境一样。
那么,糟糕的数据质量对GenAI有哪些影响?
Trifacta委托进行的一项新研究揭示,超过33%至38%的受访者表示,数据质量差对他们的人工智能和机器学习计划产生了负面影响。
深入调查发现,糟糕的数据质量对他们的人工智能和机器学习项目有各种影响,38%的人表示项目花费了更长的时间,36%的人表示项目更昂贵,33%的人表示没有达到预期的结果。




2.使用五种或更多工具进行数据管理工作
根据调查,企业用户使用的数据管理工具的数量,以及很大一部分公司正在处理 1,000 多个独立数据源等,也给GenAI计划带来了压力。
100% 的调查参与者表示正在投资数据管理功能,以支持数据战略和优先事项。


图片来源:
datanami.com
Informatica公司销售一套数据管理工具,涵盖数据集成和ETL、数据质量、数据目录、数据治理、主数据管理、数据可观测性以及API和应用程序。该公司发现,58%的受访者使用五种或更多工具进行数据管理工作。
更重要的是,在49%的受访者中,这些数据管理工具中的大部分都没有作为云托管服务提供。当然,Informatica在Intelligence Data Management Cloud的旗帜下销售一套统一的数据管理工具。
更多的数据通常意味着更多的洞察力和更好的信息。但根据 Informatica 的数据,2/5的公司表示正在处理 1,000 个或更多的数据源。近80%的受访者表示,预计2024年数据源的数量将会增加。
毫不奇怪,39%的数据领导者表示,提高GenAI用例的数据可靠性和一致性是 2024年的优先事项。另有39%的受访者表示,拥有数据驱动文化和更高的数据素养是2024年的目标,其次是改善对数据和数据流程的治理,占38%。
数据管理已成为 GenAI 的关键推动因素,对整体、高度集成的数据管理能力的投资是释放GenAI巨大潜力的关键,并使企业能够完全控制其不断扩大的数据资产。

3.您的数据管理策略是否为 AI 做好了准备?
当今大多数企业都渴望采用现代人工智能技术,例如大型语言模型。但是,根据其数据管理实践的成熟度,他们可能准备好也可能没有准备好实施此类技术。
在加入人工智能潮流之前,企业需要评估其数据管理策略,并评估其部署和使用下一代人工智能技术的定位。



第一,数据质量。关于“垃圾进,垃圾出”的古老口头禅在人工智能的背景下尤其如此。如果使用低质量数据训练 AI 模型,则模型将做出低质量或不一致的决策。
这就是为什么能够评估和优化数据质量是利用人工智能的关键要求。数据质量首先要定义反映数据准确性、完整性和一致性的指标,然后定期(或者更好的是连续)衡量这些指标。此外,您应该拥有适当的工具和流程来提高数据质量,例如,从数据集中删除冗余信息或删除可能表示不准确数据点的异常值。
第二,数据可访问性。如果AI算法和模型难以访问您的数据,您将不会在AI方面走得很远。因此,您需要一种确保数据可访问性的数据管理策略,这意味着您的企业拥有的所有数据都可以轻松连接到想要使用它的应用(包括AI应用程序)或与之集成。
当您处理“普通”类型的数据(如数据库)时,数据可访问性的重要性通常是显而易见的。但请记住,数据可访问性对于其他类型的数据也至关重要,例如半结构化、非结构化和“暗”数据,所有这些都可能在 AI 用例中发挥作用。
第三,数据灵活性。仅以一种形式提供且无法重组的数据对 AI 来说不是很有用。您只能在小规模或特定配置下访问的数据也不是。
为了充分利用 AI,您需要尽可能灵活的数据。无论您正在处理多大的数据量、结构或存储位置,您的数据管理工具和流程都应该允许您将数据应用于任何 AI 用例。有时,这样做需要进行更改,例如将数据迁移到新的存储平台或将其转换为其他格式。
第四,数据治理。与现代 AI 相关的关键挑战之一是,您并不总是知道 AI 模型如何处理您的数据,尤其是在使用第三方 AI 服务时。
这就是为什么数据治理是负责任地使用 AI 的关键支柱。数据治理允许企业建立有关在何处以及如何使用不同数据资产的规则。例如,您可能有一些数据过于敏感,无法向第三方 AI 服务公开。借助数据治理策略,您可以制定明确的策略来定义 AI 模型如何使用数据。
第五,数据管理。建立数据治理规则是一回事。实际上,执行它们是另一回事,这就是数据管理的用武之地。
数据管理允许您实施流程,确保您的团队在处理数据时遵循数据治理和质量规则。适当的数据管理可以防范 AI 模型带来的风险,以及其他挑战。
最近星环科技重磅推出知识平台Transwarp Knowledge Hub(TKH),拥有从语料到模型再到应用的完整的 AI Infra 工具集,覆盖语料开发和管理、大模型训练与持续提升、多模态知识工程、多模知识存储与服务、原生AI应用构建编排和应用服务等重要阶段,提供提示词工程、检索增强、智能体构建等大模型应用快速构建和提升、模型推理优化、模型安全和持续提升技术。
长期以来,数据一直是企业成功的关键因素。下一代人工智能技术GenAI使组织充分利用其可掌握的数据变得更加重要。
但是,在尝试采用 AI 技术时发现您的数据管理策略不够成熟,无法支持它之前,请评估您管理数据的方式,然后在开始实施 AI 之前识别并解决任何差距。
参考资料:
·https://www.datanami.com/2024/02/05/data-quality-top-obstacle-to-genai-informatica-survey-says/
·https://www.datanami.com/2023/12/08/is-your-data-management-strategy-ready-for-ai-5-ways-to-tell/
·https://www.datanami.com/2021/12/20/what-we-can-learn-from-famous-data-quality-disasters-in-pop-culture/
·https://www.datanami.com/2023/05/02/data-quality-is-getting-worse-monte-carlo-says/
·https://www.datanami.com/2020/01/23/room-for-improvement-in-data-quality-report-says/
·https://mp.weixin.qq.com/s/JRiwCheZafu9b7sNoSN3VA
相关文章
·AIGC 洞察系列:通用大模型or行业模型?企业:不接受ChatGPT通用大模型5大理由,行业大模型4大应知
·AIGC 洞察系列:首席人工智能官?没错!没有CAIO的公司将更大被动!
·AIGC 洞察系列:会自动写大模型来了代码的AI大模型来了!业务人员将要替代程序员?软件开发革命开始了!
·AIGC 洞察系列:软件接入大模型代表着未来,甲骨文三层策略,微软阿里全产品接入大模型,星环科技兼顾行业大模型和软件,用友金蝶浪潮推企业服务大模型
·AIGC 洞察系列:怎样抓住大模型的尾巴?数据云Snowflake这样做!


浓情端午
与您共庆佳节


END




