导语
数据将是未来 AI 竞争的胜负手。
今年伊始,随着 deepseek 和 manus 等 AI 技术的火爆,技术浪潮将大模型从技术研究快速推向场景落地的关键阶段,以腾讯、阿里、字节为代表的互联网厂商凭借海量用户和丰富的生态资源,在通用大模型领域不断升级进化,并快速迭代 AI 相关的应用。与此同时,金融机构也迅速入局,利用其交易、风控、客户画像等高质量数据,加速布局智能投顾、信贷风控、智能客服等领域,并快速切入场景和应用落地。

金融行业落地Data+AI的三大核心矛盾
数据来源极其广泛且格式多样:用户交易数据、客服录音、市场研报等等;系统烟囱林立,接口复杂;数据标准与质量参差不齐; 实时性要求高:实现多源异构数据的整合并保证低延时是巨大挑战。
领域知识壁垒:金融业务逻辑复杂且专业性强,AI 工程师通常缺乏领域知识; 业务与技术沟通屏障:业务人员难以理解AI 原理,对 AI 抱有不切实际的期望或对“黑箱”决策产生不信任感; 跨模态数据融合困难:金融数据天然包含多种模态; 可解释性与信任机制:复杂的通用大模型或垂类行业模型往往缺乏可解释性,在高度强调风险和合规控制的金融领域,无法解释模型为何做出某个决策。
监管合规压力大:金融行业是全球监管最严格的行业之一; 敏感数据高度集中:大量个人隐私信息、商业秘密; 数据共享与协作鸿沟:出于安全和竞争考虑,不同部门/子公司的数据共享存在天然障碍; 大模型本身的安全风险:AI 模型可能存在对抗攻击误导,或泄露训练数据中的敏感信息的风险。

一、数据应用层
——构建人机协同的智能体应用生态

自主性(Autonomy):在严格预设的业务规则与风控边界内,智能体应能独立执行分析、决策、交易流程。 安全性(Safety):构建金融级安全防线,涵盖数据加密、Agent 权限管理和抗 AI 攻击。 可解释性(Interpretability):核心在于模型透明与审计追踪。 持续进化(Sustainability):具备在线学习、增量学习能力。 开放性(Openness):基于标准化接口(如OpenAPI、MCP server),实现智能体间及与传统系统的无缝协同。
二、开发治理层
——构建面向 AI 的一体化数据开发管理平台
深度语义建模与标注 :平台需具备强大的自然语言理解和知识图谱构建能力。它不仅要抓取基础元数据,更要通过嵌入领域知识库,理解每个数据项背后的含义及流程中的角色。举个例子,“客户最近交易总额”这个字段,,对Agent需要标记其业务定义(如:取最近3个月所有非测试账户的入金交易净额)、关联指标(如“最近消费总额”)、原始表路径(用于追溯与调试); 上下文感知与意图理解 :当业务人员或Agent以自然语言形式提出查询需求(如:“筛选一个月内购买过A理财产品且风险等级为R3以上的高净值活跃客户”),资产平台能结合对话语境、Agent角色、任务类型,深度解析其真实业务意图,并精准映射到背后所涉及的“客户画像表”、“资产持仓表”等实体资产,理解查询中各概念的约束关系; 动态关系捕捉与智能推演 :数据口径会因业务规则变化或监管政策变化而更新。平台需要主动捕获这些变化,清晰地标记语义层面的“演化轨迹”与关联影响范围。
多模态接口适配:平台提供多种类型、易操作的接口访问数据资产知识图谱。 自然语言接口 :支持Agent通过自然语言与平台进行高效对话。 向量化嵌入服务 :知识图谱的重要语义信息被预训练为高质量的向量,直接嵌入到Agent的内部推理模型中,大幅提升其对语义的理解能力,提高响应速度。
情境化推荐 :基于当前任务、行为模式、环境参数的综合感知,平台能主动推荐最适合的的核心数据资产及其关键指标解释; 资产组合智能分析 :平台能基于已有的各模块级数据资产组件,诊断现有的“资产拼图”是否完整; 质量与可用性状态智能感知 :Agent在决策时需要依赖数据的时效性和准确性。
自然语言作为核心编译层 :业务需求方(如领域专家、产品经理)可使用自然语言直接描述复杂意图; 可视化引擎 :提供图形化、组件化的可视化编排界面; 即时验证与反馈机制 :集成实时数据沙箱与轻量化仿真引擎。
统一编排引擎驱动的融合流水线 AI增强型过程自动化 嵌入式治理与全景可观测 监控一体化
全生命周期赋能 知识资产化 插件化生态
复杂规则的学习与生成 多维度健康度评估 自适应质量校准
治理规则动态调优 环境敏感治理
Agent行为可信度评估审计 策略驱动的数据安全弹性收缩机制

三、底座能力层
——构建面向AI 原生的数据底座

支持 Changelog 增量机制 支持批处理与 OLAP 查询 秒级数据可见性 支持存算分离的 State 管理 支持丰富的 Upsert 逻辑 原生兼容 Apache Iceberg
统一元数据模型与存储机制:构建可扩展的元数据模型,利用图数据库存储血缘关系,并通过ES建立全文索引以加速检索; 自动化采集与集成元数据:多源适配与实时同步,被动推送和主动拉取 ; 智能化元数据治理能力:包括数据血缘与影响分析,可视化展示数据从源端到消费端的全链路路径; 统一服务化接口与开放集成:多协议服务兼容,开放表格式支持。
开放表格式与数据接口:基于开放表格式的元数据管理,支持事务性ACID操作和多版本控制,实现数据湖与数据仓库的元数据统一; 为什么是Apache Iceberg?Iceberg 在 2024 年一路开挂,Snowflake 和 Databricks 先后开源;一整年时间里,Iceberg 持续占据 Data Infra 的热点,毫无争议的成为开放表格式的事实标准。而腾讯作为国内最早拥抱Iceberg的互联网厂商,通过自身实践和在企业客户的打磨,已在多个场景上有丰富的优化与实践,比如小文件治理问题、元数据膨胀失控等问题。以腾讯云TBDS 为例,数据湖治理服务-luoshu在多个大型金融客户的大规模生产实践中,取得了比较好的实践结果。主要体现在以下三个方面:维护表数量上限大幅提升、资源自治化率提升、失败率大幅降低。
存算分离架构:资源解耦与独立扩展,将数据统一存储在开放的对象存储,计算层与存储层解耦,实现计算资源按需独立扩缩容; 弹性资源调度机制 :云原生动态扩缩容策略,按需扩缩容和提前扩容; 多租户资源隔离 :为不同业务线分配独立计算资源组,通过K8S或YARN实现资源配额隔离,确保高优任务不受低优任务干扰。
噪声干扰:噪声导致数据质量退化,是多模态融合的首要障碍。具体分为两类,模态内噪声(特征级)和跨模态噪声(语义级)。 模态缺失:交互不足,语义割裂。 模态失衡:异构数据中的主导效应与偏见放大。
写在最后
作者:张帆 腾讯金融云解决方案总监
文章转载自腾讯云大数据,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




