暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

【专家说】张帆:AI 时代下的金融大数据构建——深度解析 Data+AI 金融行业探索路径

腾讯云大数据 2025-07-07
100

导语

数据将是未来 AI 竞争的胜负手。

今年伊始,随着 deepseek 和 manus 等 AI 技术的火爆,技术浪潮将大模型从技术研究快速推向场景落地的关键阶段,以腾讯、阿里、字节为代表的互联网厂商凭借海量用户和丰富的生态资源,在通用大模型领域不断升级进化,并快速迭代 AI 相关的应用。与此同时,金融机构也迅速入局,利用其交易、风控、客户画像等高质量数据,加速布局智能投顾、信贷风控、智能客服等领域,并快速切入场景和应用落地。



金融智能化的浪潮奔涌而至,全球头部机构的实践正验证一个铁律: AI的天花板,由数据地基的深度与纯度决定。Gartner 在今年 3 月提出了一个观点,随着大语言模型能力的提升和商品化的加速,特定的LLM 将不再视为企业组织 GenAI 成功的关键因素。企业机构难以获取和复制的独特内部数据(Uniquedata)将成为 AI 成功之旅的核心竞争力来源(参考图 1)。只有那些有能力通过先进的数据管理技术持续发现高价值数据并将其转化为企业数据资产的组织,才能在不断演进的 AI 技术浪潮中快速实现业务价值。
图1 : 企业数据与AI平台价值金字塔



金融行业落地Data+AI的三大核心矛盾



对于金融行业而言,虽然掌握交易、画像、资产等高质量数据,但如何将这些“数据富矿”转化为驱动 AI 的“高纯度燃料”,是未来金融机构面临的三大核心矛盾:
矛盾一:多源异构数据的整合困境
核心痛点:数据孤岛林立,难以形成统一视图。
  • 数据来源极其广泛且格式多样:用户交易数据、客服录音、市场研报等等;系统烟囱林立,接口复杂;数据标准与质量参差不齐
  • 实时性要求高:实现多源异构数据的整合并保证低延时是巨大挑战。
矛盾二:领域知识匮乏与模态鸿沟
核心痛点:AI 技术专家缺乏金融专业知识,业务专家难以理解 AI内核,且跨模态数据难以有效融合利用
  • 领域知识壁垒:金融业务逻辑复杂且专业性强AI 工程师通常缺乏领域知识
  • 业务与技术沟通屏障:业务人员难以理解AI 原理,对 AI 抱有不切实际的期望或对“黑箱”决策产生不信任感;
  • 跨模态数据融合困难:金融数据天然包含多种模态
  • 可解释性与信任机制:复杂的通用大模型或垂类行业模型往往缺乏可解释性在高度强调风险和合规控制的金融领域,无法解释模型为何做出某个决策
矛盾三:数据安全与价值释放的博弈
核心痛点:如何在保障数据安全与隐私的前提下,最大化挖掘数据价值?
  • 监管合规压力大:金融行业是全球监管最严格的行业之一
  • 敏感数据高度集中:大量个人隐私信息、商业秘密;
  • 数据共享与协作鸿沟:出于安全和竞争考虑,不同部门/子公司的数据共享存在天然障碍
  • 大模型本身的安全风险:AI 模型可能存在对抗攻击误导,或泄露训练数据中的敏感信息风险
这三大矛盾相互交织,构成了金融行业数据价值释放的主要障碍。鉴于本文篇幅和云厂商的能力聚焦,我暂不展开人才组织管理和数据安全管理方向探讨重展开金融数据基座的能力构建,这涵盖云原生、数据开发一体化Data Agents 生态能力构建面向 AI-Native 的统一数据智能平台。
 Data+AI 这一火热方向持续融合与发展的能力建设角度考虑,可以为三个层面去研究探讨,分别是:数据应用层、开发治理层底座能力层(参考图 2)
图 2 Data+AI 能力建设分层

一、数据应用层

——构建人机协同的智能体应用生态

从数据应用的层面看,随着Agent的技术迅速发展与成熟,Data Agent领域不断扩大不再以单一智能体的形态出现,而是代表具有“数据分析能力”的智能体生态未来这些具有数据串接能力和分析能力的Data Agents,后续将与业务发展紧密结合,传统业务应用深度融合,成为业务发展最直接和重要的能力。
2025 年 4 月,微软在《Work Trend Index Annual Report 》报告中提出,前沿企业在 AI 转型的过程中会出现三阶段的进化路径:人机协作、代理同事和人类主导-代理执行(参考图 3)。这与AI agent 的能力跃迁和扮演的角色息息相关,Data Agent 的角色和能力范围也会愈发强大。
Phase 1  Human with assistant 个人助手Data Agent 作为数据分析人员的个人助手
Phase 2  Human-agent teams 代理同事。Data Agent 作为团队成员承担独立数据分析任务
Phase 3 Human-led,Agent-operated 人主智行。Data Agent 具有高度自主化数据处理和总结能力,独立承担数据相关工作和职责
图 3 三阶段进化路径
尽管AI Agent 的能力不断增强但是在金融领域,机构对于数据的安全性、严谨性高要求,也会对于数据智能体的协作模式产生不同的需求。针对金融行业的数据智能体,总结以下五大设计原则:
  • 自主性Autonomy在严格预设的业务规则与风控边界内,智能体应能独立执行分析、决策、交易流程
  • 安全性Safety)构建金融级安全防线,涵盖数据加密、Agent 权限管理和抗 AI 攻击
  • 可解释性Interpretability核心在于模型透明与审计追踪。
  • 持续进化Sustainability):具备在线学习、增量学习能力。
  • 开放性Openness)基于标准化接口(如OpenAPI、MCP server),实现智能体间及与传统系统的无缝协同。
遵循以上设计原则人与智能体会有非常深入交互协作模式数据分析场景而言整体应用交互设计很大革新未来Data Agent 时代人机交互进行分层更多需求实现逻辑在智能体之间实现人类主要确认验证工作

二、开发治理层

——构建面向 AI 的一体化数据开发管理平台

Data Agent时代的交互将趋向于分层化、自治化,这就要求其运行基座——数据开发管理平台必须进行革新。这个平台不仅要能够驾驭Data Agent的“智能”,更要深刻理解其运作逻辑,有效约束其行为边界,需三大核心能力
(一)构建面向 AI 的智能资产管理中枢
在传统模式下,数据资产目录往往是一个静态的“图书馆目录”,主要服务于人类分析师。对于Data Agent,它需要的并非一份简单的清单,而是一张赋予其理解与行动能力的、动态的“智能知识图谱”。面向AI数据资产管理,核心在于超越传统元数据管理的范畴,构建起一套Agent可以直接理解、调用并反馈的动态语义中枢平台
1、资产认知的升维:构建统一语义知识库
  • 深度语义建模与标注 :平台需具备强大的自然语言理解和知识图谱构建能力。它不仅要抓取基础元数据,更要通过嵌入领域知识库,理解每个数据项背后的含义及流程中的角色。举个例子,“客户最近交易总额”这个字段,对Agent需要标记其业务定义(如:取最近3个月所有非测试账户的入金交易净额)、关联指标(如“最近消费总额”)、原始表路径(用于追溯与调试
  • 上下文感知与意图理解 :当业务人员或Agent以自然语言形式提出查询需求(如:“筛选一个月内购买过A理财产品且风险等级为R3以上的高净值活跃客户”),资产平台能结合对话语境、Agent角色、任务类型,深度解析其真实业务意图,并精准映射到背后所涉及的“客户画像表”、“资产持仓表”等实体资产,理解查询中各概念的约束关系
  • 动态关系捕捉与智能推演 :数据口径会因业务规则变化或监管政策而更新。平台需要主动捕获这些变,清晰地标记语义层面的“演化轨迹”与关联影响范围。
2、资产的AI 自适应表达:构建 Agent 看得懂的数据地图
  • 多模态接口适配平台提供多种类型、易操作的接口访问数据资产知识图谱。
  • 自然语言接口 :支持Agent通过自然语言与平台进行高效对话
  • 向量化嵌入服务 :知识图谱的重要语义信息被预训练为高质量的向量,直接嵌入到Agent的内部推理模型中,大幅提升其对语义的理解能力,提高响应速度
3、资产的智能适配与推荐:成为Agent的“数据导航员”  
  • 情境化推荐 :基于当前任务行为模式、环境参数的综合感知,平台能主动推荐最适合的的核心数据资产及其关键指标解释
  • 资产组合智能分析 :平台能基于已有的各模块级数据资产组件,诊断现有的“资产拼图”是否完整
  • 质量与可用性状态智能感知 :Agent在决策时需要依赖数据的时效性和准确性。
(二)构建Data+AI 一体化开发平台
AI+Data一体化开发平台的核心在于将AI驱动的自动化与数据工程深度融合,为构建Data Agent及其应用提供端到端、高度灵活化的开发流水线。实现这一愿景,平台须具备三大核心一体化能力:
1、交互式开发一体化
这是平台连接人类智能与机器智能的首要入口
  • 自然语言作为核心编译层 :业务需求方(如领域专家、产品经理)可使用自然语言直接描述复杂意图
  • 可视化引擎 :提供图形化、组件化的可视化编排界面
  • 即时验证与反馈机制 :集成实时数据沙箱与轻量化仿真引擎。
2、DataOps与MLOps一体化:
构建端到端的自动化治理型流水线旨在打破数据工程(DataOps)与机器学习工程(MLOps)间的流程壁垒
  • 统一编排引擎驱动的融合流水线 
  • AI增强型过程自动化
  • 嵌入式治理与全景可观测
  • 监控一体化 
3、AI助手一体化:
深度赋能协同中枢一体化AI 助手不仅仅辅助工具更是平台的智能决策引擎与知识协同网络,通过插件化架构实现能力无限延展。
  • 全生命周期赋能
  • 知识资产化 
  • 插件化生态 
(三)构建智能化数据自治系统
在Data Agent的时代,治理不应再是围栏边界的检查站,而应成为融入平台运行脉络中的“神经网络调控中心”,实现数据的自动监管与主动体检。
1、智能化的数据质量监控:
  • 复杂规则的学习与生成
  • 多维度健康度评估
  • 自适应质量校准
2、实时感知驱动的治理策略优化:
  • 治理规则动态调优
  • 环境敏感治理
3、内生式安全策略的动态实施:
  • Agent行为可信度评估审计
  • 策略驱动的数据安全弹性收缩机制 
构建统一的Data+AI 的一体化开发管理平台,其最终价值在于:消除从业务洞见到数据智能产出的“最后一公里摩擦”。腾讯 Wedata 3.0 平台,从服务集团内部业务需求出发,支撑了包括金融科技、广告推荐、游戏等核心业务的数据开发与治理需求,未来企业服务领域持续深化AI与数据工程的融合,以“智能开发范式”推动数据价值向业务决策的实时转化。
图4 腾讯云 Wedata3.0平台架构

三、底座能力层

——构建面向AI 原生的数据底座

数据智能体的爆发式增长,正倒逼底层基础设施的架构范式发生根本性迁移。传统以“实时与离线割裂”“多系统烟囱式协作”为的数据平台,未来Dataagent 的高并发推理、低延迟决策及跨模态认知需求下日益捉襟见肘。对于AI原生时代的数据底座需要考虑三大核心能力
(一)流批融合引擎:重塑计算范式
金融业务对时效性的需求呈现两极分化——高频交易需毫秒级风控响应,客户画像训练需PB级吞吐。
6 月份Databricks Summit 大会Spark发布 4.0新特性实时模式更多增加优化面向Data Agent未来多元化场景能够通过实时感知作业运行时态数据特征资源状态动态切换优化策略面向AI 原生流批融合核心本质
腾讯云自研的流批一体化流湖引擎Setats为例用户可以通过 Setats 引擎实现统一存储、统一流批增量多种处理模式,解决传统Lambda架构中流和批链路分离导致的维护、管理和业务变更的高成本问题。下图5 setats 的方案架构
  图 5 腾讯云Setats方案架构
腾讯云 Setats 有以下六大核心特性:
  • 支持 Changelog 增量机制
  • 支持批处理与 OLAP 查询
  • 秒级数据可见性
  • 支持存算分离的 State 管理
  • 支持丰富的 Upsert 逻辑
  • 原生兼容 Apache Iceberg
(二)智能湖仓一体架构
金融业的智能湖仓架构可以通过元数据统一化存储开放化计算弹性化构建弹性可扩展的数据架构技术实现层面湖仓一体架构可以参考以下关键能力设计
1、统一元数据服务:
湖仓一体架构的核心枢纽,主要总结以下
  • 统一元数据模型与存储机制构建可扩展的元数据模型,利用图数据库存储血缘关系,并通过ES建立全文索引以加速检索
  • 自动化采集与集成元数据多源适配与实时同步被动推送主动拉取 
  • 智能化元数据治理能力包括数据血缘与影响分析可视化展示数据从源端到消费端的全链路路径
  • 统一服务化接口与开放集成多协议服务兼容开放表格式支持
2、存储开放化:
存储开放化是智能湖仓架构的核心支柱之一,其核心在于破传统存储系统的封闭性,通过标准化的接口、开放的数据格式和灵活的架构设计,实现异构数据的统一存储与治理
  • 开放表格式与数据接口基于开放表格式的元数据管理,支持事务性ACID操作和多版本控制,实现数据湖与数据仓库的元数据统一
  • 为什么Apache IcebergIceberg 在 2024 年一路开挂,Snowflake 和 Databricks 先后开源一整年时间里,Iceberg 持续占据 Data Infra 的热点,毫无争议的成为开放表格式的事实标准。腾讯作为国内最早拥抱Iceberg互联网厂商通过自身实践企业客户打磨多个场景丰富优化实践比如小文件治理问题元数据膨胀失控问题腾讯云TBDS 为例数据湖治理服务-luoshu多个大型金融客户大规模生产实践取得比较实践结果主要体现以下三个方面维护表数量上限大幅提升资源自治化率提升失败率大幅降低
3、计算弹性化:
计算弹性化是金融智能湖仓架构的核心算力支撑,通过原生动态资源调度智能优化技术,实现对金融业务高并发、实时性需求的敏捷响应。核心实现主要体现以下三个方面
  • 存算分离架构资源解耦与独立扩展数据统一存储在开放的对象存储,计算层与存储层解耦,实现计算资源按需独立扩缩容
  • 弹性资源调度机制 云原生动态扩缩容策略按需扩缩容提前扩容
  • 多租户资源隔离 :为不同业务线分配独立计算资源组,通过K8S或YARN实现资源配额隔离,确保高优任务不受低优任务干扰
(三) 多模态数据融合:金融认知的“全息投影”
据IDC预测,到2025年,全球非结构化数据总量突破175 ZB占比突破80%但仅有不到20%的企业能有效挖掘其潜力。金融行业例如研报中的风险提示、客服录音中的情绪波动、合同文本中的条款变更——这些隐藏在异构模态中的知识,恰是智能体深化金融认知的关键拼图。但是当前多模态数据融合应用处于前沿研究目前场景面临主要挑战噪声干扰模态缺失模态失衡
  • 噪声干扰噪声导致数据质量退化,是多模态融合的首要障碍具体分为两类模态内噪声(特征级跨模态噪声(语义级)
  • 模态缺失交互不足语义割裂
  • 模态失衡:异构数据中的主导效应与偏见放大
多模态数据融合并非技术孤岛,它与生成式AI的演进、边缘计算甚至世界模型的成熟都紧密交织。认知的“全息投影”不仅仅是对现状的更清晰描摹,更是对未来可能性的前瞻洞察谁能率先突破融合瓶颈,有效地将分散的、嘈杂的、异构的多源信息提炼成高价值、可行动的金融智慧,谁就能在激烈的市场竞争和复杂的风险环境中占据认知高地, 真正开启智能金融的新纪元。

写在最后

这篇文章前前后后两个月不是自己偷懒而是技术革新步伐太快研究学习包括内外数据厂商以及腾讯很多会议结识很多领域专家收获良多不断刷新自己
我们正处于数据时代一个新的转折点无论Dataagents 还是多模态数据成为未来企业AI 转型必答题腾讯大数据基础产品TBDSWedataDataagent 等企业数据产品矩阵助力金融机构实现面向AI 的升级转型
最后一个总结观点AI战略数据先行

作者张帆 腾讯金融云解决方案总监

目前负责腾讯金融云基础产品解决方案建设工作覆盖数据库大数据云原生网络安全领域具有 10 余年ToB 领域金融行业咨询项目落地经验帮助腾讯自研产品0-10-100 走向金融明星产品商业落地



文章转载自腾讯云大数据,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论