导读:本文整理自 五矿期货有限公司副总经理-张剑锋在 NebulaGraph 2022 年度用户大会上的分享,点击文末的【阅读原文】查看更多案例详情。
大家好,我是五矿期货的张剑锋,今天主要从使用者的角度给大家分享下 NebulaGraph 图数据库在期货领域的一些应用。在中国的六大金融行业里面,银行,保险,还有信托,是银保监会体系下的,俗称大金融行业。我们属于证监会管辖下的,有证券期货和基金,属于小金融行业。我们这个行业有三大主要的功能:发现价格,管理风险,还有配置资源。发现价格重点给大家介绍一下,因为这和投研的业务场景是有关系的,因为期货市场的参与者众多,除了有生产者、贸易商,还有消费者以及市场上大量的投机者。因为有这样不同类型的大量的交易者在期货市场上通过多空博弈产生出来一个价格,是相对客观和真实的,所以可以用于指导这些产业客户和实体经济相关参与者安排自己的生产和经营活动。五矿期货是中国五矿集团旗下的金融企业,五矿集团是 16 年五矿集团和中冶集团两家世界 500 强企业战略性重组,最新的世界 500 强排名是 58 位。五矿期货的控股股东是五矿资本有限公司,是 A 股的上市公司,同时也是一个 A 股市场稀缺的全牌照的金融控股公司。五矿期货是 1993 年成立的,是国内最早的一批期货公司之一,注册资本金 27.15 亿元。我们的业务在期货公司里面也基本上是全牌照了,除了经济期货经纪业务,还有资产管理、风险管理、国际业务投资咨询等等。我们总部位于深圳,还有 3 家全资子公司,4 家分公司以及 17 家营业部。五矿期货金融科技的发展是从 2018 年开始的。2019 年时我们就在期货行业内比较早地开展了数据治理、数据资产化,同年上线了大数据平台一期的项目,为接下来金融科技数字化转型打了比较好的数据基础。2020 年,我们在投入大数据安全还有投研数据平台的建设,把更多的数据应用到业务场景中去。2021 年,是我们公司的十四五战略规划年,同时也启动了数字化转型的项目。我们在私有云、大数据二期,还有全面风险管理等数字化项目做了一些比较深入的一些工作。今年我们往人工智能领域做了一些探索和尝试,知识中台已经基本建成,然后在这上面也做了很多的尝试和梳理工作。另外就是线上试点,我们也都在做一些尝试。因为期货行业是一个信息高度密集的行业,我们日常的经营过程中会产生大量的结构化数据,数据类型很多。除了客户的交易数据,还有客户行为数据,以及用户事件数据等等。同时还有很多非结构化的数据,像各类研究报告,新闻资讯。还有因为我们业务特殊要求,监管要求的要双录,客户开通特定品种或者给客户提供下单服务时,会产生大量的音频视频的数据。
所以大量的、多维的数据,多种类型的数据,这是我们这个行业的一个特点,整个金融行业也都是这样,所以我们认为利用知识图谱能够实现数据的汇集和治理,还有知识挖掘和应用,来辅助业务分析决策。第一是灵活的多维数据的叠加,因为图结构是比较灵活的,孤岛的数据其实是没有太多意义的,也不利于数据的挖掘和分析,通过图的点面关系,可以把有价值的多维数据叠加和连接在一起,会有更大的意义。
第二是依托经验分析可解释,因为在图谱上模型设计和决策,它的计算路径和过程是我们认为是很清晰的,可以使用图很方便地回溯推导过程,并可以和人的经验相互去做验证。第三是数据的高效直观表达,因为图相对来说是比较容易可视化的,将知识图谱可视化展示给用户,可以使用户快速学习或者是发现新的知识。第四是增强现有模型的准确率,因为使用知识图谱技术把整个数据拉通之后,有助于数据的数据质量的提升,同时可以提高整个模型的准确率。在我们实践和探索过程中,我们也遇到了一些困难。总结起来主要有三点,第一个就是因为知识图谱技术相对来说比较新,我们可以说是行业里走在前面的探索的人。第二个就是人才。对传统的数据库还有一些人才储备,但是新的领域招聘人员、储备人员、培养人员都需要很长的时间。第三个也是我认为最关键的,虽然我们技术部门对这个技术很感兴趣,也觉得很有价值很有意义,但是业务部门认知是不到位的,这也导致参与度不高,所以我们推的过程就比较困难。面临这种困境,我们很庆幸找到两家很好的合作伙伴我们认为他们是一家很好、很可靠的公司,NebulaGraph 图数据库除了稳定可靠、性能高效,另外还是国产的,而且是支持信创的。因为我们公司是证监会指定的信创试点单位,所以综合考虑我们认为 NebulaGraph 图数据库是最佳的选择方案。另外要感谢的就是普适智能,因为我们是缺乏技术储备的,我们就比较依赖厂商的支持。普适智能是很专业地专注于知识图谱的应用,而且他们愿意深耕金融行业,对金融行业的业务模式有比较深的沉淀,所以他们可以给我们提供一站式的知识图谱平台的解决方案。知识中台的底座使用的 NebulaGraph 图数据库,加上是普适智能搭建整个中台的底座,中间这块是我们的能力层,因为这个平台给我们了很多能力,包括智能运维的能力,还有元数据治理的能力,还有 OneID 认证、投研分析的能力、合规的能力,还有决策模型构建能力。这些能力会贯穿到我们从 IT 运维,还有数据加工处理以及模型构建,还有我们业务场景构建这整个环节中的赋能。所以我们认为这个知识图谱平台是一个很好的平台,是完全适合我们公司的一个平台,也会有助于我们公司实现数字化和智能化。最底层就是图谱构建平台。我们在这个平台里可以很便捷地去做图谱的构建,然后通过既有的知识去构建出我们的本体。我们可以很清晰地完成多种数据源的映射以及数据标准的校验,还有子图的切分,然后图谱构建的流程管理等等。
中间是图谱分析平台。除了离线计算,这个平台也支持实时的计算。业务部门可以很轻易地在这个平台上做一些指标和规则的构建。另外就在图算法分析这一块,我们这个平台也支持社区的切分,还有标签的预测,相似度分析以及中心度计算等等。最上层的是图谱应用平台,这个平台里面也预设了很多应用模板,可以很容易去应用到各个业务场景中去。它的应用配置权限管控,还有模型的发布以及管理都是很易用的。有了这三套平台,我们可以让公司的知识资产,还有整个公司的知识体系落地到这个平台里,去给整体业务去赋能。 场景一:辅助投研
这是我们整个投研过程的一个描绘,第一个就是研究员先从发现线索出发,然后整理的相关资料,经过分析研究框架的判断,最终形成投资决策,然后去应用。传统来说以前就是数据纯粹的罗列,检索也比较简单,然后我们用这个平台可以实现自定义的投研主页,让用户每天高效获取他所需要的信息,而不需要去浪费过多时间去找线索。另外就是我们优化了检索算法和信息展示的交互界面,形成了更加贴合用户习惯的页面,提升了信息获取的效率和用户的使用感受。之前数据比较割裂,因为搜集数据的渠道来源很多,也很不方便,通过这个平台把多维的数据整合,加上自有数据的上传,还有指标编辑等功能,实现了数据收集效率的一个大幅提升。因为期货行业里面有很多品种,它是存在比较强的相关关系的。比如说原油,它可能会衍生品很多,比如说一个是燃料油,还有化纤,还有是那些化工类产品,它还有沥青等等,它都是一些原有的附带品或者衍生品。当然了,这要经过大量的模型训练或者说验证,才能逐渐找到它的影响程度,实现一个品种的价格变化传导到其他相关品种的价格,进而辅助研究人员做相应的研判。除了品种之间有较强的相关性之外,期货行业的有些相关品种,它的产业链是比较强的,因为上游可能有很多层级,下游的需求这块,消费方可能也有很多的节点,所以我们以研究员的视角,在平台上绘制出整个产业链的这样一个结构图,目的是找到整个产业链的价格传导机制。然后是对研究人员本身来说,他借助这个平台可以提升自己的知识,同时这个平台在使用过程中也会逐渐的增强它的能力和价值。第二个场景是金融事件分析。因为期货行业的价格影响,除了既有的产业链模型之外,还有很多突发性的东西,类似于黑天鹅事件, 所以舆情或者资讯这一块,对商品的价格可能会有很大的影响。举个例子,年初的俄乌战争对期货市场上的行情就影响比较大,主要影响到是两个,一个是镍——因为俄罗斯是镍主要的供应国,发生了战争之后,它很多镍不能够给中国出口了,导致镍出现了极端的行情。同时,像不锈钢主要是用镍去生产的,所以也会影响到不锈钢这个品种的价格走势。 场景三:合规风控
场景三是合规风控,因为期货行业是一个高风险行业,这里是保证金交易的,所以无论从监管,包括还是期货公司自身的合规风控都是十分严格的,合规风控能力也是我们一个核心竞争力。我们在这里以用户视角做了一个合规风险合规风控的本体模型。我们有两类风控模型,一个是如果是不同的客户在同一个IP 和 MAC 地址下,他买卖期货合约的品种以及它的交易行为时间点高度一致,它可能会存在“拖拉机账户”,也就说是我一个客户操控了多个账户,但是在期货行业里是不允许的,所以从这个图上我们可以通过他的交叉关系或者汇聚的密集程度,合规风控人员很容易地去判断出来哪些人是哪类。另外一类就是如果是同一个账户,同时存在多个交易的 IP 和 MAC 地址,这类行为我们会认定为有可能是配资嫌疑的,结合我们的其他数据和模型,我们可以更加精准得判断它是否存在配资的嫌疑,对我们的合规风控来说,就极大的提高了它的判断能力,我们可以对这类交易进行提前的干预,有效避免合规风险。第四类场景是客户的洞察,我们基于客户交易行为,这些特征我们可以进行汇总,把他们的进行一些社群划分,比如感兴趣交易哪些品种、感兴趣哪类研报,我们把这些作为一些划分,用于进行相对来说精准的一些推送。因为期货行业服务的同质化比较严重,所以我们也希望能够通过数据来做数字化的运营,给客户提供差异化的服务和相对精准的营销,实现我们公司营销方面更好的客户体验。AIOps 是我们最近才梳理的一个场景。因为我们 IT 部门本身也有很多数据,那是不是可以在 IT 部门内部先去找一些场景用到知识图谱技术呢。像我们公司有十几个机房部署在全国各地,可能有上千台服务器,而且都是跑的很多业务系统,整个交易系统会产生大量的数据,大量的日志等,而且不同的机房不同的系统之间网络也都是通的,一些应用组件也都是互相调用的关系,它其实本身就是一个巨大的网络。所以我们把这些运维的数据,服务调用的数据,还有批量作业数据设备部署的数据以及系统运行的日志数据,整合到这个平台里,然后把他们的关系提取出来,实体也提取出来,构建这样一个智能运维的模型。另外就是变更,因为像业务系统 80% 的风险,或者说它的故障运维事件,都是因为这个系统升级变更造成的。我升级某一个组件可能会影响到哪些系统,哪些客户需要哪些部门的人去做一些干预或协调,怎么更好地去应急,我觉得在这个图谱上都可以实现,以便更好地指导我们的日常运营工作。另外一个就是网络安全。因为我们现在有安全监控平台,它的规则是基于系统产生的日志,如果日志发生了或者是平台感受到它和现有的规则可能有些不匹配,它会产生告警信息。但是告警信息是一种孤岛,哪里出现问题哪里告警。我们想做的就是能够把整个安全模型去构建出来,然后找出他们的关系,这样通过安全系统或者说我们的硬件产生的安全日志,找到它的传导机制,进而分析出它可能会对哪些系统或者说我们的网络安全环境造成影响,这是一个方面。另外一个就是很多攻击行为或者说病毒,它在我们发现在某台服务器上会有这样一个记录,在接下来可能会传导到哪个机器进一步攻击到哪些层面。通过知识图谱,就可以更加方便有效地回溯它的路径或者预测攻击行为,这样能够更加智能化地去辅助我们的安全管理人员去做好安全管理工作。所以安全知识图谱,我们认为是作为安全领域的一个专用知识图谱,它可以结合安全知识经验和数据能够发挥知识整合的优势,将离散分布的多元异构的安全数据组织起来,加速安全领域的智能化和自动化。点击【阅读原文】下载案例白皮书,一起了解 NebulaGraph 图数据库在更多行业的最佳实践 & 用户案例:https://www-test.nebula-graph.com.cn/download-white-book