
大树科技成立于 2017 年 9 月,由 16 家知名民营企业发起设立,是专注于智能企服和供应链数字技术的高新技术企业,携手持牌机构,为供应链上下游的中小微企业提供便捷、友好的互联网普惠产品。目前已累计注册用户接近 20 万,为接近 4.5 万的小微企业主提供了融资服务,累计投放金额超过 180 亿元,目前在贷余额超过 35 亿。
本文根据大树科技风控&大数据负责人申宇峰在 Fabarta 产品和用户大会 2023 上的演讲实录整理。作为 Fabarta 早期的合作伙伴之一,大树科技的案例分享主要集中在金融风控领域,智能风控体系也是大树科技的核心竞争力之一。申宇峰分享了在金融信贷场景下智能风控是如何逐步发展的,深度剖析了其演进过程以及这些演进推动了大树科技的哪些业务需求。
申宇峰|大树科技风控&大数据负责人
金融信贷智能风控发展趋势

首先,传统的风险控制依赖于流程,包括材料提交、审核和规则判断,这些都与专家经验密不可分。此外,通过交易结构和流程控制等方法来控制业务风险,但在传统业务中,受限于其规模,这些方法的增益有限。随着金融机构信息化系统的普及,为数据驱动的风控业务提供了可能性。首先,我们过渡到了规则引擎挖掘阶段,通过基于业务数据的分析和挖掘,与业务结果进行比对,生成一些自动化规则,这些规则可以依赖于专家经验沉淀下来。通过系统化和自动化的运作,大幅提高了这些业务板块的风控效率。近十年间,随着人工智能、互联网技术的复兴和市场范围的扩大,模型驱动的风控业务成为可能。例如,深度学习和机器学习算法在我们的业务场景中得到越来越广泛的应用。这些算法与大数据天然契合,并通过挖掘变量之间的弱相关关系,大大提升了模型效果。特征表达性的提升主要集中在个体风险识别方面。因此,我个人以及许多市场专家的判断,风控业务的演进将包括图数据库和图分析算法的应用。这意味着我们风控业务的视角将从关注单体风险扩展到同步关注群体风险。通过图算法挖掘关联关系和风险传导路径的识别,以及个体之间在风险层面上的相互影响,将为我们带来更深入的理解。单体风控分析相对成熟,需要发现复杂的关系

我们看一下大树科技在 ToB 风控服务领域所做的工作。如上图所示,我们依赖一系列数据体系,在小微企业风控领域取得了一些成果。首先,我们关注企业和企业主的通用大数据。这些企业信息包括工商、司法、涉诉信息等。通过 RPA 技术,可以获取税票数据,这是我们风控领域中的主力抓手。其次,我们还关注企业主自身的多头数据,包括多头借贷行为和反欺诈特征。我们还会获取他们的手机运营商信息,如注册时间、退网时间、按时缴费情况以及在网时长。这些信息将成为我们评估个体风险的依据。除了企业和企业主的经营交易信息外,我们还会关注他们的征信数据、负债情况、多投情况、预期情况以及特定场景下的电力、用水、用气、排污、资质、专利、软著等,这些数据将用于对其资质和风险进行综合评估。这些通用型大数据是我们可以从市场合规渠道获取的。另外,针对不同业务类型,我们还会积累具有产业特征的场景数据。我们列举了一些服务的客户和场景,他们可以将哪些数据资产沉淀到我们的风控体系中。例如,一些招投标平台和政府平台上会有企业的招投标信息,包括时间、频次和金额等,这些信息将帮助我们评估企业的真实交易情况以及其在中标项目上预期的现金收入。此外,生产流水信息、上下游交易信息和资产权益信息等也是我们关注的领域。根据不同字段的信息,它们能够为我们提供商流,物流,资金流,信息流四个方面的数据,这些相关信息通常沉淀在各自的业务场景中。在风控方面,每个数据元素和风控数据的校验都非常有用。基于通用大数据和场景特有的数据资产,大树科技利用模型和算法对这些数据进行加工和挖掘,形成相应的模型规则和策略。这样的风控体系可以更加精准全面地对小微企业客户进行风险分层,从而在审核、核额和定价方面实现更加精准和差异化的处理效果。通过以上介绍,大家可能已经了解到我们目前主要集中在对个体风险的识别和判定上进行数据挖掘。然而,在完善的智能风控体系中,我们还需要提供与该企业相关的其他企业的相关信息,这涉及到评估风险是否会传导到我们所关注的企业主体上,以及关联企业是否对其关联交易产生微弱影响。这些微弱影响的积累通常对我们关注的企业产生重要的推动作用。数据 + 技术系统+ 模型算法图算法 支撑金融信贷智能风控

上图是我们未来希望构建的完整的大树科技的智能风控体系,该体系涵盖数据获取、数据模型算法挖掘、模型和算法的规则部署,并为运营决策提供赋能,形成正向的反馈机制。我们在运行过程中将自动沉淀业务内部的数据资产,并反哺我们的模型和策略,以优化模型策略并形成良好的生态。
在与图相关的方面,我们基于关系图谱的挖掘,包括运用社群发现算法进行反欺诈工作。我们利用图神经网络来描述关注节点周围节点对其经营交易产生风险的情况。为了支持这样的模型算法和数据结构,我们需要准备图数据库和图分析平台。在接下来的介绍中,我们将详细展开讨论这些内容。从 10T 原始数据中构建 企业图谱和交易图谱
通过刚才的介绍,大家可以了解到大树科技在业务发展过程中的规划和诉求,Fabarta 为我们解决了哪些痛点,给我们带来了哪些帮助,我将通过大树科技的实践与大家分享介绍。我们借助 Fabarta 的 ArcGraph 图数据库和 ArcPilot 一站式图分析平台,基于自身生态内的数据资产构建相关的关系图谱或知识图谱。在当前场景中,我们主要涉及两个图谱:企业关系图谱和交易流水图谱。企业关系图谱依赖工商数据,目前在册工商企业接近 1.7 亿家,包括个体工商户。我们可以基于这些全户数据,根据他们之间人与人的关系,人与企业的关系,企业与企业的关系构建一个完整、复杂和全面的企业关系图谱,用于空壳企业识别、关联人或关联企业查询等任务。甚至在风险传导路径识别方面,我们也会利用企业图谱进行相关工作。交易流水图谱源自我们的税票数据。一个完整的发票,无论是纸质还是电子版,都包含上下游交易的信息,包括交易对手、买卖的产品和提供的服务。我们通过挖掘这些数据,天然地形成了一些图的属性,将企业作为中间节点,上下游作为关联节点,两者之间的交易形成了边,这样的图谱有助于我们挖掘风控层面的其他信息。我们可以判断交易闭环是否存在,分析交易链路,并识别核心交易结构或模式。这些信息对于判断企业风险、关联风险以及风险传导路径都具有重要价值。Fabarta 图技术助力智能风控

在最底层,我们使用了 Fabarta ArcFabric 的部分组件,它可以支持实时和离线数据导入,并对数据源进行相对灵活的扩展,这对于大树科技当前面临的数据生态非常必要。在此基础上,ArcGraph 提供存查分析一体化引擎,以实现高效的图查询和计算。在此引擎之上,我们还有ArcPilot这样的一站式图分析平台,它让我们能够非常灵活和便捷地访问和计算我们的图数据库。ArcPilot 内置了 50+ 个与图相关的算法,使得我们的业务分析师可以方便地使用 ArcPilot 平台来进行图数据库的算法分析。此外,ArcPilot 平台还提供了非常便利的交互功能,因此在业务人员的使用环境中,这个用户友好型界面非常受欢迎。
再往上一层是针对具体行业场景的沉淀。在过去的业务开展过程中,每当涉及新的场景,我们就需要重新开发一套模板,并重新适配一套算法。然而,Fabarta 提供的平台具备模型和算法的封装能力,尤其适用于某些行业和场景,其中包括一些固定的模板。这些模板可以帮助分析师在业务上进行积累和复用,减少重复开发的工作量。针对我们之前提到的利用 Fabarta 的这套技术体系在大树科技的产业环境中构建的两张图谱,我们进行了以下分析和挖掘:- 企业图谱分析:在企业实控人识别、N 度关联人、关联企业的查询、股权穿透以及风险传导路径等,我们可以利用 Fabarta 的平台进行便利操作,实现我们的业务价值。
- 交易流水分析:包括上下游交易对手是否属于我们存量客户中的风险客户,交易本身是否存在闭环,同时,我们利用图算法,如图注意力算法,结合企业关键节点周围其他关联关系节点的信息,来判断该企业是否会受到这些节点的风险影响。这些分析都是我们实际业务中的应用案例。
- 团伙欺诈分析:依据对关键点,高权边以及完全子图的挖掘,我们可以有效进行团伙欺诈分析,帮助我们避免资金损失。
利用 ArcPilot 图分析能力加速图应用落地

刚才提到 Fabarta 的 ArcPilot 平台提供了内置丰富算法的同时也具备很好的扩展性。它采用了 HTAP 架构,支持在大规模图谱上进行图计算,这为我们在企业场景下广泛应用图计算提供了前提条件。ArcPilot 平台的画布应用非常灵活,对于分析师和业务人员来说非常友好,同时也显著降低了我们的开发成本、提升了开发进度和开发效率。
另外,正如之前提到的行业模板和业务沉淀方面,由于我们是面向企业的服务(ToB),具有明显的行业属性。在过去的业务体系中,不同行业场景需要进行适配和开发,而现在,我们在这个平台上拥有可直接复用的模板和经验沉淀,也可以生成新的模板以供未来业务复用,这为我们的工作带来了便利。Fabarta 图引擎和图平台赋能智能风控

总结一下,Fabarta 为大树带来了以下几个方面的赋能:- 高性能大数据量图存储和图查询:Fabarta 的图数据库具备高性能,能够处理大规模数据量的图谱。我们在构建图谱时涉及的节点和边数量达到了过亿级别,在这种情况下,Fabarta 的查询效率能够达到毫秒级,这对于我们的业务非常重要。此外,Fabarta 采用了 HTAP 架构,使得在图计算中能够高效处理复杂模型计算,具备高吞吐和高反应效率。它还内置了标准化的图算法,并具备相对灵活的模型扩展能力,因此在图计算方面,我们的效率大大提升。在交易闭环场景识别的场景中,在亿级数据库中,我们已经发现了33万个交易闭环,这对于我们进行反欺诈等业务非常有价值。
- 低代码图平台提升应用效率:根据我们的实际体验,在开发阶段,我们能够节省70%的时间投入,这样的低代码开发应用使得我们更方便地开发应用,以及将应用结合到客户的第三方系统中。
- 画布应用的灵活配置:面向分析师的画布应用配置非常便利,大大提升了他们的开发效率。此外,由于对多种智能终端进行了适配,无论是在手机还是电脑上,操作和计算都非常便捷。
- 为智能风控提供新视角:基于图的挖掘和算法为我们的智能风控提供了新的视角。相较于过去仅仅关注个体风险,我们现在能够同时观察到群体风险,这为我们对企业所处环境的真实认知和深入洞察提供了更多的可能性。与此同时,基于图的挖掘方法本身具备可解释性,这对于我们的业务非常重要。在识别风险客户和发现风险特征时,我们需要能够给出业务上的可解释性,而图天然具备这样的属性。
大树科技和 Fabarta 未来合作共创

我们期待未来与 Fabarta 展开更深入的合作。通过与 Fabarta 的合作,在图挖掘和图算法的应用方面,我们已经取得了长足的进步。我们目前所构建的图是基于时间截面或相近时间截面的,我们知道到描述一个人或企业的风险除了关注当前时点的表现外,还需要关注其在一系列时间序列上的变化和行为。图也是如此,完整的图分析是基于时序图进行的。在单一时间截面上,我们可以使用GAT来描述风险特征,而在时序图中,我们将整合时间序列算法到最终模型中,以实现更精准的风险识别和分层。例如,融合图计算与时间序列模型(GAT+LSTM)算法,来构建最终的模型。另外一个应用场景是大家屡次提及的 AIGC 的应用场景。在大树科技的业务领域中,我们希望 AIGC 可以从我们关注的信息中提取并融合与我们关注的宏观行业和产业链等多个维度相关联的多模态信息,并将其有效整合在一起。随着人工智能在设计层面不断完善,我们希望 AI Agent 能够调用大树在整个体系中积累的各种类型的模型工具以及与合作伙伴合作开发的模型,对前述多模态融合数据进行更深入的挖掘,从而提升风控业务的质量,实现更成熟的大数据智能决策。最后,在当前的市场环境下,我们靠近并投身于人工智能浪潮,我个人认为恰逢其时,大树科技希望在不久的将来与 Fabarta 携手共进,成为这个时代的创新者。