导读
阿里妈妈团队基于 NebulaGraph 构建了百亿级实时营销推荐系统,赋能淘宝天猫精准营销。本文整理自宋铭涛老师在北京 nMeetUp 上的分享。
作者宋铭涛(承开),阿里妈妈广告技术部超融合数据架构工程师。

一、业务背景
阿里妈妈是阿里巴巴集团旗下商业数字营销平台,阿里妈妈依托淘宝、天猫等平台的用户数据和交易数据,为商家提供精准营销服务。例如,淘宝/天猫商家可通过阿里妈妈进行直通车推广、人群定向投放等操作。
到 2024 年末,经过与相关团队就特定问题场景的深入交流,我们意识到许多场景非常适合采用图数据库技术。此外,随着大规模模型 RAG 等需求的增长,对图数据的需求也日益增加。
因此,我们对 Neo4j、BlazeGraph、DGraph 和 NebulaGraph 等图数据库进行了测试与调研,最终选择了 NebulaGraph 作为解决方案:
在性能对比中,NebulaGraph 表现优异,超过了包括 Neo4j、DGraph 和 TuGraph 在内的图数据库。 NebulaGraph 的架构设计允许存储和计算能力的横向扩展,这对我们复杂的使用场景尤为重要。 NebulaGraph 拥有丰富的基础设施,便于参考整合,并支持二次开发。

二、应用场景
淘宝或者天猫的需求场景中,同款和相似款的应用场景很多,其中一个实现方式是,使用分类器对于同款商品集做分类提取,在算法理想 work 的情况下,同款商品簇内的两两商品直接互为同款。
但现实是:算法模型本身的运行设置、机器运算、数据问题等原因导致误差传递,进而使得本应该判断为同款的商品,得到置信度很低的值,成为异常点。

点(Vertex):代表一个商品 点(Vertex)Tag:点的属性,可以包括商品多模态表征、图像表征等 边(Edge):商品之间是否为同款,已经对应的 score,后续可以添加图像相似度等信息
输入:待预测的 pair 输出:k-hop 子图(主要关注 1-hop 和 2-hop)和子图节点的 feature
通过引入 NebulaGraph 图数据结构,在同款离群点检测的已有成熟链路中,AB 实验结果提升了 2 个pt.
我们也在用 NebulaGraph 做 GraphRAG 的相关工作,另外,风控算法团队也在用 NebulaGraph 进行黑产团伙识别、异常用户检测等。
三、服务架构

应用:提供图的 SDK,业务方可以在业务服务中引入 SDK,实时地对图数据库进行业务操作。 存储:基于 hippo (对应 K8S ) 的高可用服务物理集群和服务系统。 生产:这里主要进行导入图相关数据的处理。图数据主要有两种来源,第一种是业务方把 odps 数据 etl 成转成点和边的表,然后离线导入到图数据库中;第二种是业务线上实时产生的数据、或者通过 Flink 等流式处理产生的近线数据,调用在线批量写接口实时灌到图数据库中。 支撑平台:提供了 元数据管理、数据导入管理、监控报警、集群管理等依赖功能。







四、当前问题与解决办法
数据量巨大,导入时候,底层的 RocksDB 进行 compact,导致导入时间长尾严重,目前我们通过切分数据来减少 compact 的影响。 Bulk-load SST ingest 之后,大批量量数据导入,数据重建索引耗时和 mem 很大,通过分割数据、集群规格、配置动态调整解决。
五、未来规划

✦
如果你觉得 NebulaGraph 能帮到你,或者你只是单纯支持开源精神,可以在 GitHub 上为 NebulaGraph 点个 Star!每一个 Star 都是对我们的支持和鼓励✨
https://github.com/vesoft-inc/nebula
✦
✦

扫码添加
可爱星云
技术交流
资料分享
NebulaGraph 用户案例
✦
风控场景:携程|Airwallex|众安保险|中国移动|Akulaku|邦盛科技|360数科|BOSS直聘|金蝶征信|快手|青藤云安全
平台建设:博睿数据|携程|众安科技|微信|OPPO|vivo|美团|百度爱番番|携程金融|普适智能|BIGO
✦
✦







