针对大量历史数据采集慢、访问慢,行情实时处理困难等问题,上海财经大学的实验团队尝试搭建一套性能优秀、使用方便的新系统。他们尝试过使用Hadoop、MongoDB等存储数据,但性能始终不能满足需求。2019年由于良好的试用体验,上海财经大学正式采购了DolphinDB。本文将由谢斐教授介绍基于DolphinDB的量化高频数据中心系统。
上海财经大学实验中心副主任、金融学院副教授 谢斐

研发背景
个性化需求:行情厂商标准数据无法提供自定义的 MinBar、HourBar、连续合约及自定义合约等拼接规则,导致量化策略无法实现。 历史数据采集现状:数据量大,采集慢,访问慢。采集一年数据可能要耗时几天,无法保证数据没有遗漏。 行情实时处理现状:缺乏高效的内存型数据库,无法实时计算因子。 自建系统困难:自建数据库采集工具成本高,高频处理系统开发难度高。
数据类型
功能架构
相比传统数据采集方案,本套系统采用性能优秀、可靠性高的架构设计,可以实现高速、自动采集证券或期货的历史数据。 借助 AirFlow 工作流平台全自动调度处理金融资产高频历史数据。 结合实时行情为多因子量化投资策略等工具提供高效完整的数据计算基础。 使用高性能分布式数据库 DolphinDB 进行数据存储。 采用 ETL 方案统一数据结构,保证了数据质量和前后依赖关系,同时确保数据的一致性和稳定性。 扩展性强,支持 Python、C++、C#、Java 等接口对接第三方系统。

数据采集:支持 CSV 文件,系统可以采集 SQL、Orcale、万德、国泰安、通联、聚宽等数据源的历史行情、实时行情及基础数据。 数据存储:使用 DolphinDB 存储包括流模式和库模式的 Ticks 和 Bar、合约信息、基类、因子及自定义合约。PostgresSQL 存储数据中心的日志、任务、自动或手动计划及门户前端数据库信息。 数据处理:Builder 实现历史及实时 Ticks 拼接 MinBar 和 HourBar,连续合约和配对合约。Validator 校检日线数据和 Tick 数据的准确性。 上层应用:主要分管理后台和采集任务管理。管理后台提供合约管理功能,包括查询、自定义合约、连续合约和因子等。采集任务管理包括自动或手动采集管理数据,计划任务管理及数据完整性检查。 状态应用:提供 AirFlow 调度平台的运行状态、日志服务及通知网关。 对外接口:支持 Python,C++,C#等 API 接口。

性能测试



选择 DolphinDB
综上所述
Explore More


文章转载自DolphinDB智臾科技,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。







