大数据
Hadoop
之——数据同步工具
DataX
一、概述
DataX
是阿里云
DataWorks
数据集成 的开源版本,在阿里巴巴集团内被广泛使用的
离线数据同步工具
/
平台。
DataX
实现了包括
MySQL
、
Oracle
、
OceanBase
、
SqlServer
、
Postgre
、
HDFS
、
Hive
、
ADS
、
HB
ase
、
TableStore(OTS)
、
MaxCompute(ODPS)
、
Hologres
、
DRDS
等各种异构
数据源之间高效的数据同步功能。
Gitee
:
https://github.com/alibaba/DataX
GitHub
地址:
https://github.com/alibaba/DataX
文档:
https://github.com/alibaba/DataX/blob/master/introduction.md
DataX
是一个异构数据源离线同步工具,致力于实现包括关系型数据库
(MySQL
、
Oracle
等
)
、
HDFS
、
Hive
、
ODPS
、
HBase
、
FTP
等各种异构数据源之间
稳定高效的数据同步功能。
为了解决异构数据源同步问题,
DataX
将复杂的网状的同步链路变成了星
型数据链路,
DataX
作为中间传输载体负责连接各种数据源。当需要接入
一个新的数据源的时候,只需要将此数据源对接到
DataX
,便能跟已有的
数据源做到无缝数据同步。
DataX
在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,
并已持续稳定运行了
6
年之久。目前每天完成同步
8w
多道作业,每日传
输数据量超过
300TB
。
二、
DataX3.0
框架设计
DataX
本身作为离线数据同步框架,采用
Framework + plugin
架构构建。将数据源
读取和写入抽象成为
Reader/Writer
插件,纳入到整个同步框架中。
评论