建议收藏 | Flink CDC 系列总结篇 ↗

大数据技能圈 2024-10-18

278

经过两周左右的更新，FlinkCDC系列核心部分基本接近尾声，下一趴会进入Doris部分，FlinkCDC主要分为2.0系列和3.0系列版本，2.0系列版本以SQL方式开发同步脚步，所用jar包含connector关键词，3.0系列版本，可以用yaml方式开发同步任务，所用jar包包含pipeline关键词，并且支持全库同步。

下面将Flinkcdc分成2.0版本和3.0分别进行总结：

2.0版本

使用connector jar包

-- streaming模式
flink-connector-mysql-cdc-2.x.x.jar
-- SQL模式
flink-sql-connector-mysql-cdc-2.x.x.jar 
flink-connector-oracle-cdc-2.x.x.jar
flink-sql-connector-oracle-cdc-2.x.x.jar 
...

使用方式

-- 每 3 秒做一次 checkpoint，用于测试，生产配置建议5到10分钟                      
Flink SQL> SET 'execution.checkpointing.interval' = '3s';   


-- 在 Flink SQL中注册 MySQL 表 'orders'
Flink SQL> CREATE TABLE orders (
     order_id INT,
     order_date TIMESTAMP(0),
     customer_name STRING,
     price DECIMAL(10, 5),
     product_id INT,
     order_status BOOLEAN,
     PRIMARY KEY(order_id) NOT ENFORCED
     ) WITH (
     'connector' = 'mysql-cdc',
     'hostname' = 'localhost',
     'port' = '3306',
     'username' = 'root',
     'password' = '123456',
     'database-name' = 'mydb',
     'table-name' = 'orders');


-- 从订单表读取全量数据(快照)和增量数据(binlog)
Flink SQL> SELECT * FROM orders;

connector方式原理

connector方式原理可以点击这篇文章，FlinkCDC3.0系列版本connector 方式同样基于此原理实现：

终于搞明白了 Flink CDC 2.0 原理，人麻了...

这或许是一个对你有用的开源项目，data-warehouse-learning 项目是一套基于 MySQL + Kafka + Hadoop + Hive + Dolphinscheduler + Doris + Seatunnel + Paimon + Hudi + Iceberg + Flink + Dinky + DataRT + SuperSet 实现的实时离线数仓（数据湖）系统，以大家最熟悉的电商业务为切入点，详细讲述并实现了数据产生、同步、数据建模、数仓（数据湖）建设、数据服务、BI报表展示等数据全链路处理流程。
https://gitee.com/wzylzjtn/data-warehouse-learning
https://github.com/Mrkuhuo/data-warehouse-learning
https://bigdatacircle.top/
项目演示：

3.0版本

pipeline jar包

Flinkcdc 3.0系列版本新增yaml方式开发脚本，该方式依赖pipeline jar包，如果使用3.0系列版本的connector jar包，用法跟2.0版本保持一致。

flink-cdc-pipeline-connector-doris-3.1.0.jar
flink-cdc-pipeline-connector-mysql-3.1.0.jar
.....

使用方式

source:
   type: mysql
   name: MySQL Source
   hostname: 127.0.0.1
   port: 3306
   username: admin
   password: pass
   tables: adb.\.*, bdb.user_table_[0-9]+, [app|web].order_\.*
   server-id: 5401-5404


sink:
  type: doris
  name: Doris Sink
  fenodes: 127.0.0.1:8030
  username: root
  password: pass


pipeline:
   name: MySQL to Doris Pipeline
   parallelism: 4