关注我们
从传统 ETL 工具演化为 “面向 AI 时代的多模态数据集成工具”(Unified Multimodal Data Integration Tool)

推荐系统需要处理商品图像、用户评论、点击行为。 工厂车间的设备监控,不仅采集温度、电压,还采集视频流和图片元信息。 金融风控模型,要融合用户身份文本、日志轨迹、OCR 提取的合同文字……
Source:数据源输入(Kafka、MySQL、File、WebSocket...) Transform:中间处理(字段映射、格式清洗、分支处理...) Sink:输出目标(ClickHouse、Milvus、Kafka、对象存储...)

JDBC 通用支持(MySQL PostgreSQL Oracle SQL Server DB2) 批量和增量同步 支持主键合并、分区抽取、断点续传 支持 Iceberg Hudi Delta Lake 等湖格式
文本文件(CSV、JSON、Log、INI) 表格类文件(Excel、Parquet、ORC) 二进制文件(图像、PDF、文档)
文件名、文件路径、上传时间 文件大小、修改时间、扩展名(通过外部处理脚本提取)
SeaTunnel 支持通过插件方式将这些信息结构化成 将这些信息结构化成 SeaTunnelRow,供后续使用。
SeaTunnel 支持完整的流式调度架构: Kafka、Pulsar、RocketMQ、RabbitMQ、WebSocket 全支持 通过 Hazelcast 做状态管理,支持 Exactly-Once 和断点恢复
Milvus Sink(支持写入向量数据,指定维度) PGVector Sink(将嵌入向量写入 PostgreSQL) OpenSearch Sink(写入向量字段)
sink {Milvus {url = "http://127.0.0.1:19530"token = "username:password"batch_size = 1000}}
FieldMapper Transform:字段映射与重命名Filter Transform:条件过滤(支持 SQL 表达式)Replace Transform:字符串替换与清洗Split Transform:字段按分隔符切割JsonPath Transform:支持从嵌套 JSON 中提取字段Sql Transform:基于 SeaTunnel SQL 的表达式计算能力
支持与模型推理服务对接的 HTTP 调用变换 嵌入式表达式引擎优化 更高阶的 Map/Reduce 类流式变换语义
商品图像(S3) → FileSource → 预处理服务(CLIP) → MilvusSink
商品描述(MySQL)→ JDBCSource → 预处理服务(BERT)→ MilvusSink
用户行为流(Kafka)→ KafkaSource → ClickHouseSink
图像向量库 文本向量库 实时行为日志流
相似图文推荐 用户向量 + 商品向量召回 实时热点商品识别
多模态数据血缘分析(来源追踪 / AI链路识别) 多模态数据质量检查(字段一致性 / 缺失监测) 与 LangChain / RAG 结合的检索增强任务模板 向量库 + 大模型双向同步能力(向量更新 / LLM 推理)
一个连接数据世界和语义世界的桥梁 一个低代码、插件式、场景丰富的 AI 数据流接入工具 一个面向向量时代、支持多模态任务的统一引擎
Apache SeaTunnel
Apache SeaTunnel是一个云原生的高性能海量数据集成工具。北京时间 2023 年 6 月1 日,全球最大的开源软件基金会ApacheSoftware Foundation正式宣布Apache SeaTunnel毕业成为Apache顶级项目。目前,SeaTunnel在GitHub上Star数量已达8k+,社区达到6000+人规模。SeaTunnel支持在云数据库、本地数据源、SaaS、大模型等170多种数据源之间进行数据实时和批量同步,支持CDC、DDL变更、整库同步等功能,更是可以和大模型打通,让大模型链接企业内部的数据。
同步Demo
新手入门

最佳实践

测试报告

源码解析
Apache SeaTunnel



文章转载自SeaTunnel,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




