
现代数据栈技术通常是指构成云原生数据平台的一组技术,对比传统的数据平台,使用它们可以大大的降低复杂度。2022年9月17日,由DataFun主办的DataFunSummit2022:现代数据栈技术峰会将如约而至。本次峰会3位主席与9位出品人精心策划而成,共包含了:现代数据栈基础、数据湖仓、数据建模与数据流调度、DataOps、自助分析与决策、实时数据库、现代数据治理、BI 与数据应用、AI 平台等9大主题论坛,邀请30余位来自行业一线的从事现代数据栈相关技术的专家,进行深度分享交流。本次峰会将全程直播,欢迎大家扫码入群收看。

▌峰会日程

具体安排










详细介绍
O 峰会主席
范斌 Alluxio VP of Open Source
个人介绍:范斌是位于硅谷的开源数据平台软件 Alluxio 公司的创始成员和 VP of Open Source。加入 Alluxio 前,范斌在 Google 从事下一代大规模分布式存储系统的研究与开发。范斌博士毕业于卡内基梅隆大学计算机系,博士期间在分布式系统算法和系统实现等方向发表多篇包括 SIGCOMM,SOSP,NSDI 等顶级国际会议论文以及多篇专利。
汪源 网易副总裁、网易杭州研究院执行院长、网易数帆总经理
个人介绍:汪源,博士,网易副总裁、网易杭州研究院执行院长、网易数帆总经理,全面负责网易集团基础软件技术研究、公共技术平台建设和网易数帆政企业务。担任CCF CTO Club创始成员、中国软件行业协会智能应用服务分会副主任、浙江省计算机学会理事、浙江软件行业协会副理事长。曾获浙江省有突出贡献青年科技人才、万人计划青年拔尖人才、151人才工程第一层次培养人员和杭州市杰出青年人才等荣誉。曾承担省部级以上科技项目5项,获省部级以上科技进步奖特等奖和一等奖各1项,发表高水平论文6篇,授权发明专利11项。
阎志涛 快用云科 联合创始人
个人介绍:毕业于北京大学,北京快用云科技术有限公司联合创始人。大数据独角兽企业 TalkingData 早期创始团队成员,历任研发副总裁、CTO 等职位。在 TalkingData 之前,在 IBM,Oracle 等国际知名企业担任资深架构师等资深技术职位。
① 现代数据栈基础论坛
出品人:伍翀 阿里云 技术专家
个人介绍:伍翀,花名云邪,Apache Flink PMC member & Committer,Flink CDC 作者。就职于阿里云开源大数据平台,主要负责 Flink CDC、Flink SQL 相关的研发工作,长期以来一直专注于流处理、批处理领域。
徐榜江 阿里云 高级研发工程师
个人介绍:阿里云,高级研发工程师。就职于阿里云 Flink SQL 引擎团队,是 Flink SQL 模块的核心开发和 Apache Flink Committer,2021年开始投入 Flink CDC 社区维护和开源布道工作,目前专注于数据集成相关技术研究。
演讲主题:从数据集成到现代数据栈
演讲提纲:
1. 分享数据集成的发展历史
2. 分享国内外数据栈的发展
3. 分析现代数据栈的优势和价值
4. 如何将业务与现代数据栈结合
听众收益:
1. 了解数据集成的发展历史
2. 了解国内外数据栈的发展
3. 了解现代数据栈的优势,并结合业务特点选择合适的数据栈
衣国垒 SelectDB CTO
个人介绍:先后在百度、腾讯从事 Doris,Elasticsearch,Clickhouse 相关的研发工作,Apache Doris Committer,负责研发了两阶段事务、并行导入、分布式集群管理、联邦查询等多个核心机制。现任 SelectDB 公司 CTO。
演讲主题:基于 Apache Doris 构建实时统一的现代数据分析平台
演讲提纲:
1. 当前数据分析栈的现状与挑战
2. 基于 Doris 构建实时统一的数据底座
3. Doris 最新特性解读
听众收益:
1. 现代数据栈的宏观架构
2. Doris 1.2 最新的特性
黄睿 阿里云 Flink 产品经理
个人介绍:2018~至今,负责阿里云实时计算 Flink 产品的设计。
演讲主题:基于阿里云实时计算 Flink 构建现代化数据流
演讲提纲:
1. 现代数据流
2. 现代数据流趋势
3. 现代数据流特性
4. 现代数据流最佳实践
听众收益:
1. 现代数据流趋势有哪些?
2. 阿里云 Flink 如何支持超大规模数据流运行?
3. 湖仓一体下的数据流如何设计?
赵勇杰 Preset inc. Apache Superset PMC member
个人介绍:2020年末作为全栈工程师加入Preset Inc.,参与研发Apache Superset 1.0 1.5 2.0的研发。现在是Superset核心开发者,于2021年成为Apache Superset PMC。关注于数据可视化,可视化语法,SQL查询构造器,BI语义模型和关系代数。
演讲主题:从探索式数据分析到现代 BI 仪表盘: Superset 2.0
演讲提纲:
1. Superset 发展介绍
2. Superset 中探索式数据分析
3. 丰富的前端插件系统和 Feature Flag 系统
4. Superset 仪表盘
听众收益:
1. 了解 Superset 探索式数据分析
2. 了解 Superset 插件系统和Feature Flag系统
3. 了解 Superset 仪表盘
李心恺 T3出行 大数据高级工程师
个人介绍:T3出行大数据高级开发工程师,T3出行算法平台负责人。
演讲主题:T3出行在现代数据栈上的探索和实践
演讲提纲:
1. T3出行数据湖演变和架构
2. T3出行 modern data stack 的建立
3. 基于 modern data stack 打造特征平台
听众收益:
1. 了解数据湖的解决的痛点和架构
2. 了解特征平台和 modern data stack 的关系
② 数据湖仓论坛
出品人:傅正佳 Alluxio 开源布道师
个人介绍:傅正佳,Alluxio 开源布道师。本科毕业于上海交通大学电子系,随后取得香港中文大学信息工程博士学位,毕业后加入新加坡高级数字科学中心(美国伊利诺伊大学在新加坡的研究所)从事科研工作,在计算机网络和分布式系统领域相关的顶级国际会议发表多篇论文。加入Alluxio前,傅正佳曾在新加坡科技公司Bigo Technology担任机器学习研发总监。
彭翔宇 百度 资深研发工程师
个人介绍:彭翔宇,百度资深研发工程师。毕业于上海交通大学,十年大数据工程技术开发经验,技术方向覆盖Hadoop、Spark、Flink、Clickhouse等开源项目,在百度先后负责云图(元数据统一管理)、Minos(数据传输)、Pingo(分布式计算)等产品的研发工作,目前在百度PALO团队负责实时数仓研发工作。
演讲主题:从 Apache Doris 存算分离到 PALO 的湖仓一体
演讲提纲:
1. 百度 PALO 实时数仓的历史及其与 DORIS 的血缘关系
2. PALO 的数据存储结构
3. PALO 存算分离的实现
4. PALO 在湖仓一体方向的实践与未来
听众收益:
1. 了解 PALO 数据仓库的数据结构
2. 了解 PALO 存算分离的原理
3. 了解 PALO 在湖仓一体方向的实践
耿筱喻 字节跳动数据平台 大数据工程师
个人介绍:硕士毕业于南京大学 PASA LAB 大数据实验室,就职于字节跳动数据引擎团队,目前专注于数据湖场景落地。
演讲主题:字节跳动 LAS 数据湖存储内核揭秘
演讲提纲:
1. 数据湖生产落地遇到的问题
2. 数据湖元数据服务
3. 数据湖异步操作管理服务
4. 未来计划
听众收益:
1. 数据湖生产落地遇到的问题
2. 数据湖元数据管理现状,解决方式
3. 数据湖异步操作全托管、多租户支持
李立伟 华为 大数据高级工程师
个人介绍:华为大数据高级工程师,iceberg活跃贡献者。
演讲主题:Iceberg 在华为终端云的探索
演讲提纲:
1. 整体架构概览
2. 应用场景
3. 特性增强
听众收益:
1. 通过 iceberg 大规模降低存储
2. iceberg 的生产配套生态建设
3. 如何在 iceberg 上进行实时数据处理
范文臣 Databricks 技术主管
个人介绍:范文臣,Databricks 开源组技术主管,Apache Spark PMC member,Spark社区最活跃的贡献者之一。从2013年开始参与Spark的研发,2015年加入Databricks,目前主要负责Spark Core/SQL 的设计开发和开源社区管理。
演讲主题:Lakehouse technology as the future of data warehousing
演讲提纲:介绍 lakehouse 架构的基本概念,以及搭建 lakehouse 架构的实践经验
听众收益:了解 lakehouse 架构,参考业界的实际搭建经验。
王北南 Alluxio 软件工程师
个人介绍:王北南 Alluxio工程师,毕业于复旦大学,获美国Syracuse大学计算机工程博士学位。Prestodb开源社区Committer,Presto iceberg/druid/parquet等模块的主要维护者。曾任Twitter Presto/Hive team的Tech Lead,负责大规模分布式SQL的研发与维护,期间团队的上云相关工作获得IC2E’21 最佳论文。目前负责Alluxio存储和本地缓存,是Alluxio的核心维护者之一。
演讲主题:Presto+Alluxio 加速 Iceberg 数据湖访问
演讲提纲:
1. Presto Iceberg connector 简介
2. 告别 Hive Metastore 和元数据一致性的讨论
3. Parquet 数据格式的加密存储
4. Presto 的分区下推和 Alluxio 的本地缓存
5. 进一步下推以及 Alluxio 的语义缓存
6. 未来工作:Arrow 和原生算子的支持
听众收益:
1. 了解 Presto Iceberg Connector 的最新研发进展
2. 了解 Alluxio 的本地缓存对 iceberg 的加速
3. 了解 Presto 和 Alluxio 数据湖的未来研发方向
③ 数据建模与数据流调度论坛
出品人:阎志涛 快用云科 联合创始人
个人介绍:毕业于北京大学,北京快用云科技术有限公司联合创始人。大数据独角兽企业 TalkingData 早期创始团队成员,历任研发副总裁、CTO 等职位。在 TalkingData 之前,在 IBM,Oracle 等国际知名企业担任资深架构师等资深技术职位。
李宸宇 dbt Labs Senior Software Engineer
个人介绍:现在就职于dbt Labs负责开源项目的维护和开发,近期项目是拓展dbt支持使用python进行数据转换。本科毕业于电子科技大学,研究生毕业于杜克大学。
演讲主题:通过 dbt 把软件开发的最佳实践带到数据领域
演讲提纲:
1. dbt 出现的背景
2. dbt 的功能介绍
3. macros and packages
4. tests
5. version control and CI/CD
听众收益:
1. 如何使用 dbt
2. 如果通过 dbt 更快,更有信心的进行数据 pipeline 更新
张夏天 快用云科 联合创始人 & 首席数据科学家
个人介绍:北京快用云科技术有限公司联合创始人,前TalkingData首席数据科学家,曾在IBM、腾讯,华为等公司担任算法工程师和研究员。目前负责快用云科的数据工具产品智能化。
演讲主题:用智能驾驭数据-QuickTable 智能化路线图
演讲提纲:
1. 用智能驾驭数据,降低数据应用成本
2. QuickTable 智能化路线图
3. QuickTable 目前的智能化能力
听众收益:
1. 了解如何应用 AI 来提效数据应用各个环节
2. 了解 QuickTable 智能化发展方向和当前能力
3. 了解 QuickTable 产品和技术
李岗 联想集团 资深数据架构优化工程师
个人介绍:Apache DolphinScheduler Initial Commiter & PMC,Apache Local Community (ALC) Beijing Member,ApacheCon Asia 2022 Big Data Track chair。现担任联想集团资深数据架构优化工程师。
演讲主题:联想基于 Apache DolphinScheduler 构建统一调度中心的应用实践
演讲提纲:会从调度中心的需求背景介绍为什么需要统一的调度中心,然后重点介绍 Apache DolphinScheduler 的架构演进、核心功能、RoadMap 以及在联想的应用实践,主要为以下四个部分:
1. 统一调度中心的需求背景
2. Apache DolphinScheduler 社区发展、架构演进和核心功能介绍
3. Apache DolphinScheduler 在联想的落地实践
4. Apache DolphinScheduler 的 3.x 新特性和 RoadMap
听众收益:
1. Apache DolphinScheduler 如何支撑每日数十万级任务调度
2. 如何使用 Apache DolphinScheduler 构建统一调度中心
3. Apache DolphinScheduler 在非大数据场景的一些应用实践
宗正 Kyligence 资深技术布道师
个人介绍:在 Kyligence 主要负责围绕智能多维数据库产品和解决方案的布道和培训,具备丰富的技术布道、培训体系搭建及企业级培训交付经验,对业界头部客户的数据分析场景有深入理解。
演讲主题:Kyligence Zen 智能指标中台和指标自动化
演讲提纲:
1. 什么是指标中台(Metrics Store)?
2. 指标平台建设面临的挑战
3. 智能指标中台重塑信任
4. 指标自动化降低建模门槛
5. 从数据驱动到指标驱动
听众收益:
1. 指标平台建设面临哪些挑战?
2. 如何解决口径不一致?
3. 如何解决宽表爆炸?
4. 如何加速从数据到决策?
5. 智能指标中台应具备的关键能力有哪些?
④ DataOps论坛
出品人:代立冬 白鲸开源 CEO
个人介绍:代立冬,白鲸开源联合创始人、Apache DolphinScheduler PMC Chair、Apache Member、Apache SeaTunnel PPMC、Apache 孵化器导师、ApacheCon Asia Bigdata Track co-Chair、组织过万人的大数据技术社区,2021 中国开源先锋 33 人。专注于数据领域研发数据平台架构 10 多年,擅长于数据平台建设、数据湖仓建设。
高俊 白鲸开源 架构师
个人介绍:10年的大数据从业经验,主要从事大数据平台建设、OLAP引擎研发工作。开源爱好者,参与多个开源项目的贡献。Apache DolphinScheduler PMC,Apache SeaTunnel (incubator) Contributor,Trino Contributor,Apache Arrow-Datafusion Contributor。
演讲主题:数据集成平台 - SeaTunnel V2 架构演进
演讲提纲:
1. 个人介绍
2. SeaTunnel 项目的设计目标
3. SeaTunnel V1 架构介绍
4. SeaTunnel V2 架构介绍
5. 如何开发一个 SeaTunnel V2 版本 Sink 连接器
听众收益:
1. 如何高效的完成数据同步作业的开发配置?
2. 数据源那么多,怎么才能在同一个平台上处理不同数据源的数据同步?
3. 业务复杂,有没有一个平台能同时处理实时和离线数据同步?
4. 公司技术栈有 Flink 有 Spark,离线同步用 Spark,实时同步用 Flink,有没有办法统一管理?
李卓豪 网易数帆大数据架构师、数据研发技术负责人
个人介绍:浙江大学硕士毕业后加入网易,负责过网易通用搜索系统、日志采集系统、数据平台离线调度系统的研发和推广,现为网易数帆有数据研发产品技术负责人。
演讲主题:网易数帆在 DataOps 上的实践
演讲提纲:
1. 大数据研发平台在网易的发展历史。
2. DataOps 的概念核心、产品架构和关键技术。
3. DataOps 当前的落地效果和未来规划。
听众收益:
1. 搭建一个大数据研发平台的关键点。
2. 数据研发平台怎么支持好数据治理,从而更好地提高整体价值。
李晨 白鲸开源 商业合伙人
个人介绍:首都经济贸易大学BBA,22年IT行业老兵,曾任Informatica中国区总经理、AWS认证部大中华区总经理,此前在Compuware、HP出任重要管理岗位。在Informatica任职的8年里,带领中国区业务收入增长10倍,服务了1000+家忠实的头部企业客户,拥有丰富的数据管理市场和客户服务经验。
演讲主题:DataOps:数据业务的发展前景
演讲提纲:
1. 数据 3.0 时代现状
2. 全新的数据组织和用户场景
3. 现代化数据管理的关键能力
4. 典型 DataOps 架构和技术能力
5. DataOps 未来发展趋势
听众收益:
1. 数据 3.0 时代下的市场机会在哪里?
2. 现代数据管理的关键能力
3. 成功 DataOps 的四个特质
杨哲轩 Tapdata 运营合伙人兼客户工程 VP
个人介绍:毕业于明尼苏达大学-双城分校,后加入 PingCAP 担任基础架构研发工程师,深度参与TiDB、TiSpark 等项目,曾任 PingCAP 咨询&解决方案总监。为多家知名金融、互联网和制造业等行业企业,提供咨询和解决方案服务。对数据库、分布式原理、HTAP、DaaS、数据架构和数据治理等架构和管理领域,有独到的见解和丰富的实践经验。
演讲主题:让数据真的产生业务价值的秘密武器:DataOps
演讲提纲:
1. 数据在企业内的使用情况
2. 如何更好地将数据作为生产要素发挥出价值
3. DataOps 如何能够帮到
4. 如何在企业中引入 DataOps
听众收益:
1. 从纷繁复杂中的表象抽象出企业中数据和分析投入和产出面临的巨大矛盾。
2. 厘清 DataOps 的定义和完成 DataOps 方法的工具组合,实践和理论相结合,洞察 DataOps 的本质
3. 七步成诗,将 DataOps 引入组织并逐步开始发挥作用帮助企业正确使用数据作为生产要素产生正向价值
高楚枫 阿里云 开发工程师
个人介绍:Active Contributor@Apache DolphinScheduler, SDE@Alibaba Cloud, Ex-SDE@Amazon, Alumni@Purdue, Alumni@SJTU。
演讲主题:开源大数据 Studio: DolphinScheduler + Notebook
演讲提纲:对于大数据工程师来说,大数据作业的开发和调度通常是在不同的环境中进行的。需要在IDE中完成作业开发、调试后,再将代码copy paste或打包到调度工具中进行调度。一方面影响了开发效率,另一方面由于环境的差异导致调度时可能产生难以预知的问题。本演讲将介绍并演示如何采用开源的Apache Dolphinscheduler调度工具和Apache Zeppelin以及Jupyter两种Notebook组成大数据开发Studio。数据平台团队适配好相关环境后,大数据/AI工程师在线交互式开发/debug,并进行一键调度,无需再花费时间处理由于环境不一致导致的适配问题,极大地提高了大数据作业到开发效率和体验。演讲中所涉及的组件间整合代码已完全开源,欢迎下载体验。
听众收益:
1. 如何交互式开发大数据作业?
2. 如何无缝结合大数据开发 notebook 与调度工具(如 Apache DolphinScheduler)?
3. 如何在云上部署大数据开发 Studio?
⑤ 自助分析与决策论坛
出品人:张进 观远数据联合创始人兼 CTO
个人介绍:西安交通大学信息工程本科&法国 UTC 数据挖掘硕士,曾就职于全球顶尖BI公司微策略及蚂蚁金服集团旗下公司支付宝,拥有十余年数据分析与商业智能行业经验,对于人工智能与大数据有着深刻见解。联合创始人兼任观远数据 CTO,负责产品研发团队的管理,夯实产品技术实力。
周远 观远数据 首席数据科学家
个人介绍:观远数据联合创始人与首席数据科学家,主要负责BI+AI智能决策平台研发工作。致力于算法前沿技术在泛消费零售,金融领域的应用落地,深度参与主导了多个AI项目在行业头部,世界五百强客户的应用和上线持续运行。开源项目爱好者,Apache Arrow,Delta等知名项目的贡献者。本科毕业于浙江大学。
演讲主题:现代数据栈中的消费层 - BI+AI 产品的演进 3级
演讲提纲:
1. 现代数据栈的特点
2. 自助分析与决策软件的历史与挑战
3. 发展趋势1:Dashboard as a software
4. 发展趋势2:增强分析,与AI的结合
5. Q & A
听众收益:
1. 了解现代数据栈的特性与优势
2. 现代数据分析与决策软件的发展趋势和机会点
3. BI 与 AI 结合的系统方案与场景案例
熊星 斗鱼直播 PMO 负责人
个人介绍:华科EMBA在读。曾就职于世界一流商业智能公司MicroStrategy。现就职于斗鱼直播,任运营中心PMO负责人,负责项目管理体系及效率工具体系搭建。
演讲主题:让数据成为工具,让分析成为能力
演讲提纲:
1. 数据分析还是提数工具
2. 根据业务及团队特性挑选数据工具
3. 业务的变化与收益
听众收益:
1. 如何让数据分析团队做好数据分析?
2. 如何让业务一线用好数据?
3. 什么样的数据工具叫做好的数据工具?
祝海林 Byzer 社区 PMC / Kyligence 技术合伙人
个人介绍:祝海林 Byzer社区PMC/资深数据架构师/Kyligence技术合伙人,拥有13+年研发经验。最近几年专注在Data + AI 融合方向上,致力于帮助企业更好的落地 Data+AI。个人热衷于开源产品的设计和研发,Byzer-lang(https://github.com/byzer-org/byzer-lang)为其主要开源作品。
演讲主题:Byzer,一门面向 Data+AI 的云原生语言
演讲提纲:这次分享,我们会介绍开源 Byzer 语言的一些基本概念和架构,同时会使用 Byzer 完成一个数据分析+可视化案例,外加一个完整机器学习流程案例。通过这两个示例来展示 Byzer 在 Data + AI 领域的能力,实现 AI First,SQL First 的理念。
听众收益:
1. 了解到 Byzer 的基本功能和用法
2. 使用 Byzer 高效的进行数据处理,探索,可视化和机器学习
周翔 观远数据 TechLead
个人介绍:观远数据后端开发工程师,主要从事计算引擎相关工作,Apache Spark Contributor。
演讲主题:Apache Spark 在自助分析系统的应用实践与优化
演讲提纲:
1. 观远自助分析系统简单介绍
2. 自助分析系统面临的挑战
3. 观远系统的一些优化
4. QA
听众收益:
1. 如何提高自助分析系统查询效率
2. 如何提升常驻 Spark 应用稳定性
3. 观远自助分析系统的特点和优势
⑥ 实时数据库论坛
出品人:赵纯 StarRocks 联合创始人& CTO
个人介绍:StarRocks 联合创始人&CTO,负责公司产研团队,从事数据库工作近10年,具有数据库架构迭代、存储引擎格式改造、研发云服务版本等多项技术经验。
谢寅 StarRocks 首席解决方案架构师
个人介绍:谢寅,StarRocks首席解决方案架构师。曾供职于 CBS Interactive、PerfectWorld、ChinaCache 及车联网企业,具有多年大数据开发经验,致力于持续迭代完善基于实时数仓、自助式分析、用户画像、湖仓一体联邦分析等场景的联合解决方案。
演讲主题:基于 StarRocks 现代数据栈的典型应用
演讲提纲:
1. Overview
2. Business Inteligence
3. RealTime DataWarehouse
4. Customer Data Platform
5. LakeHouse Analytics
6. The Good Case
7. New Features
听众收益:
1. 现代 MPP 数据库的发展趋势
2. 重点行业创新型应用
3. 实时数仓新范式
4. 基于 StarRocks 的 CDP 系统
5. 湖仓一体联邦分析
李超勇 StarRocks 存储负责人
个人介绍:毕业于中国科学院信工所。过去7年一直在数仓相关的研发工作。当前在 StarRocks 负责数仓存储和元数据相关的设计和研发。
演讲主题:StarRocks 的实时数仓之路
演讲提纲:
1. 数仓实时化的趋势和产生的价值
2. StarRocks 的实时数据写入链路
3. StarRocks 面对实时更新更新的情形下,所做的探索和工作
听众收益:
1. 数据的实时化带来的价值是什么?
2. 面对实时导入的数据源,存储引擎应该如何设计?
3. 面对订单等实时变更的数据,如何在不损失性能的情况下,设计更新方案?
金海 矩阵起源 研发VP
个人介绍:矩阵起源研发 VP。上海交通大学EE专业硕士,数据库、高性能计算和分布式系统领域技术专家,前 Zilliz 研发负责人,从0到1完成向量数据库 Milvus 的研发;曾任职宝马和爱立信核心技术团队,具备丰富的行业经验和产品开源经验;国内第一个 GPU 分析型数据库研发负责人。
演讲主题:MatrixOne 内核在实时性方面的设计与思考
演讲提纲:
1. 实时数据库的分类
2. MatrixOne 总体架构设计
3. MatrixOne 在实时性方面的设计与取舍
4. MatrixOne 的路线图
听众收益:
1. 数据库实时的含义是什么?
2. 为了获得实时性,数据库的存储与计算需要做哪些取舍?
3. 新一代数据库 MatrixOne 内核架构
汪建锋 字节跳动 资深架构师
个人介绍:火山引擎云原生实时数据库架构师,拥有十多年大数据和AI相关产品和方案架构等工作,当前主要负责火山引擎云原生实时数据库产品的产品设计和商业化工作。
演讲主题:字节跳动流式数仓和实时服务分析的思考和实践
演讲提纲:目前各大公司的产品需求和内部决策对于数据实时性的要求越来越迫切。传统离线数仓的数据时效性是 T+1,调度频率以天为单位。即使能将调度频率设置成小时,还是无法很好地支持对数据实效性要求较高的场景。字节在业务开展过程中,随着抖音、头条、Tiktok、西瓜视频等业务的快速发展,数据急剧膨胀,原有架构受到日趋复杂的业务需求、存储成本的挑战越来越大,同时数据产出时效性、数据分析灵活性的高要求,也带来更大的矛盾。
本次分享将根据以下角度展开:
1. 字节跳动大数据业务发展背景与挑战;
2. 字节跳动 Streaming Warehouse 技术发展实践与历程;
3. 字节跳动基于实时服务分析系统的解决方案。
听众收益:
1. 实现快速查询分析的能力
2. 通过云原生技术,实现存算分离,更好满足计算与存储的弹性需求
3. 字节跳动基于实时服务分析系统的 Streaming Warehouse 解决方案
⑦ 现代数据治理论坛
出品人:余利华 网易数帆 大数据产品线总经理
个人介绍:专注数据方向十多年,完整经历了网易大数据整个发展过程,现作为网易数帆大数据产品线总经理,负责网易有数技术研发及推广。
演讲主题:现代数据治理:网易有数数据治理演进
演讲提纲:
1. 网易大数据平台简介
2. 阶段一:先设计后开发, 解决规范化建模问题
3. 阶段二:运动式治理阶段, 点状解决数据治理问题
4. 阶段三:体系化数据治理, 向着现代数据治理演进
听众收益:
1. 网易在数据治理方面的实践经验
2. 网易在数据治理方面的演化过程
3. 数据治理落地方面的发展趋势
赵磊 腾讯 TEG 数据平台部 数据治理平台负责人
个人介绍:15年加入腾讯,先后从事大数据平台、数据安全、数据治理相关系统能力建设。
演讲主题:腾讯数据治理技术实践
演讲提纲:
1. 腾讯海量元数据治理面临的挑战
2. 元数据治理技术及业务架构
3. 腾讯元数据数据治理核心技术能力
听众收益:
1. 腾讯海量元数据治理面临的挑战
2. 元数据治理技术及业务架构
3. 腾讯元数据数据治理核心技术能力
倪顺 快手大数据管理平台负责人
个人介绍:专注于大数据领域下的元数据平台、数据血缘、数据治理、资产管理、全链路大数据资源管控等建设工作。
演讲主题:快手智能数据管理2.0
演讲介绍:主要介绍快手数据管理平台2.0,涵盖数据生产到消费全链路的元数据采集、管理,构建高精度的数据血缘关系。系统高效支持多类数据场景,包括数据资源管控、数据资产治理、数据消费分析等,为大数据领域降本增效赋能、为数据质量和安全保驾护航。
演讲提纲:
1. 数据管理平台背景介绍
2. 系统架构设计关键点和挑战
3. 元数据驱动数据治理
4. 未来规划
听众收益:
1. 怎么保障元数据高质量,以支持P0级业务场景
2. 元数据平台典型架构,图库选型
3. 元数据的典型业务价值
张婉绮 京东 数据挖掘工程师
个人介绍:负责京东零售数据平台产品的离线数据开发及业务指标数据体系建设工作,专注于数据模型建设、数据治理、数据SLA保障等领域的应用和探索,用数据驱动业务有质量的发展。
演讲主题:数据驱动业务发展——业务指标数据体系建设及集市治理实践
演讲提纲:
1. 数据治理的现状和难点
2. 数据体系规范化框架实践
3. 业务数仓建设/加速模型建设
听众收益:
1. 如何逐层实现数据体系规范
2. 如何通过集市治理实现降本增效
3. 如何使用基于数据指标进行经营目标管理
⑧ BI与数据应用论坛
出品人:徐小龙 翼支付 大数据 AI Lab 高级总监
个人介绍:中国电信天翼电子商务有限公司高级总监,毕业于上海交通大学高级金融学院,15年研发经历,负责和推动大数据和云原生相关领域建设,参与组织多个0-1大数据/云原生/AI相关产品/平台规划和落地。曾任IBM大数据架构师,万达网络资深经理/研究员。
闻一波 翼支付 大数据研发工程师
个人介绍:目前在公司主要负责Presto引擎的维护、二次开发。
演讲主题:Presto on Alluxio 在翼支付 BI 平台的应用实践
演讲提纲:
1. 翼支付 BI 平台场景介绍
2. Alluxio 缓存加速的实践
3. 未来规划
听众收益:
1. 如何高效的命中缓存,节省存储空间?
2. 如何解耦整体设计结构,轻量化使用 presto on alluxio
许耀辉 中原银行 BI 平台负责人
个人介绍:2017年硕士毕业于郑州大学,先后在Teradata、阿里巴巴本地生活参与数据平台研发,目前负责中原银行BI平台的建设工作。
演讲主题:中原银行敏捷 BI 平台建设实践
演讲提纲:
1. 平台建设业务目标
2. 敏捷 BI 平台建设
3. 应用场景案例展示
4. 未来规划
听众收益:
1. 实时 BI 如何建设?
2. 传统 BI 如何平滑过度到敏捷BI?
3. 银行场景下的 BI 体系如何建设?
陈晓维 数预智能 产品总监
个人介绍:前阿里巴巴、蚂蚁金服大数据平台产品经理,从事过机票、广告、售后服务等业务。
演讲主题:数据分析与工具
演讲提纲:
1. 企业数字化转型过程中的洞察力
2. 如何提升洞察力
3. 数据分析与工具的应用
听众收益:如何提升企业洞察力
徐冰泉 火山引擎 DataWind 技术负责人
演讲主题:字节跳动 BI 平台实践分享
⑨ AI平台论坛
出品人:穆冰森 阿里巴巴 高级技术专家
个人介绍:北邮硕士毕业,2021年加入阿里云机器学习平台PAI,负责机器学习平台工程架构和商业化相关的工作。加入阿里之前在微软、腾讯负责bing搜索和个性化推荐相关的工作。
演讲主题:阿里云云原生深度学习平台 PAI-DLC 实践与落地
演讲提纲:
1. 深度学习平台需要什么样的能力,解决什么样的问题
2. PAI-DLC 的架构设计以及平台能力介绍
3. 商业化落地的一些思考
张晴晴 Magic Data 创始人兼 CEO
个人介绍:张晴晴,Magic Data 创始人兼 CEO。语音技术专家、对话式AI先行者。中科院声学所副研究员、博士,法国国家实验室LIMSI-CNRS博士后。获得《财富》2021年中国最具影响力的商界女性未来榜,创业邦2021年最值得关注的女性创业者。CCF语音对话与听觉专委会委员、CCF智能汽车分会执行委员、CCF女计算机工作者委员会委员。中国科学院杰出科技成就奖,微软亚洲研究院“微软学者”奖学金获得者。
演讲主题:浅谈以数据为中心的人工智能
演讲提纲:
1. 什么是以数据为中心的人工智能
2. 数据是 AI 的核心
3. Data-Centric MLOps 介绍
4. 汽车行业应用实践
听众收益:
1. 通过使用高质量数据,就能让数据在模型中进行有效的迭代吗?
2. 如何打破数据、算法、场景之间的壁垒,有效助力 ML 实现流程自动化?
3. Data-Centric MLOps 如何帮助业务快速实现智能化?
蒋善文 白海科技 IDP 平台负责人
个人介绍:负责白海科技IDP AI 开发生产平台的总体设计与实现。拥有10年大数据和人工智能行业经验。曾在明略科技担任技术总监,主导开发了网站分析系统,社交解决方案系统,推广归因、用户运营、微信小程序统计分析平台,AI算法平台等产品,服务了上百家客户。
演讲主题:云原生 AI 开发生产平台 IDP 的设计与实现
演讲提纲:随着 AI 的规模化应用落地,企业和算法团队对灵活、易用、高性能的 AI 开发生产工具的需求日益强烈。白海科技以自研 AI IDE 和高性能分布式调度引擎为切入点,构建了插件式架构、灵活高效地一站式满足 AI开 发和计算工作的新一代AI开发生产平台——IDP。本次分享将主要介绍
1. 目前市场上典型 AI 开发生产平台的技术特征和分类
2. IDP 的产品设计与功能特征
3. IDP 的具体技术实现与创新
听众收益:
1. 如何设计一个易用的 AI 开发生产平台
2. 如何最大化利用资源提高计算性能
3. 算法工程师和数据分析师之间如何快速协作
▌如何参与?





