合集内容
Building The Real-time Datalake at ByteDance (00:00:00-00:22:47)
Flink CDC 如何简化实时数据入湖入仓(00:22:48-00:54:02)
Flink + Iceberg 构建网易湖仓一体(00:54:03-01:12:59)
使用 Flink Hudi 构建流式数据湖平台(01:13:00-01:33:51)
Apache Flink 集成 Apache Iceberg 最佳实践(01:33:52-2:19:23)
详细介绍
Building The Real-time Datalake at ByteDance
Speakers:
李延加:
字节跳动数据平台研发工程师,Apache Hudi PMC Member & Committer
就职于字节跳动数据集成团队,负责数据湖集成的相关工作。
主要内容
在实时数据入仓的场景下,字节跳动基于 Apache Flink 构建了 MQ-Hive 的通道并大规模投入使用,支撑了日均 20+PB 级的数据采集入仓,但是在 CDC 场景下,由于 Hive 不支持更新,所以 CDC 数据依然需要通过基于 Spark 的 T+1 离线链路来生产,实时性和计算效率上都无法满足需求,于是我们团队开始了在数据湖技术上的探索。最终选用 Apache Hudi 作为数据湖底座 + Apache Flink 作为计算引擎,构建了湖仓一体的实时数据集成通道,并获得了较大的业务收益。此次会议我会分享以下议题:
1. 字节跳动超大数据量场景下 CDC 入 Hive 数仓遇到的挑战;
2. 数据湖选型过程与思考;
3. 入湖技术方案以及我们做的优化;
4. 业务落地场景和收益;
5. 未来的计划。
Flink CDC 如何简化实时数据入湖入仓
Speakers:
徐榜江:
阿里巴巴高级开发工程师,Apache Flink Committer,Flink CDC Maintainer
伍翀:
阿里巴巴技术专家,Apache Flink PMC Member & Committer
主要内容
最近几年实时数仓和数据湖发展迅速,其本质是业务在不断追求更加实时的数据,而 CDC(Change Data Capture)技术则是构建实时数仓和数据湖的关键技术。本次分享我们将探讨现有入湖入仓技术的典型架构和面临的痛点,包括海量 DB 数据的高效接入、数据一致性的语义保证、表结构的频繁变更等等。
接着我们会介绍如何使用 Flink CDC 简化数据入湖入仓架构,分享 Flink CDC 的核心技术是如何解决上述痛点。我们还会介绍 Flink CDC 蓬勃发展的社区生态以及未来的发展规划。
最后,我们会通过一个 demo 来展示如何使用 Flink CDC 完成 MySQL 到 Hudi 的整库数据入湖,并演示表结构变更的自动同步,整个 demo 只使用了几行 SQL,让观众深切体会到数据入湖本应如此 “简单”!
Flink + Iceberg 构建网易湖仓一体
Speakers:
马进:
网易数据科学中心在线数据和实时计算团队负责人
负责集团分布式数据库,数据传输平台,实时计算平台,实时数据湖等项目,长期从事中间件,大数据基础设施方面的研究和实践,目前带领团队聚焦在流批一体,湖仓一体的平台方案和技术演进上。
主要内容
经过多年发展,Hive 已经成为离线数仓的事实标准,Hive 的成功依赖于简洁开放的生态,但是在事务性,实时性,数据更新等能力上有严重不足,这也导致 Hive 无法胜任实时数仓,企业面临着 Kudu、Druid、Clickhouse 等百家争鸣的实时数仓方案,而实时数仓和离线数仓的割裂带来了流批割裂,规范割裂,语义二义性,成本浪费,数据孤岛等问题。
基于这些现状,网易在过去一年多持续致力于基于 Hadoop 数据湖构建实时数仓的方案,以形成流批统一存储,统一计算的实时湖仓,这次分享将给大家带来我们怎样基于 Flink 和 Iceberg 来构建流批一体和湖仓一体方案,重点介绍网易在 Iceberg 基础上开发的文件索引,实时 ingestion 和 compaction 服务,以及在应用场景中的实践,PPT 大纲:
1. 流批一体的痛点;
2. 湖仓一体 = 存储流批一体;
3. 技术方案(文件索引,ingestion,compaction 服务);
4. 应用实践;
5. 未来规划。
使用 Flink Hudi 构建流式数据湖平台
Speakers:
陈玉兆:
阿里巴巴技术专家,Apache Hudi Committer
刘大龙:
阿里巴巴开发工程师
主要内容
随着云数仓技术的不断成熟,数据湖俨然已成为当下最热门的技术之一,而 Apache Hudi 是当下最具竞争力的数据湖格式之一:
– 拥有最活跃的开源社区,周活跃 PR 一直维持在 50+ 水平;
– 拥有最多的国内用户群,目前的 Apache Hudi 钉钉群已超过 2100+,国内各大厂商都已经布局 Apache Hudi 生态。
Apache Hudi 的活跃度得益于其出色的 file format 设计和丰富的事物语义支持:
– 精细化的 file format 布局很好的适配了近实时更新场景,解决了超大数据集更新的痛点;
– Hudi 的事物层语义是目前的湖存储中最成熟和丰富的,基本所有的数据治理都可以自动化完成:compaction、rollback、cleaning、clustering
本次分享我们首先会探讨数据湖的由来以及 Apache Hudi 的内核设计,包括 Apache Hudi 的 Timeline 设计、Table Format 设计,以及 COW、MOR 等原语。
接着会介绍 Flink On Hudi 的核心设计,Flink 如何更好地结合流计算和湖存储,如何用流的思路实现湖格式的更新语义。
我们还会介绍 Flink On Hudi 活跃的国内用户群、经典的实践案例和近期的 roadmap。
最后,我们会通过一个 demo 来演示如何用简单的 Flink SQL 完成近实时数据湖的经典场景:包括双流 join 入湖、流读变更流、增量查询、TimeTravel 等,用 Flink SQL 玩转近实时数据湖就是如此简单 !
Apache Flink 集成 Apache Iceberg 最佳实践
Speakers:
胡争:
阿里巴巴技术专家,Apache Iceberg & HBase PMC
主要负责 Apache Iceberg 的社区开发以及阿里云 Iceberg 数据湖产品研发。目前,是 Apache Iceberg PMC 成员,同时也是 Apache HBase PMC 成员,和业界知名的 HBase 技术专家范欣欣合著有《HBase原理与实践》。
主要内容
Apache Iceberg 作为一种开放的标准化数据湖表格式,被国内外众多大厂选择和应用。近期 Apache Iceberg 创始团队收获了 A 轮融资,计划在 AWS 之上推出商业版的数据湖存储服务,以满足数据分析师自助的数据分析需求。经过过去一年多的发展,Flink 已经成为 Iceberg 数据湖最重要入湖引擎之一。本次议题我将结合线上的一些案例和开源社区现状,分享 Flink 集成 Iceberg 的一些最佳实践:
1. Flink + Iceberg 到底解决了哪些其他系统无法解决的问题?
2. 日志表数据入湖的挑战和解决方案;
3. CDC 表数据入湖的最佳实践;
4. Iceberg 社区 Flink 模块现状和进展。
本文为从大数据到人工智能博主「xiaozhch5」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://lrting.top/backend/3302/