Flink Forward Asia 2021 实时数据湖合集

合集内容

Building The Real-time Datalake at ByteDance （00:00:00-00:22:47）

Flink CDC 如何简化实时数据入湖入仓（00:22:48-00:54:02）

Flink + Iceberg 构建网易湖仓一体（00:54:03-01:12:59）

使用 Flink Hudi 构建流式数据湖平台（01:13:00-01:33:51）

Apache Flink 集成 Apache Iceberg 最佳实践（01:33:52-2:19:23）

详细介绍

Building The Real-time Datalake at ByteDance

Speakers:

李延加:

字节跳动数据平台研发工程师，Apache Hudi PMC Member & Committer

就职于字节跳动数据集成团队，负责数据湖集成的相关工作。

主要内容

在实时数据入仓的场景下，字节跳动基于 Apache Flink 构建了 MQ-Hive 的通道并大规模投入使用，支撑了日均 20+PB 级的数据采集入仓，但是在 CDC 场景下，由于 Hive 不支持更新，所以 CDC 数据依然需要通过基于 Spark 的 T+1 离线链路来生产，实时性和计算效率上都无法满足需求，于是我们团队开始了在数据湖技术上的探索。最终选用 Apache Hudi 作为数据湖底座 + Apache Flink 作为计算引擎，构建了湖仓一体的实时数据集成通道，并获得了较大的业务收益。此次会议我会分享以下议题：

1. 字节跳动超大数据量场景下 CDC 入 Hive 数仓遇到的挑战；

2. 数据湖选型过程与思考；

3. 入湖技术方案以及我们做的优化；

4. 业务落地场景和收益；

5. 未来的计划。

Flink CDC 如何简化实时数据入湖入仓

Speakers:

徐榜江:

阿里巴巴高级开发工程师，Apache Flink Committer，Flink CDC Maintainer

伍翀:

阿里巴巴技术专家，Apache Flink PMC Member & Committer

主要内容

最近几年实时数仓和数据湖发展迅速，其本质是业务在不断追求更加实时的数据，而 CDC（Change Data Capture）技术则是构建实时数仓和数据湖的关键技术。本次分享我们将探讨现有入湖入仓技术的典型架构和面临的痛点，包括海量 DB 数据的高效接入、数据一致性的语义保证、表结构的频繁变更等等。

接着我们会介绍如何使用 Flink CDC 简化数据入湖入仓架构，分享 Flink CDC 的核心技术是如何解决上述痛点。我们还会介绍 Flink CDC 蓬勃发展的社区生态以及未来的发展规划。

最后，我们会通过一个 demo 来展示如何使用 Flink CDC 完成 MySQL 到 Hudi 的整库数据入湖，并演示表结构变更的自动同步，整个 demo 只使用了几行 SQL，让观众深切体会到数据入湖本应如此 “简单”！

Flink + Iceberg 构建网易湖仓一体

Speakers:

马进:

网易数据科学中心在线数据和实时计算团队负责人

负责集团分布式数据库，数据传输平台，实时计算平台，实时数据湖等项目，长期从事中间件，大数据基础设施方面的研究和实践，目前带领团队聚焦在流批一体，湖仓一体的平台方案和技术演进上。

主要内容

经过多年发展，Hive 已经成为离线数仓的事实标准，Hive 的成功依赖于简洁开放的生态，但是在事务性，实时性，数据更新等能力上有严重不足，这也导致 Hive 无法胜任实时数仓，企业面临着 Kudu、Druid、Clickhouse 等百家争鸣的实时数仓方案，而实时数仓和离线数仓的割裂带来了流批割裂，规范割裂，语义二义性，成本浪费，数据孤岛等问题。

基于这些现状，网易在过去一年多持续致力于基于 Hadoop 数据湖构建实时数仓的方案，以形成流批统一存储，统一计算的实时湖仓，这次分享将给大家带来我们怎样基于 Flink 和 Iceberg 来构建流批一体和湖仓一体方案，重点介绍网易在 Iceberg 基础上开发的文件索引，实时 ingestion 和 compaction 服务，以及在应用场景中的实践，PPT 大纲：

1. 流批一体的痛点；

2. 湖仓一体 = 存储流批一体；

3. 技术方案（文件索引，ingestion，compaction 服务）；

4. 应用实践；

5. 未来规划。

使用 Flink Hudi 构建流式数据湖平台

Speakers:

陈玉兆:

阿里巴巴技术专家，Apache Hudi Committer

刘大龙:

阿里巴巴开发工程师

主要内容

随着云数仓技术的不断成熟，数据湖俨然已成为当下最热门的技术之一，而 Apache Hudi 是当下最具竞争力的数据湖格式之一：

– 拥有最活跃的开源社区，周活跃 PR 一直维持在 50+ 水平；

– 拥有最多的国内用户群，目前的 Apache Hudi 钉钉群已超过 2100+，国内各大厂商都已经布局 Apache Hudi 生态。

Apache Hudi 的活跃度得益于其出色的 file format 设计和丰富的事物语义支持：

– 精细化的 file format 布局很好的适配了近实时更新场景，解决了超大数据集更新的痛点；

– Hudi 的事物层语义是目前的湖存储中最成熟和丰富的，基本所有的数据治理都可以自动化完成：compaction、rollback、cleaning、clustering

本次分享我们首先会探讨数据湖的由来以及 Apache Hudi 的内核设计，包括 Apache Hudi 的 Timeline 设计、Table Format 设计，以及 COW、MOR 等原语。

接着会介绍 Flink On Hudi 的核心设计，Flink 如何更好地结合流计算和湖存储，如何用流的思路实现湖格式的更新语义。

我们还会介绍 Flink On Hudi 活跃的国内用户群、经典的实践案例和近期的 roadmap。

最后，我们会通过一个 demo 来演示如何用简单的 Flink SQL 完成近实时数据湖的经典场景：包括双流 join 入湖、流读变更流、增量查询、TimeTravel 等，用 Flink SQL 玩转近实时数据湖就是如此简单！

Apache Flink 集成 Apache Iceberg 最佳实践

Speakers:

胡争:

阿里巴巴技术专家，Apache Iceberg & HBase PMC

主要负责 Apache Iceberg 的社区开发以及阿里云 Iceberg 数据湖产品研发。目前，是 Apache Iceberg PMC 成员，同时也是 Apache HBase PMC 成员，和业界知名的 HBase 技术专家范欣欣合著有《HBase原理与实践》。

主要内容

Apache Iceberg 作为一种开放的标准化数据湖表格式，被国内外众多大厂选择和应用。近期 Apache Iceberg 创始团队收获了 A 轮融资，计划在 AWS 之上推出商业版的数据湖存储服务，以满足数据分析师自助的数据分析需求。经过过去一年多的发展，Flink 已经成为 Iceberg 数据湖最重要入湖引擎之一。本次议题我将结合线上的一些案例和开源社区现状，分享 Flink 集成 Iceberg 的一些最佳实践：

1. Flink + Iceberg 到底解决了哪些其他系统无法解决的问题？

2. 日志表数据入湖的挑战和解决方案；

3. CDC 表数据入湖的最佳实践；

4. Iceberg 社区 Flink 模块现状和进展。

0 0 投票数

文章评分