-
基于 Hudi 的湖仓一体技术在 Shopee 的实践
目录1. Shopee 数据系统建设中面临的典型问题2. 为什么选择 Hudi3. Shopee 在 Hudi 落地过程中的实践4. 社区贡献5. 总结与展望 湖仓一体(LakeH…
-
Apache Hudi 0.12.0版本重磅发布!
Presto-Hudi 连接器 从 PrestoDB 0.275 版本开始,用户现在可以利用原生 Hudi 连接器来查询 Hudi 表。它与 Hive 连接器中的 Hudi 支持相…
-
特性大PK?Hudi vs Delta Lake vs Iceberg
简介 随着 Lakehouse 的日益普及,人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚:Apache Hudi、Delta Lake 和 Apache Iceber…
-
Flink 自定义SQL实现Hudi MOR表压缩
Hudi在构建流式数据湖方面具有领先地位。Flink作为真正的流处理引擎,与Hudi搭配是理所应当的事情了。但是目前Hudi MOR表压缩功能除了在线压缩以外,并不能通过SQL实现…
-
基于Apache Hudi的多库多表实时入湖最佳实践
1. 前言 CDC(Change Data Capture)从广义上讲所有能够捕获变更数据的技术都可以称为CDC,但本篇文章中对CDC的定义限定为以非侵入的方式实时捕获数据库的变更…
-
Apache Hudi中文社区技术交流会重磅来袭(7.28 10:00 – 11:00)
Apache Hudi中文社区技术交流会将在北京时间2022.07.28号 上午10:00 到 11:00 开播,交流会特邀了来自Onehouse、字节跳动和阿里云的小伙伴分享Ap…
-
基于Apache Hudi 和 Microsoft Azure构建Lakehouse指南
Apache Hudi 是一种流行的开源 Lakehouse 技术,在大数据社区中迅速发展。如果您在 AWS 上构建了数据湖和数据工程平台,您可能已经听说过或使用过 Apache …
-
hudi HMS Catalog尝鲜指南
hudi支持HMS catalog啦! 功能亮点:当flink和spark同时接入hive metastore时,用hive metastore对hudi的元数据进行管理,无论是使…
-
Flink CDC + Hudi 海量数据入湖在顺丰的实践
摘要:本文整理自顺丰大数据研发工程师覃立辉在 5月 21 日 Flink CDC Meetup 的演讲。主要内容包括: 顺丰数据集成背景 Flink CDC 实践问题与优化 未来规…
-
hudi时间旅行查询完整版
本文从头开始讲述使用Flink引擎实现hudi数据湖基于commit_time的查询语义。基本使用可参考前面文章hudi时间旅行查询 基本要求: 有一台机器部署docker用于安装…
-
hudi时间旅行查询
hudi每次数据写入时都会生成一个时间戳,用于表示数据写入的时间,基于该特性,在进行数据查询时可使用该时间对hudi中数据进行查询。 使用flink引擎查询时可指定如下参数 …
-
hudi表流式regular inner join关联写入宽表实践
基本环境 mysql 5.7 hadoop 3.2.2 flink 1.14.4 hudi 0.11.0 flink-cdc-mysql 2.2 操作步骤 使用flink cdc将…
-
干货 | 实时数据湖在字节跳动的实践
文 | 诗旻 来自字节跳动数据平台数据湖团队 对实时数据湖的解读 数据湖的概念是比较宽泛的,不同的人可能有着不同的解读。这个名词诞生以来,在不同的阶段被赋予了不同的含义。 数据湖…
-
B站增量数据湖探索与实践
本期作者 周晖栋 哔哩哔哩资深开发工程师 目前主要负责B站实时团队增量数仓、Hudi数据湖方向。 黄靖 哔哩哔哩资深开发工程师 专注于实时计算相关大数据技术,目前负责Hudi数据湖…
-
B站基于Iceberg的湖仓一体架构实践
背景 在B站,每天都有PB级的数据注入到大数据平台,经过离线或实时的ETL建模后,提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据,如何高效低成本地满足下游数据的分析需…
-
BiliBili使用Apache Hudi基于拉链表的全量表极限存储优化方案
01 背景 2020年以来,半导体生产不足,这个问题困扰着全世界。互联网企业高度依赖于网络基础设施和服务器设施,没有半导体就没有满足个人需要的个人电子消费品,也就没有蓬勃发展的互联…
-
hudi 键的生成(Key Generation)
Hudi中的每条记录都由一个主键唯一标识,主键是用于记录所属的记录键和分区路径的参数。使用主键,Hudi可以强制a)分区级唯一性完整性约束b)允许快速更新和删除记录。应该明智地选择…
-
腾讯广告业务基于Apache Flink + Hudi的批流一体实践
1.业务背景介绍 广告主和代理商通过广告投放平台来进行广告投放,由多个媒介进行广告展示 ,从而触达到潜在用户。整个过程中会产生各种各样的数据,比如展现数据、点击数据。其中非常重要的…
-
Hudi Transformers(转换器)
Apache Hudi提供了一个HoodieTransformer Utility,允许您在将源数据写入Hudi表之前对其进行转换。有几种开箱即用的转换器,您也可以构建自己的自定义…
-
hudi文件大小设置
本文档将向您展示Apache Hudi如何克服可怕的小文件问题。Hudi的一个关键设计决策是避免在一开始就创建小文件,并始终编写大小适当的文件。在Hudi中有两种管理小文件的方法,…