Hudi进阶提升
-
加速LakeHouse ACID Upsert的新写时复制方案
概述 随着存储表格式 Apache Hudi、Apache Iceberg 和 Delta Lake 的发展,越来越多的公司正在这些格式的基础上构建其 Lakehouse,以用于许…
-
flink datastream api实现数据实时写入hudi
Apache Hudi(发音为“hoodie”)是下一代流数据湖平台。 Apache Hudi 将核心仓库和数据库功能直接引入数据湖。 Hudi 提供表、事务、高效的更新插入/删除…
-
解决spark sql读取hudi表出现偶然读不出来数据问题
相关版本 hadoop 3.2.0 spark 3.3.0 hudi 0.12.0 问题分析 用beeline连接spark thriftserver或者kyuubi(spark …
-
解决hudi hms catalog中flink建表,spark无法写入问题
问题描述 在hudi 0.12.0版本,flink和spark都可以基于hive metastore进行元数据管理,更多信息可参考:hudi HMS Catalog指南。也就是说基…
-
基于Apache Hudi + MinIO 构建流式数据湖
Apache Hudi 是一个流式数据湖平台,将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式,…
-
k8s 写入hudi表快速测试指南
x## ubuntu安装nfs服务 sudo apt-get install nfs-kernel-server sudo vim /etc/exports /data1/nfs/…
-
Apache Hudi 0.12.0版本重磅发布!
Presto-Hudi 连接器 从 PrestoDB 0.275 版本开始,用户现在可以利用原生 Hudi 连接器来查询 Hudi 表。它与 Hive 连接器中的 Hudi 支持相…
-
特性大PK?Hudi vs Delta Lake vs Iceberg
简介 随着 Lakehouse 的日益普及,人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚:Apache Hudi、Delta Lake 和 Apache Iceber…
-
Flink 自定义SQL实现Hudi MOR表压缩
Hudi在构建流式数据湖方面具有领先地位。Flink作为真正的流处理引擎,与Hudi搭配是理所应当的事情了。但是目前Hudi MOR表压缩功能除了在线压缩以外,并不能通过SQL实现…
-
hudi HMS Catalog尝鲜指南
hudi支持HMS catalog啦! 功能亮点:当flink和spark同时接入hive metastore时,用hive metastore对hudi的元数据进行管理,无论是使…
-
hudi表流式regular inner join关联写入宽表实践
基本环境 mysql 5.7 hadoop 3.2.2 flink 1.14.4 hudi 0.11.0 flink-cdc-mysql 2.2 操作步骤 使用flink cdc将…
-
将hudi同步到配置kerberos的hive3
前人种树,后人乘凉。本文基于社区pr:https://github.com/apache/hudi/pull/3771 ,新增一些其他配置项以完成本场景下的hudi → hive …
-
使用 Apache Hudi、Kafka、Hive 和 Debezium 构建开放数据湖
总览 在接下来的文章中,我们将学习如何使用开源软件 (OSS) 在 AWS 上构建数据湖,包括 Red Hat 的 Debezium、Apache Kafka、Kafka Conn…
-
Hudi源码分析之使用Flink Table/SQL实现Hudi Sources
在文章Flink Table/SQL自定义Sources和Sinks全解析(附代码)中我们说到在Flink Table/SQL中如何自定义Sources和Sinks,有了上述文章的…
-
Apache hudi meetup at uber 2022.1.12配英文字幕
该视频为由Uber和Apache Hudi社区主办的虚拟Meetup。他们将以Apache Hudi 0.10.0版本的更新作为开场,随后来自优步、沃尔玛和迪士尼+ Hotstar…
-
一文带你了解Lakehouse的并发控制:我们是否过于乐观?
1. 概述 如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。但到目前为止,实际完成了什么?目前有哪些方法?它们在现实世界中的表现如何?这些问题是本博客的重点。 有幸…
-
用ranger对hive metastore 进行授权管理
hive standalone metastore 3.1.2可作为独立服务,作为spark、flink、presto等服务的元数据管理中心,然而在现有的hive授权方案中只有针对…
-
hive metastore配置kerberos认证
hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是…
-
深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案
目前市面上流行的三大开源数据湖方案分别为:Delta、Apache Iceberg 和 Apache Hudi。其中,由于 Apache Spark 在商业化上取得巨大成功,所以由…
-
hudi 0.10.0-SNAPSHOT适配hdp 3.1.5编译
新增hdp仓库 在项目根目录下的pom文件中新增: <repository> <id>hdp</id> <url>https://r…