Hudi基础入门
-
apache hudi 0.13.0版本重磅发布
Apache Hudi 0.13.0引入了一系列新特性,包括Metaserver, Change Data Capture, new Record Merge API, new s…
-
hudi时间旅行查询完整版
本文从头开始讲述使用Flink引擎实现hudi数据湖基于commit_time的查询语义。基本使用可参考前面文章hudi时间旅行查询 基本要求: 有一台机器部署docker用于安装…
-
hudi时间旅行查询
hudi每次数据写入时都会生成一个时间戳,用于表示数据写入的时间,基于该特性,在进行数据查询时可使用该时间对hudi中数据进行查询。 使用flink引擎查询时可指定如下参数 …
-
Java实现布隆过滤器
布隆过滤器 海量数据处理以及缓存穿透这两个场景让我认识了 布隆过滤器 ,我查阅了一些资料来了解它,但是很多现成资料并不满足我的需求,所以就决定自己总结一篇关于布隆过滤器的文章。希望…
-
hudi 键的生成(Key Generation)
Hudi中的每条记录都由一个主键唯一标识,主键是用于记录所属的记录键和分区路径的参数。使用主键,Hudi可以强制a)分区级唯一性完整性约束b)允许快速更新和删除记录。应该明智地选择…
-
Hudi Transformers(转换器)
Apache Hudi提供了一个HoodieTransformer Utility,允许您在将源数据写入Hudi表之前对其进行转换。有几种开箱即用的转换器,您也可以构建自己的自定义…
-
hudi文件大小设置
本文档将向您展示Apache Hudi如何克服可怕的小文件问题。Hudi的一个关键设计决策是避免在一开始就创建小文件,并始终编写大小适当的文件。在Hudi中有两种管理小文件的方法,…
-
改进Apache Hudi的标记机制
Hudi 支持在写入操作期间对存储上未提交的数据进行全自动清理。 Apache Hudi 表中的写入操作使用标记来有效地跟踪写入存储的数据文件。 在这篇博文中,我们深入探讨了现有的…
-
Apache Hudi 0.11.0 新版本新特性解读
1. Apache Hudi 0.11.0 新功能简介:多级索引 Multi-Modal Index 2. Spark SQL 新功能与 Flink 集成改进 3. 快速浏览其他功…
-
Hudi元数据表(Metadata table)解析
元数据表的作用 ApacheHudi元数据表可以显著提高查询的读/写性能。元数据表的主要目的是消除“列出文件”操作的要求。 读取和写入数据时,会执行文件列表操作,以获取文件系统的当…
-
Hudi release-0.11.0重磅发布?
hudi 0.11.0版本正式release啦,接下来跟着官网介绍看看本版本引入了哪些新的功能特性吧! 文章内容翻译自:hudi release 0.11.0 版本亮点 多模式索引…
-
基于Apache Parquet™的更细粒度的加密方法
本文翻译自uber文章:《One Stone, Three Birds: Finer-Grained Encryption @ Apache Parquet™》 数据访问限制、保留…
-
Flink与Spark读写parquet文件全解析
Parquet介绍 Parquet 是一种开源文件格式,用于处理扁平列式存储数据格式,可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它…
-
Flink Table/SQL自定义Sources和Sinks全解析(附代码)
动态表是Flink Table和SQL API处理有界和无界数据的核心概念。 在Flink中,动态表只是逻辑概念,其本身并不存储数据,而是将表的具体数据存储在外部系统(比如说数据库…
-
hudi 0.10版本前瞻(2021/12/02)
hudi在2021/11/26对0.10版本代码进行了冻结,并且在官网发布了0.10版本前瞻,我们来一起看一下0.10给我们带来了什么cool features。
-
hudi问题汇总
关于流读changelog问题 我们知道hudi可以开启changelog模式,保留消息变更信息(I/+U/-U/D),但是我们在查询变更消息时,需要注意的是需要在sql-clie…
-
使用hive查询从hudi同步的表需要注意的问题
设置 hive.input.format 在hive cli或者beeline执行查询任务时,需要做如下指定: set hive.input.format = org.apache…
-
Apache Hudi 0.9.0 版本发布
下载信息 源码地址: Apache Hudi 源码 版本相关jar包: here 版本迁移指南 如果从旧版本进行迁移,还请检查下面每个后续版本的升级说明 在0.9.0中,Hudi添…
-
使用flink插入数据到hudi数据湖初探
环境: hadoop 3.2.0 flink 1.11.4-bin-scala_2.11 hudi 0.8.0 本文基于上述组件版本使用flink插入数据到hudi数据湖中。为了确…
-
使用spark3操作hudi数据湖初探
环境: hadoop 3.2.0 spark 3.0.3-bin-hadoop3.2 hudi 0.8.0 本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以…