Hudi基础入门

Hudi

apache hudi 0.13.0版本重磅发布

Apache Hudi 0.13.0引入了一系列新特性，包括Metaserver, Change Data Capture, new Record Merge API, new s…

xiaozhch5
2023-03-02
035000
Hudi

hudi时间旅行查询完整版

本文从头开始讲述使用Flink引擎实现hudi数据湖基于commit_time的查询语义。基本使用可参考前面文章hudi时间旅行查询基本要求：有一台机器部署docker用于安装…

xiaozhch5
2022-06-22
060610
Hudi

hudi时间旅行查询

hudi每次数据写入时都会生成一个时间戳，用于表示数据写入的时间，基于该特性，在进行数据查询时可使用该时间对hudi中数据进行查询。使用flink引擎查询时可指定如下参数 &#8…

xiaozhch5
2022-06-20
11.6K10
Hudi

Java实现布隆过滤器

布隆过滤器海量数据处理以及缓存穿透这两个场景让我认识了布隆过滤器，我查阅了一些资料来了解它，但是很多现成资料并不满足我的需求，所以就决定自己总结一篇关于布隆过滤器的文章。希望…

xiaozhch5
2022-06-07
044300
Hudi

hudi 键的生成（Key Generation）

Hudi中的每条记录都由一个主键唯一标识，主键是用于记录所属的记录键和分区路径的参数。使用主键，Hudi可以强制a)分区级唯一性完整性约束b)允许快速更新和删除记录。应该明智地选择…

xiaozhch5
2022-06-07
01.2K20
Hudi

Hudi Transformers（转换器）

Apache Hudi提供了一个HoodieTransformer Utility，允许您在将源数据写入Hudi表之前对其进行转换。有几种开箱即用的转换器，您也可以构建自己的自定义…

xiaozhch5
2022-05-31
031710
Hudi

hudi文件大小设置

本文档将向您展示Apache Hudi如何克服可怕的小文件问题。Hudi的一个关键设计决策是避免在一开始就创建小文件，并始终编写大小适当的文件。在Hudi中有两种管理小文件的方法，…

xiaozhch5
2022-05-31
079910
Hudi

改进Apache Hudi的标记机制

Hudi 支持在写入操作期间对存储上未提交的数据进行全自动清理。 Apache Hudi 表中的写入操作使用标记来有效地跟踪写入存储的数据文件。在这篇博文中，我们深入探讨了现有的…

xiaozhch5
2022-05-25
039000
Hudi

Apache Hudi 0.11.0 新版本新特性解读

1. Apache Hudi 0.11.0 新功能简介：多级索引 Multi-Modal Index 2. Spark SQL 新功能与 Flink 集成改进 3. 快速浏览其他功…

xiaozhch5
2022-05-14
896610
Hudi

Hudi元数据表（Metadata table)解析

元数据表的作用 ApacheHudi元数据表可以显著提高查询的读/写性能。元数据表的主要目的是消除“列出文件”操作的要求。读取和写入数据时，会执行文件列表操作，以获取文件系统的当…

xiaozhch5
2022-05-06
01.4K00
Hudi

Hudi release-0.11.0重磅发布?

hudi 0.11.0版本正式release啦，接下来跟着官网介绍看看本版本引入了哪些新的功能特性吧！文章内容翻译自：hudi release 0.11.0 版本亮点多模式索引…

xiaozhch5
2022-05-03
058600
Hudi

基于Apache Parquet™的更细粒度的加密方法

本文翻译自uber文章：《One Stone, Three Birds: Finer-Grained Encryption @ Apache Parquet™》数据访问限制、保留…

xiaozhch5
2022-03-16
077700
Flink

Flink与Spark读写parquet文件全解析

Parquet介绍 Parquet 是一种开源文件格式，用于处理扁平列式存储数据格式，可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它…

xiaozhch5
2022-01-26
01.4K10
Flink

Flink Table/SQL自定义Sources和Sinks全解析（附代码）

动态表是Flink Table和SQL API处理有界和无界数据的核心概念。在Flink中，动态表只是逻辑概念，其本身并不存储数据，而是将表的具体数据存储在外部系统（比如说数据库…

xiaozhch5
2022-01-20
42.2K21
hudi 0.10版本前瞻（2021/12/02）

hudi在2021/11/26对0.10版本代码进行了冻结，并且在官网发布了0.10版本前瞻，我们来一起看一下0.10给我们带来了什么cool features。

xiaozhch5
2021-12-02 • Hudi
135710
Hudi

hudi问题汇总

关于流读changelog问题我们知道hudi可以开启changelog模式，保留消息变更信息（I/+U/-U/D），但是我们在查询变更消息时，需要注意的是需要在sql-clie…

xiaozhch5
2021-11-22
039500
Hudi

使用hive查询从hudi同步的表需要注意的问题

设置 hive.input.format 在hive cli或者beeline执行查询任务时，需要做如下指定： set hive.input.format = org.apache…

xiaozhch5
2021-11-12
01.2K10
Hudi

Apache Hudi 0.9.0 版本发布

下载信息源码地址: Apache Hudi 源码版本相关jar包: here 版本迁移指南如果从旧版本进行迁移，还请检查下面每个后续版本的升级说明在0.9.0中，Hudi添…

xiaozhch5
2021-11-12
047600
Flink

使用flink插入数据到hudi数据湖初探

环境： hadoop 3.2.0 flink 1.11.4-bin-scala_2.11 hudi 0.8.0 本文基于上述组件版本使用flink插入数据到hudi数据湖中。为了确…

xiaozhch5
2021-11-12
21.3K00
使用spark3操作hudi数据湖初探

环境： hadoop 3.2.0 spark 3.0.3-bin-hadoop3.2 hudi 0.8.0 本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以…

xiaozhch5
2021-11-12 • Hudi
01.1K00

1 / 2
1
2
下一页