Hudi基础入门
-
Apache Hudi 0.11.0 新版本新特性解读
1. Apache Hudi 0.11.0 新功能简介:多级索引 Multi-Modal Index 2. Spark SQL 新功能与 Flink 集成改进 3. 快速浏览其他功…
-
Hudi元数据表(Metadata table)解析
元数据表的作用 ApacheHudi元数据表可以显著提高查询的读/写性能。元数据表的主要目的是消除“列出文件”操作的要求。 读取和写入数据时,会执行文件列表操作,以获取文件系统的当…
-
Hudi release-0.11.0重磅发布🎉
hudi 0.11.0版本正式release啦,接下来跟着官网介绍看看本版本引入了哪些新的功能特性吧! 文章内容翻译自:hudi release 0.11.0 版本亮点 多模式索引…
-
基于Apache Parquet™的更细粒度的加密方法
本文翻译自uber文章:《One Stone, Three Birds: Finer-Grained Encryption @ Apache Parquet™》 数据访问限制、保留…
-
Flink与Spark读写parquet文件全解析
Parquet介绍 Parquet 是一种开源文件格式,用于处理扁平列式存储数据格式,可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它…
-
Flink Table/SQL自定义Sources和Sinks全解析(附代码)
动态表是Flink Table和SQL API处理有界和无界数据的核心概念。 在Flink中,动态表只是逻辑概念,其本身并不存储数据,而是将表的具体数据存储在外部系统(比如说数据库…
-
hudi 0.10版本前瞻(2021/12/02)
hudi在2021/11/26对0.10版本代码进行了冻结,并且在官网发布了0.10版本前瞻,我们来一起看一下0.10给我们带来了什么cool features。
-
hudi问题汇总
关于流读changelog问题 我们知道hudi可以开启changelog模式,保留消息变更信息(I/+U/-U/D),但是我们在查询变更消息时,需要注意的是需要在sql-clie…
-
使用hive查询从hudi同步的表需要注意的问题
设置 hive.input.format 在hive cli或者beeline执行查询任务时,需要做如下指定: set hive.input.format = org.apache…
-
Apache Hudi 0.9.0 版本发布
下载信息 源码地址: Apache Hudi 源码 版本相关jar包: here 版本迁移指南 如果从旧版本进行迁移,还请检查下面每个后续版本的升级说明 在0.9.0中,Hudi添…
-
使用flink插入数据到hudi数据湖初探
环境: hadoop 3.2.0 flink 1.11.4-bin-scala_2.11 hudi 0.8.0 本文基于上述组件版本使用flink插入数据到hudi数据湖中。为了确…
-
使用spark3操作hudi数据湖初探
环境: hadoop 3.2.0 spark 3.0.3-bin-hadoop3.2 hudi 0.8.0 本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以…
-
Hudi内核分析之虚拟键(Virtual Keys)
总览 Apache Hudi根据不同的表类型、配置参数来帮助您构建和管理数据湖,以满足每个人的需要。Hudi添加了每个记录的元数据字段,如_hoodie_record_key, _…
-
hudi 异步clustering
在之前的一篇文章中,我们引入了一种新的名为clustering的表服务,它可以重组数据,从而在不影响写入速度的情况下提高查询性能。 我们学习了如何设置inline clusteri…
-
hudi的索引机制以及使用场景
Apache Hudi 使用索引来定位更新/删除所属的文件组。 对于 Copy-On-Write 表,通过避免需要连接整个数据集来确定要重写哪些文件,这可以实现快速的 upsert…
-
Hudi Clustering特性
概览 Apache Hudi为大数据带来了流处理,在提供新鲜数据的同时,比传统批处理效率高一个数量级。在数据湖/数据仓库中,关键的权衡之一是输入速度和查询性能之间的权衡。数据摄取通…
-
flink写入数据到hudi的四种方式
总览 bulk_insert 用于快速导入快照数据到hudi。 基本特性 bulk_insert可以减少数据序列化以及合并操作,于此同时,该数据写入方式会跳过数据去重,所以用户需要…
-
使用Flink对hudi MOR表进行离线压缩
默认情况下,MERGE_ON_READ表的压缩是启用的。 触发器策略是在完成五次提交后执行压缩。 因为压缩会消耗大量内存,并且与写操作处于相同的管道中,所以当数据量很大(> …
-
hudi中的写操作
在本节中,我们将介绍如何使用DeltaStreamer工具从外部数据源甚至其他Hudi表中获取新的更改,以及如何使用Hudi数据源通过upserts加速大型Spark作业。 然后可…
-
hudi 模式演化
模式演化是数据管理的一个非常重要的方面。 Hudi支持常见的模式演变场景,比如添加一个空字段或提升一个字段的数据类型,开箱即用。 此外,该模式可以跨引擎查询,如Presto、Hiv…