Hudi
-
使用spark3操作hudi数据湖初探
环境: hadoop 3.2.0 spark 3.0.3-bin-hadoop3.2 hudi 0.8.0 本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以…
-
Hudi内核分析之虚拟键(Virtual Keys)
总览 Apache Hudi根据不同的表类型、配置参数来帮助您构建和管理数据湖,以满足每个人的需要。Hudi添加了每个记录的元数据字段,如_hoodie_record_key, _…
-
hudi 异步clustering
在之前的一篇文章中,我们引入了一种新的名为clustering的表服务,它可以重组数据,从而在不影响写入速度的情况下提高查询性能。 我们学习了如何设置inline clusteri…
-
hudi的索引机制以及使用场景
Apache Hudi 使用索引来定位更新/删除所属的文件组。 对于 Copy-On-Write 表,通过避免需要连接整个数据集来确定要重写哪些文件,这可以实现快速的 upsert…
-
Hudi Clustering特性
概览 Apache Hudi为大数据带来了流处理,在提供新鲜数据的同时,比传统批处理效率高一个数量级。在数据湖/数据仓库中,关键的权衡之一是输入速度和查询性能之间的权衡。数据摄取通…
-
flink写入数据到hudi的四种方式
总览 bulk_insert 用于快速导入快照数据到hudi。 基本特性 bulk_insert可以减少数据序列化以及合并操作,于此同时,该数据写入方式会跳过数据去重,所以用户需要…
-
使用Flink对hudi MOR表进行离线压缩
默认情况下,MERGE_ON_READ表的压缩是启用的。 触发器策略是在完成五次提交后执行压缩。 因为压缩会消耗大量内存,并且与写操作处于相同的管道中,所以当数据量很大(> …
-
hudi中的写操作
在本节中,我们将介绍如何使用DeltaStreamer工具从外部数据源甚至其他Hudi表中获取新的更改,以及如何使用Hudi数据源通过upserts加速大型Spark作业。 然后可…
-
hudi 模式演化
模式演化是数据管理的一个非常重要的方面。 Hudi支持常见的模式演变场景,比如添加一个空字段或提升一个字段的数据类型,开箱即用。 此外,该模式可以跨引擎查询,如Presto、Hiv…
-
Hudi使用场景
近实时摄取 Hudi对各种数据的摄取都有很多的优点。能够帮助合并DFS上的最小文件。这有助于解决HDFS和云存储上的小文件问题,显著提高查询性能。Hudi增加了非常需要的原子提交新…
-
Hudi关键术语及其概述
Apache Hudi基于hadoop兼容存储提供如下流原型 更新/删除记录 修改流 关键概念 Timeline(时间轴) 在其核心,Hudi维护了在不同时刻对表执行的所有操作的时…
-
Hudi:Apache Hadoop上的增量处理框架
温馨提示本文部分翻译自2017.3.12 Uber Engineering发布文章《Hudi: Uber Engineering’s Incremental Processing …