Hudi

使用spark3操作hudi数据湖初探

环境： hadoop 3.2.0 spark 3.0.3-bin-hadoop3.2 hudi 0.8.0 本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以…

xiaozhch5
2021-11-12 • Hudi
01.2K00
Hudi

Hudi内核分析之虚拟键（Virtual Keys）

总览 Apache Hudi根据不同的表类型、配置参数来帮助您构建和管理数据湖，以满足每个人的需要。Hudi添加了每个记录的元数据字段，如_hoodie_record_key， _…

xiaozhch5
2021-11-12
01.0K00
Hudi

hudi 异步clustering

在之前的一篇文章中，我们引入了一种新的名为clustering的表服务，它可以重组数据，从而在不影响写入速度的情况下提高查询性能。我们学习了如何设置inline clusteri…

xiaozhch5
2021-11-12
068200
hudi的索引机制以及使用场景
Apache Hudi 使用索引来定位更新/删除所属的文件组。对于 Copy-On-Write 表，通过避免需要连接整个数据集来确定要重写哪些文件，这可以实现快速的 upsert…

xiaozhch5
2021-11-12 • Hudi
090100
Hudi

Hudi Clustering特性

概览 Apache Hudi为大数据带来了流处理，在提供新鲜数据的同时，比传统批处理效率高一个数量级。在数据湖/数据仓库中，关键的权衡之一是输入速度和查询性能之间的权衡。数据摄取通…

xiaozhch5
2021-11-12
092900
Hudi

flink写入数据到hudi的四种方式

总览 bulk_insert 用于快速导入快照数据到hudi。基本特性 bulk_insert可以减少数据序列化以及合并操作，于此同时，该数据写入方式会跳过数据去重，所以用户需要…

xiaozhch5
2021-11-12
01.9K10
Hudi

使用Flink对hudi MOR表进行离线压缩

默认情况下，MERGE_ON_READ表的压缩是启用的。触发器策略是在完成五次提交后执行压缩。因为压缩会消耗大量内存，并且与写操作处于相同的管道中，所以当数据量很大(> …

xiaozhch5
2021-11-12
01.5K00
Hudi

hudi中的写操作

在本节中，我们将介绍如何使用DeltaStreamer工具从外部数据源甚至其他Hudi表中获取新的更改，以及如何使用Hudi数据源通过upserts加速大型Spark作业。然后可…

xiaozhch5
2021-11-12
01.1K00
Hudi

hudi 模式演化

模式演化是数据管理的一个非常重要的方面。 Hudi支持常见的模式演变场景，比如添加一个空字段或提升一个字段的数据类型，开箱即用。此外，该模式可以跨引擎查询，如Presto、Hiv…

xiaozhch5
2021-11-12
080600
Hudi

Hudi使用场景

近实时摄取 Hudi对各种数据的摄取都有很多的优点。能够帮助合并DFS上的最小文件。这有助于解决HDFS和云存储上的小文件问题，显著提高查询性能。Hudi增加了非常需要的原子提交新…

xiaozhch5
2021-11-12
050010
Hudi关键术语及其概述

Apache Hudi基于hadoop兼容存储提供如下流原型更新/删除记录修改流关键概念 Timeline（时间轴）在其核心，Hudi维护了在不同时刻对表执行的所有操作的时…

xiaozhch5
2021-11-11 • Hudi
066900
Hudi：Apache Hadoop上的增量处理框架

温馨提示本文部分翻译自2017.3.12 Uber Engineering发布文章《Hudi: Uber Engineering’s Incremental Processing …

xiaozhch5
2021-11-11 • Hudi
068400

5 / 5
上一页
1
2
3
4
5