hudi

spark-shell操作hudi并使用hbase作为索引

前言接上一篇文章，上篇文章说到hudi适配hbase 2.2.6，这篇文章在spark-shell中操作hudi，并使用hbase作为索引。要完成以下实验，请先确保你已经按照文章…

xiaozhch5
2021-11-12 • Hbase
01.0K00
hudi 0.9.0适配hbase 2.2.6

总览在hudi中，hbase可以作为索引数据的存储，hudi默认使用的hbase版本为1.2.3。在hbase从1.x升级到2.x之后，其api发生了较大的变化，直接修改hud…

xiaozhch5
2021-11-12 • Hudi
060500
Hudi

Apache Hudi 0.9.0 版本发布

下载信息源码地址: Apache Hudi 源码版本相关jar包: here 版本迁移指南如果从旧版本进行迁移，还请检查下面每个后续版本的升级说明在0.9.0中，Hudi添…

xiaozhch5
2021-11-12
049200
Flink

使用flink插入数据到hudi数据湖初探

环境： hadoop 3.2.0 flink 1.11.4-bin-scala_2.11 hudi 0.8.0 本文基于上述组件版本使用flink插入数据到hudi数据湖中。为了确…

xiaozhch5
2021-11-12
21.3K00
使用spark3操作hudi数据湖初探

环境： hadoop 3.2.0 spark 3.0.3-bin-hadoop3.2 hudi 0.8.0 本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以…

xiaozhch5
2021-11-12 • Hudi
01.2K00
Hudi

Hudi内核分析之虚拟键（Virtual Keys）

总览 Apache Hudi根据不同的表类型、配置参数来帮助您构建和管理数据湖，以满足每个人的需要。Hudi添加了每个记录的元数据字段，如_hoodie_record_key， _…

xiaozhch5
2021-11-12
01.0K00
Hudi

hudi 异步clustering

在之前的一篇文章中，我们引入了一种新的名为clustering的表服务，它可以重组数据，从而在不影响写入速度的情况下提高查询性能。我们学习了如何设置inline clusteri…

xiaozhch5
2021-11-12
068200
hudi的索引机制以及使用场景
Apache Hudi 使用索引来定位更新/删除所属的文件组。对于 Copy-On-Write 表，通过避免需要连接整个数据集来确定要重写哪些文件，这可以实现快速的 upsert…

xiaozhch5
2021-11-12 • Hudi
089600
Hudi

Hudi Clustering特性

概览 Apache Hudi为大数据带来了流处理，在提供新鲜数据的同时，比传统批处理效率高一个数量级。在数据湖/数据仓库中，关键的权衡之一是输入速度和查询性能之间的权衡。数据摄取通…

xiaozhch5
2021-11-12
092800
Hudi

flink写入数据到hudi的四种方式

总览 bulk_insert 用于快速导入快照数据到hudi。基本特性 bulk_insert可以减少数据序列化以及合并操作，于此同时，该数据写入方式会跳过数据去重，所以用户需要…

xiaozhch5
2021-11-12
01.9K10
Hudi

使用Flink对hudi MOR表进行离线压缩

默认情况下，MERGE_ON_READ表的压缩是启用的。触发器策略是在完成五次提交后执行压缩。因为压缩会消耗大量内存，并且与写操作处于相同的管道中，所以当数据量很大(> …

xiaozhch5
2021-11-12
01.5K00
Hudi

hudi中的写操作

在本节中，我们将介绍如何使用DeltaStreamer工具从外部数据源甚至其他Hudi表中获取新的更改，以及如何使用Hudi数据源通过upserts加速大型Spark作业。然后可…

xiaozhch5
2021-11-12
01.1K00
Hudi

hudi 模式演化

模式演化是数据管理的一个非常重要的方面。 Hudi支持常见的模式演变场景，比如添加一个空字段或提升一个字段的数据类型，开箱即用。此外，该模式可以跨引擎查询，如Presto、Hiv…

xiaozhch5
2021-11-12
080400
Hudi

Hudi使用场景

近实时摄取 Hudi对各种数据的摄取都有很多的优点。能够帮助合并DFS上的最小文件。这有助于解决HDFS和云存储上的小文件问题，显著提高查询性能。Hudi增加了非常需要的原子提交新…

xiaozhch5
2021-11-12
049710
Hudi关键术语及其概述

Apache Hudi基于hadoop兼容存储提供如下流原型更新/删除记录修改流关键概念 Timeline（时间轴）在其核心，Hudi维护了在不同时刻对表执行的所有操作的时…

xiaozhch5
2021-11-11 • Hudi
066700
Hudi：Apache Hadoop上的增量处理框架

温馨提示本文部分翻译自2017.3.12 Uber Engineering发布文章《Hudi: Uber Engineering’s Incremental Processing …

xiaozhch5
2021-11-11 • Hudi
068300

4 / 4
上一页
1
2
3
4