Hudi

  • 使用spark3操作hudi数据湖初探

    环境: hadoop 3.2.0 spark 3.0.3-bin-hadoop3.2 hudi 0.8.0 本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以…

    2021-11-12 Hudi
    01.1K0
  • Hudi内核分析之虚拟键(Virtual Keys)

    总览 Apache Hudi根据不同的表类型、配置参数来帮助您构建和管理数据湖,以满足每个人的需要。Hudi添加了每个记录的元数据字段,如_hoodie_record_key, _…

    2021-11-12
    01.0K0
  • hudi 异步clustering

    在之前的一篇文章中,我们引入了一种新的名为clustering的表服务,它可以重组数据,从而在不影响写入速度的情况下提高查询性能。 我们学习了如何设置inline clusteri…

    2021-11-12
    06710
  • hudi的索引机制以及使用场景

    Apache Hudi 使用索引来定位更新/删除所属的文件组。 对于 Copy-On-Write 表,通过避免需要连接整个数据集来确定要重写哪些文件,这可以实现快速的 upsert…

    2021-11-12 Hudi
    08440
  • Hudi Clustering特性

    概览 Apache Hudi为大数据带来了流处理,在提供新鲜数据的同时,比传统批处理效率高一个数量级。在数据湖/数据仓库中,关键的权衡之一是输入速度和查询性能之间的权衡。数据摄取通…

    2021-11-12
    08840
  • flink写入数据到hudi的四种方式

    总览 bulk_insert 用于快速导入快照数据到hudi。 基本特性 bulk_insert可以减少数据序列化以及合并操作,于此同时,该数据写入方式会跳过数据去重,所以用户需要…

    2021-11-12
    01.8K0
  • 使用Flink对hudi MOR表进行离线压缩

    默认情况下,MERGE_ON_READ表的压缩是启用的。 触发器策略是在完成五次提交后执行压缩。 因为压缩会消耗大量内存,并且与写操作处于相同的管道中,所以当数据量很大(> …

    2021-11-12
    01.4K0
  • hudi中的写操作

    在本节中,我们将介绍如何使用DeltaStreamer工具从外部数据源甚至其他Hudi表中获取新的更改,以及如何使用Hudi数据源通过upserts加速大型Spark作业。 然后可…

    2021-11-12
    01.1K0
  • hudi 模式演化

    模式演化是数据管理的一个非常重要的方面。 Hudi支持常见的模式演变场景,比如添加一个空字段或提升一个字段的数据类型,开箱即用。 此外,该模式可以跨引擎查询,如Presto、Hiv…

    2021-11-12
    07290
  • Hudi使用场景

    近实时摄取 Hudi对各种数据的摄取都有很多的优点。能够帮助合并DFS上的最小文件。这有助于解决HDFS和云存储上的小文件问题,显著提高查询性能。Hudi增加了非常需要的原子提交新…

    2021-11-12
    04820
  • Hudi关键术语及其概述

    Apache Hudi基于hadoop兼容存储提供如下流原型 更新/删除记录 修改流 关键概念 Timeline(时间轴) 在其核心,Hudi维护了在不同时刻对表执行的所有操作的时…

    2021-11-11 Hudi
    06480
  • Hudi:Apache Hadoop上的增量处理框架

    温馨提示本文部分翻译自2017.3.12 Uber Engineering发布文章《Hudi: Uber Engineering’s Incremental Processing …

    2021-11-11 Hudi
    06580