hudi
-
基于Flink+Hudi在兴盛优选营销域实时数仓的实践
1.前言 什么是流处理?引用Streaming101[1]里面的一句话:一种数据处理引擎,设计时考虑了无限数据集。(为了完整性,这个定义包括真正的流式传输系统(Apache Fli…
-
解决spark sql读取hudi表出现偶然读不出来数据问题
相关版本 hadoop 3.2.0 spark 3.3.0 hudi 0.12.0 问题分析 用beeline连接spark thriftserver或者kyuubi(spark …
-
字节跳动基于Apache Doris + Hudi的湖仓分析探索实践
分享嘉宾:杜军令 字节跳动 大数据工程师 出品平台:DataFunTalk 导读:Doris是一种MPP架构的分析型数据库,主要面向多维分析、数据报表、用户画像分析等场景。自带分析…
-
华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践
背景 湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向。 华为云早在2020年就开始着手相关技术的预研,并落…
-
k8s 写入hudi表快速测试指南
x## ubuntu安装nfs服务 sudo apt-get install nfs-kernel-server sudo vim /etc/exports /data1/nfs/…
-
字节跳动基于 Apache Hudi 构建实时数仓的实践
分享嘉宾:张友军 字节跳动 编辑整理:王宇翔 出品平台:DataFunTalk 导读:今天很高兴能与大家分享字节数据平台在实时数仓中的一些实践。目前在数据湖和Hudi相关的一些基本…
-
万字长文:基于Apache Hudi + Flink多流拼接(大宽表)最佳实践
1. 背景 经典场景 Flink 侧实现 业务侧通常会基于实时计算引擎在流上做多个数据源的 JOIN 产出这个宽表,但这种解决方案在实践中面临较多挑战,主要可分为以下两种情况: 1…
-
基于 Hudi 的湖仓一体技术在 Shopee 的实践
目录1. Shopee 数据系统建设中面临的典型问题2. 为什么选择 Hudi3. Shopee 在 Hudi 落地过程中的实践4. 社区贡献5. 总结与展望 湖仓一体(LakeH…
-
Apache Hudi 0.12.0版本重磅发布!
Presto-Hudi 连接器 从 PrestoDB 0.275 版本开始,用户现在可以利用原生 Hudi 连接器来查询 Hudi 表。它与 Hive 连接器中的 Hudi 支持相…
-
特性大PK?Hudi vs Delta Lake vs Iceberg
简介 随着 Lakehouse 的日益普及,人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚:Apache Hudi、Delta Lake 和 Apache Iceber…
-
Flink 自定义SQL实现Hudi MOR表压缩
Hudi在构建流式数据湖方面具有领先地位。Flink作为真正的流处理引擎,与Hudi搭配是理所应当的事情了。但是目前Hudi MOR表压缩功能除了在线压缩以外,并不能通过SQL实现…
-
基于Apache Hudi的多库多表实时入湖最佳实践
1. 前言 CDC(Change Data Capture)从广义上讲所有能够捕获变更数据的技术都可以称为CDC,但本篇文章中对CDC的定义限定为以非侵入的方式实时捕获数据库的变更…
-
基于Apache Hudi 和 Microsoft Azure构建Lakehouse指南
Apache Hudi 是一种流行的开源 Lakehouse 技术,在大数据社区中迅速发展。如果您在 AWS 上构建了数据湖和数据工程平台,您可能已经听说过或使用过 Apache …
-
hudi HMS Catalog尝鲜指南
hudi支持HMS catalog啦! 功能亮点:当flink和spark同时接入hive metastore时,用hive metastore对hudi的元数据进行管理,无论是使…
-
Flink CDC + Hudi 海量数据入湖在顺丰的实践
摘要:本文整理自顺丰大数据研发工程师覃立辉在 5月 21 日 Flink CDC Meetup 的演讲。主要内容包括: 顺丰数据集成背景 Flink CDC 实践问题与优化 未来规…
-
hudi时间旅行查询完整版
本文从头开始讲述使用Flink引擎实现hudi数据湖基于commit_time的查询语义。基本使用可参考前面文章hudi时间旅行查询 基本要求: 有一台机器部署docker用于安装…
-
hudi时间旅行查询
hudi每次数据写入时都会生成一个时间戳,用于表示数据写入的时间,基于该特性,在进行数据查询时可使用该时间对hudi中数据进行查询。 使用flink引擎查询时可指定如下参数 …
-
hudi表流式regular inner join关联写入宽表实践
基本环境 mysql 5.7 hadoop 3.2.2 flink 1.14.4 hudi 0.11.0 flink-cdc-mysql 2.2 操作步骤 使用flink cdc将…
-
干货 | 实时数据湖在字节跳动的实践
文 | 诗旻 来自字节跳动数据平台数据湖团队 对实时数据湖的解读 数据湖的概念是比较宽泛的,不同的人可能有着不同的解读。这个名词诞生以来,在不同的阶段被赋予了不同的含义。 数据湖…
-
B站增量数据湖探索与实践
本期作者 周晖栋 哔哩哔哩资深开发工程师 目前主要负责B站实时团队增量数仓、Hudi数据湖方向。 黄靖 哔哩哔哩资深开发工程师 专注于实时计算相关大数据技术,目前负责Hudi数据湖…