-
加速LakeHouse ACID Upsert的新写时复制方案
概述 随着存储表格式 Apache Hudi、Apache Iceberg 和 Delta Lake 的发展,越来越多的公司正在这些格式的基础上构建其 Lakehouse,以用于许…
-
flink datastream api实现数据实时写入hudi
Apache Hudi(发音为“hoodie”)是下一代流数据湖平台。 Apache Hudi 将核心仓库和数据库功能直接引入数据湖。 Hudi 提供表、事务、高效的更新插入/删除…
-
得物供应链复杂业务实时数仓建设之路
01 背景 得物供应链业务是纷繁复杂的,我们既有JIT的现货模式中间夹着这大量的仓库作业环节,又有到仓的寄售,品牌业务,有非常复杂的逆向链路。在这么复杂的业务背后,我们需要精细化关…
-
T3 出行基于 Hudi+Kyuubi 的现代技术栈探索
导读 过去的几年里,随着大数据的进一步发展,现代数据栈的生态愈加丰富完善,而数据湖在这期间几乎已成为现代数据栈的必备品,它的出现大大简化了用户管理数据的难度,让用户更加关心于数据本…
-
apache hudi 0.13.0版本重磅发布
Apache Hudi 0.13.0引入了一系列新特性,包括Metaserver, Change Data Capture, new Record Merge API, new s…
-
实时数仓架构在流利说的实践
本文目录 背景 实时数仓可以为我们带来什么 技术方案选型 数据存储方案选型 Flink 开发平台选型 维表存储方案选型 Connector 开发 实时数仓整体架构 数据开发案例 数…
-
Apache Hudi 0.12.2发布
长期支持版本 我们的目标是维护 0.12 更长时间,并通过最新的 0.12.x 版本提供稳定版本供用户迁移。 此版本 (0.12.2) 是最新的 0.12 版本。 迁移指南 此版本…
-
Flink写hudi报datanode异常以及解决办法
问题描述 这几天在使用tpcds数据对hudi 0.12.0写入性能进行压测,发现在数据写入半小时后,即出现异常,并且程序不断重启,任务异常日志如下: 2023-01-06 18:…
-
Hudi在兴盛优选数据湖应用中的实践
1.背景 ◆1.1 业务背景 Hudi作为主流的数据湖产品之一,解决了Hive无法更新的场景,由于支持ACID事务能力,所以也就能够很好的支撑实时读写,这在架构上就为流批一体提供了…
-
基于Flink+Hudi在兴盛优选营销域实时数仓的实践
1.前言 什么是流处理?引用Streaming101[1]里面的一句话:一种数据处理引擎,设计时考虑了无限数据集。(为了完整性,这个定义包括真正的流式传输系统(Apache Fli…
-
数据湖技术在抖音近实时场景的实践
本文为字节跳动基于数据湖技术的近实时场景实践,主要包括以下几部分内容:数据湖技术的特性、近实时技术的架构、电商数仓实践、未来的挑战与规划。 文 | 汶园 来自字节跳动数据平台数据B…
-
StarRocks 支持 Apache Hudi实践
近年来,随着大数据分析技术的进步,大量业务场景对数据仓库的实时性提出了更高的要求,Lakehouse 架构逐渐被各大公司熟悉和接受,Apache Hudi(以下简称 Hudi)、A…
-
解决spark sql读取hudi表出现偶然读不出来数据问题
相关版本 hadoop 3.2.0 spark 3.3.0 hudi 0.12.0 问题分析 用beeline连接spark thriftserver或者kyuubi(spark …
-
字节跳动基于Apache Doris + Hudi的湖仓分析探索实践
分享嘉宾:杜军令 字节跳动 大数据工程师 出品平台:DataFunTalk 导读:Doris是一种MPP架构的分析型数据库,主要面向多维分析、数据报表、用户画像分析等场景。自带分析…
-
解决hudi hms catalog中flink建表,spark无法写入问题
问题描述 在hudi 0.12.0版本,flink和spark都可以基于hive metastore进行元数据管理,更多信息可参考:hudi HMS Catalog指南。也就是说基…
-
基于Apache Hudi + MinIO 构建流式数据湖
Apache Hudi 是一个流式数据湖平台,将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式,…
-
华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践
背景 湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向。 华为云早在2020年就开始着手相关技术的预研,并落…
-
k8s 写入hudi表快速测试指南
x## ubuntu安装nfs服务 sudo apt-get install nfs-kernel-server sudo vim /etc/exports /data1/nfs/…
-
字节跳动基于 Apache Hudi 构建实时数仓的实践
分享嘉宾:张友军 字节跳动 编辑整理:王宇翔 出品平台:DataFunTalk 导读:今天很高兴能与大家分享字节数据平台在实时数仓中的一些实践。目前在数据湖和Hudi相关的一些基本…
-
万字长文:基于Apache Hudi + Flink多流拼接(大宽表)最佳实践
1. 背景 经典场景 Flink 侧实现 业务侧通常会基于实时计算引擎在流上做多个数据源的 JOIN 产出这个宽表,但这种解决方案在实践中面临较多挑战,主要可分为以下两种情况: 1…