hudi 归档 - 从大数据到人工智能

Hudi

加速LakeHouse ACID Upsert的新写时复制方案

概述随着存储表格式 Apache Hudi、Apache Iceberg 和 Delta Lake 的发展，越来越多的公司正在这些格式的基础上构建其 Lakehouse，以用于许…

xiaozhch5

2023-07-15

020000

Hudi

flink datastream api实现数据实时写入hudi

Apache Hudi（发音为“hoodie”）是下一代流数据湖平台。 Apache Hudi 将核心仓库和数据库功能直接引入数据湖。 Hudi 提供表、事务、高效的更新插入/删除…

xiaozhch5

2023-06-21

045400

后端

得物供应链复杂业务实时数仓建设之路

01 背景得物供应链业务是纷繁复杂的，我们既有JIT的现货模式中间夹着这大量的仓库作业环节，又有到仓的寄售，品牌业务，有非常复杂的逆向链路。在这么复杂的业务背后，我们需要精细化关…

bajiebajie2333

2023-03-06

019600

Hudi

T3 出行基于 Hudi+Kyuubi 的现代技术栈探索

导读过去的几年里，随着大数据的进一步发展，现代数据栈的生态愈加丰富完善，而数据湖在这期间几乎已成为现代数据栈的必备品，它的出现大大简化了用户管理数据的难度，让用户更加关心于数据本…

bajiebajie2333

2023-03-03

037700

Hudi

apache hudi 0.13.0版本重磅发布

Apache Hudi 0.13.0引入了一系列新特性，包括Metaserver, Change Data Capture, new Record Merge API, new s…

xiaozhch5

2023-03-02

036500

Hudi

实时数仓架构在流利说的实践

本文目录背景实时数仓可以为我们带来什么技术方案选型数据存储方案选型 Flink 开发平台选型维表存储方案选型 Connector 开发实时数仓整体架构数据开发案例数…

xiaozhch5

2023-01-30

052000

Hudi

Apache Hudi 0.12.2发布

长期支持版本我们的目标是维护 0.12 更长时间，并通过最新的 0.12.x 版本提供稳定版本供用户迁移。此版本 (0.12.2) 是最新的 0.12 版本。迁移指南此版本…

xiaozhch5

2023-01-11

033800

Hudi

Flink写hudi报datanode异常以及解决办法

问题描述这几天在使用tpcds数据对hudi 0.12.0写入性能进行压测，发现在数据写入半小时后，即出现异常，并且程序不断重启，任务异常日志如下： 2023-01-06 18:…

xiaozhch5

2023-01-07

045100

Hudi

Hudi在兴盛优选数据湖应用中的实践

1.背景 ◆1.1 业务背景 Hudi作为主流的数据湖产品之一，解决了Hive无法更新的场景，由于支持ACID事务能力，所以也就能够很好的支撑实时读写，这在架构上就为流批一体提供了…

bajiebajie2333

2023-01-01

040210

Hudi

基于Flink+Hudi在兴盛优选营销域实时数仓的实践

1.前言什么是流处理？引用Streaming101[1]里面的一句话:一种数据处理引擎，设计时考虑了无限数据集。（为了完整性，这个定义包括真正的流式传输系统(Apache Fli…

xiaozhch5

2022-12-16

058800

Hudi

数据湖技术在抖音近实时场景的实践

本文为字节跳动基于数据湖技术的近实时场景实践，主要包括以下几部分内容：数据湖技术的特性、近实时技术的架构、电商数仓实践、未来的挑战与规划。文 | 汶园来自字节跳动数据平台数据B…

xiaozhch5

2022-11-24

018700

后端

StarRocks 支持 Apache Hudi实践

近年来，随着大数据分析技术的进步，大量业务场景对数据仓库的实时性提出了更高的要求，Lakehouse 架构逐渐被各大公司熟悉和接受，Apache Hudi（以下简称 Hudi）、A…

xiaozhch5

2022-11-14

030700

Hudi

解决spark sql读取hudi表出现偶然读不出来数据问题

相关版本 hadoop 3.2.0 spark 3.3.0 hudi 0.12.0 问题分析用beeline连接spark thriftserver或者kyuubi（spark …

xiaozhch5

2022-10-25

026900

Hudi

字节跳动基于Apache Doris + Hudi的湖仓分析探索实践

分享嘉宾：杜军令字节跳动大数据工程师出品平台：DataFunTalk 导读：Doris是一种MPP架构的分析型数据库，主要面向多维分析、数据报表、用户画像分析等场景。自带分析…

xiaozhch5

2022-10-19

062800

Hudi

解决hudi hms catalog中flink建表，spark无法写入问题

问题描述在hudi 0.12.0版本，flink和spark都可以基于hive metastore进行元数据管理，更多信息可参考：hudi HMS Catalog指南。也就是说基…

xiaozhch5

2022-10-17

056920

Hudi

基于Apache Hudi + MinIO 构建流式数据湖

Apache Hudi 是一个流式数据湖平台，将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式，…

xiaozhch5

2022-10-10

053300

Hudi

华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践

背景湖仓一体（LakeHouse）是一种新的开放式架构，它结合了数据湖和数据仓库的最佳元素，是当下大数据领域的重要发展方向。华为云早在2020年就开始着手相关技术的预研，并落…

xiaozhch5

2022-10-10

029400

Hudi

k8s 写入hudi表快速测试指南

x## ubuntu安装nfs服务 sudo apt-get install nfs-kernel-server sudo vim /etc/exports /data1/nfs/…

xiaozhch5

2022-09-30

084300

Hudi

字节跳动基于 Apache Hudi 构建实时数仓的实践

分享嘉宾：张友军字节跳动编辑整理：王宇翔出品平台：DataFunTalk 导读：今天很高兴能与大家分享字节数据平台在实时数仓中的一些实践。目前在数据湖和Hudi相关的一些基本…

bajiebajie2333

2022-09-27

025400

Hudi

万字长文：基于Apache Hudi + Flink多流拼接(大宽表)最佳实践

1. 背景经典场景 Flink 侧实现业务侧通常会基于实时计算引擎在流上做多个数据源的 JOIN 产出这个宽表，但这种解决方案在实践中面临较多挑战，主要可分为以下两种情况： 1…

bajiebajie2333

2022-09-27

093100