hudi

Hudi

基于Flink+Hudi在兴盛优选营销域实时数仓的实践

1.前言什么是流处理？引用Streaming101[1]里面的一句话:一种数据处理引擎，设计时考虑了无限数据集。（为了完整性，这个定义包括真正的流式传输系统(Apache Fli…

xiaozhch5
2022-12-16
043400
Hudi

解决spark sql读取hudi表出现偶然读不出来数据问题

相关版本 hadoop 3.2.0 spark 3.3.0 hudi 0.12.0 问题分析用beeline连接spark thriftserver或者kyuubi（spark …

xiaozhch5
2022-10-25
022300
Hudi

字节跳动基于Apache Doris + Hudi的湖仓分析探索实践

分享嘉宾：杜军令字节跳动大数据工程师出品平台：DataFunTalk 导读：Doris是一种MPP架构的分析型数据库，主要面向多维分析、数据报表、用户画像分析等场景。自带分析…

xiaozhch5
2022-10-19
045700
Hudi

华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践

背景湖仓一体（LakeHouse）是一种新的开放式架构，它结合了数据湖和数据仓库的最佳元素，是当下大数据领域的重要发展方向。华为云早在2020年就开始着手相关技术的预研，并落…

xiaozhch5
2022-10-10
023300
Hudi

k8s 写入hudi表快速测试指南

x## ubuntu安装nfs服务 sudo apt-get install nfs-kernel-server sudo vim /etc/exports /data1/nfs/…

xiaozhch5
2022-09-30
069200
Hudi

字节跳动基于 Apache Hudi 构建实时数仓的实践

分享嘉宾：张友军字节跳动编辑整理：王宇翔出品平台：DataFunTalk 导读：今天很高兴能与大家分享字节数据平台在实时数仓中的一些实践。目前在数据湖和Hudi相关的一些基本…

bajiebajie2333
2022-09-27
021900
Hudi

万字长文：基于Apache Hudi + Flink多流拼接(大宽表)最佳实践

1. 背景经典场景 Flink 侧实现业务侧通常会基于实时计算引擎在流上做多个数据源的 JOIN 产出这个宽表，但这种解决方案在实践中面临较多挑战，主要可分为以下两种情况： 1…

bajiebajie2333
2022-09-27
072100
Hudi

基于 Hudi 的湖仓一体技术在 Shopee 的实践

目录1. Shopee 数据系统建设中面临的典型问题2. 为什么选择 Hudi3. Shopee 在 Hudi 落地过程中的实践4. 社区贡献5. 总结与展望湖仓一体（LakeH…

xiaozhch5
2022-09-05
034400
Hudi

Apache Hudi 0.12.0版本重磅发布！

Presto-Hudi 连接器从 PrestoDB 0.275 版本开始，用户现在可以利用原生 Hudi 连接器来查询 Hudi 表。它与 Hive 连接器中的 Hudi 支持相…

xiaozhch5
2022-08-23
061400
Hudi

特性大PK？Hudi vs Delta Lake vs Iceberg

简介随着 Lakehouse 的日益普及，人们对分析和比较作为该数据架构核心的开源项目的兴趣日益浓厚：Apache Hudi、Delta Lake 和 Apache Iceber…

xiaozhch5
2022-08-22
040800
Flink

Flink 自定义SQL实现Hudi MOR表压缩

Hudi在构建流式数据湖方面具有领先地位。Flink作为真正的流处理引擎，与Hudi搭配是理所应当的事情了。但是目前Hudi MOR表压缩功能除了在线压缩以外，并不能通过SQL实现…

xiaozhch5
2022-08-10
054760
Hudi

基于Apache Hudi的多库多表实时入湖最佳实践

1. 前言 CDC(Change Data Capture)从广义上讲所有能够捕获变更数据的技术都可以称为CDC，但本篇文章中对CDC的定义限定为以非侵入的方式实时捕获数据库的变更…

jellyfin
2022-08-01
075900
Hudi

基于Apache Hudi 和 Microsoft Azure构建Lakehouse指南

Apache Hudi 是一种流行的开源 Lakehouse 技术，在大数据社区中迅速发展。如果您在 AWS 上构建了数据湖和数据工程平台，您可能已经听说过或使用过 Apache …

bajiebajie2333
2022-07-25
021700
Hudi

hudi HMS Catalog尝鲜指南

hudi支持HMS catalog啦！功能亮点：当flink和spark同时接入hive metastore时，用hive metastore对hudi的元数据进行管理，无论是使…

xiaozhch5
2022-07-04
61.6K20
Flink

Flink CDC + Hudi 海量数据入湖在顺丰的实践

摘要：本文整理自顺丰大数据研发工程师覃立辉在 5月 21 日 Flink CDC Meetup 的演讲。主要内容包括：顺丰数据集成背景 Flink CDC 实践问题与优化未来规…

maolv, xiao
2022-06-26
031400
Hudi

hudi时间旅行查询完整版

本文从头开始讲述使用Flink引擎实现hudi数据湖基于commit_time的查询语义。基本使用可参考前面文章hudi时间旅行查询基本要求：有一台机器部署docker用于安装…

xiaozhch5
2022-06-22
053810
Hudi

hudi时间旅行查询

hudi每次数据写入时都会生成一个时间戳，用于表示数据写入的时间，基于该特性，在进行数据查询时可使用该时间对hudi中数据进行查询。使用flink引擎查询时可指定如下参数 &#8…

xiaozhch5
2022-06-20
11.3K10
Hudi

hudi表流式regular inner join关联写入宽表实践

基本环境 mysql 5.7 hadoop 3.2.2 flink 1.14.4 hudi 0.11.0 flink-cdc-mysql 2.2 操作步骤使用flink cdc将…

xiaozhch5
2022-06-16
035250
Hudi

干货 | 实时数据湖在字节跳动的实践

文 | 诗旻来自字节跳动数据平台数据湖团队对实时数据湖的解读数据湖的概念是比较宽泛的，不同的人可能有着不同的解读。这个名词诞生以来，在不同的阶段被赋予了不同的含义。数据湖…

xiaozhch5
2022-06-15
030700
Hudi

B站增量数据湖探索与实践

本期作者周晖栋哔哩哔哩资深开发工程师目前主要负责B站实时团队增量数仓、Hudi数据湖方向。黄靖哔哩哔哩资深开发工程师专注于实时计算相关大数据技术，目前负责Hudi数据湖…

xiaozhch5
2022-06-10
046800

1 / 4
1
2
3
4
下一页