hudi

Hudi

Apache hudi meetup at uber 2022.1.12配英文字幕

该视频为由Uber和Apache Hudi社区主办的虚拟Meetup。他们将以Apache Hudi 0.10.0版本的更新作为开场，随后来自优步、沃尔玛和迪士尼+ Hotstar…

xiaozhch5
2022-01-19
045400
Hudi

一文带你了解Lakehouse的并发控制：我们是否过于乐观？

1. 概述如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。但到目前为止，实际完成了什么？目前有哪些方法？它们在现实世界中的表现如何？这些问题是本博客的重点。有幸…

xiaozhch5
2022-01-17
046810
Hudi

字节跳动基于 HUDI 的实时数据湖平台介绍

耿筱喻-字节跳动大数据研发工程师 pdf下载：下载

xiaozhch5
2022-01-17
075530
Hudi

Apache HUDI在字节跳动推荐系统中的实践

管梓越，大数据开发工程师，现就职于字节跳动推荐架构部门。专注于hudi在机器学习场景下的开发与应用。支持抖音，今日头条等产品的机器学习场景下的架构工作。本次分享会涉及在搜索推荐…

xiaozhch5
2022-01-17
096800
用ranger对hive metastore 进行授权管理

hive standalone metastore 3.1.2可作为独立服务，作为spark、flink、presto等服务的元数据管理中心，然而在现有的hive授权方案中只有针对…

xiaozhch5
2022-01-11 • Hive
21.5K22
Hive

hive metastore配置kerberos认证

hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是…

xiaozhch5
2022-01-11
167610
Hudi

OnZoom基于Apache Hudi的流批一体架构实践

背景 OnZoom是Zoom新产品，是基于Zoom Meeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸，OnZoom是一个综合性解决方案，为付费的Zo…

xiaozhch5
2021-12-21
061900
基于Flink1.13.3与hudi 0.10.0-release构建准实时数仓

本文基于Flink SQL与hudi构建准实时数仓，在Flink从kafka接入数据之后，即将所有数据存于hudi中，包括所有中间处理数据以及最终数据。文章《实时数仓|基于Flin…

xiaozhch5
2021-12-11 • Flink
061700
hudi 0.10版本前瞻（2021/12/02）

hudi在2021/11/26对0.10版本代码进行了冻结，并且在官网发布了0.10版本前瞻，我们来一起看一下0.10给我们带来了什么cool features。

xiaozhch5
2021-12-02 • Hudi
136210
Hudi

hudi问题汇总

关于流读changelog问题我们知道hudi可以开启changelog模式，保留消息变更信息（I/+U/-U/D），但是我们在查询变更消息时，需要注意的是需要在sql-clie…

xiaozhch5
2021-11-22
042300
Uber如何构建经济高效的开源大数据平台

随着 Uber 业务的扩张，为其提供支持的基础数据池呈指数级增长，因此处理成本也越来越高。当大数据成为我们最大的运营支出之一时，我们开始了一项降低数据平台成本的举措，该计划将挑战…

xiaozhch5
2021-11-21 • 其他
028700
Hudi

深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案

目前市面上流行的三大开源数据湖方案分别为：Delta、Apache Iceberg 和 Apache Hudi。其中，由于 Apache Spark 在商业化上取得巨大成功，所以由…

xiaozhch5
2021-11-18
01.4K90
Hudi

hudi 0.10.0-SNAPSHOT适配hdp 3.1.5编译

新增hdp仓库在项目根目录下的pom文件中新增： <repository> <id>hdp</id> <url>https://r…

xiaozhch5
2021-11-15
091700
Hudi

使用hive查询从hudi同步的表需要注意的问题

设置 hive.input.format 在hive cli或者beeline执行查询任务时，需要做如下指定： set hive.input.format = org.apache…

xiaozhch5
2021-11-12
01.3K10
Apache Hudi 在 B 站构建实时数据湖的实践

温馨提示本文摘自阿里云社区，仅为整理分享.参考链接：https://developer.aliyun.com/article/789774?spm=a2c6h.13148508.0…

xiaozhch5
2021-11-12 • Hudi
066900
快手基于Apache Hudi的千亿级数据湖实践

温馨提示文章摘自：快手千亿级数据湖实践！ (qq.com)，来源于ApacheHudi ，作者靳国卫分享者为靳国卫，快手大数据研发专家，负责用户增长数据团队分为三部分介绍Hud…

xiaozhch5
2021-11-12 • Hudi
065530
Zeppelin结合Flink查询hudi数据

关于Zeppelin Zeppelin是基于 Web 的notebook，是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。…

xiaozhch5
2021-11-12 • Hudi
01.1K10
Hive

使用presto查询同步到hive的hudi数据

温馨提示要完成如下任务，请确保已经使用其他方法将hudi数据同步到hive中。如果没有同步hive数据，可参考文章：使用flink SQL Client将mysql数据写入到hud…

xiaozhch5
2021-11-12
063500
Flink

使用flink SQL Client将mysql数据写入到hudi并同步到hive

测试环境组件版本 mysql 5.7 hive 3.1.2 flink 1.12.2 hudi 0.9.0 hadoop 3.2.0 首先请确保以下组件正常启动： mysql h…

xiaozhch5
2021-11-12
42.3K60
Flink

Flink SQL Client实战CDC数据入湖

总览本文使用datafaker工具生成数据发送到MySQL，通过flink cdc工具将mysql binlog数据发送到kafka，最后再从kafka中读取数据并写入到hudi…

xiaozhch5
2021-11-12
51.4K32