hudi
-
Apache hudi meetup at uber 2022.1.12配英文字幕
该视频为由Uber和Apache Hudi社区主办的虚拟Meetup。他们将以Apache Hudi 0.10.0版本的更新作为开场,随后来自优步、沃尔玛和迪士尼+ Hotstar…
-
一文带你了解Lakehouse的并发控制:我们是否过于乐观?
1. 概述 如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。但到目前为止,实际完成了什么?目前有哪些方法?它们在现实世界中的表现如何?这些问题是本博客的重点。 有幸…
-
字节跳动基于 HUDI 的实时数据湖平台介绍
耿筱喻-字节跳动大数据研发工程师 pdf下载:下载
-
Apache HUDI在字节跳动推荐系统中的实践
管梓越,大数据开发工程师, 现就职于字节跳动推荐架构部门。专注于hudi在机器学习场景下的开发与应用。支持抖音,今日头条等产品的机器学习场景下的架构工作。 本次分享会涉及在搜索推荐…
-
用ranger对hive metastore 进行授权管理
hive standalone metastore 3.1.2可作为独立服务,作为spark、flink、presto等服务的元数据管理中心,然而在现有的hive授权方案中只有针对…
-
hive metastore配置kerberos认证
hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是…
-
OnZoom基于Apache Hudi的流批一体架构实践
背景 OnZoom是Zoom新产品,是基于Zoom Meeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸,OnZoom是一个综合性解决方案,为付费的Zo…
-
基于Flink1.13.3与hudi 0.10.0-release构建准实时数仓
本文基于Flink SQL与hudi构建准实时数仓,在Flink从kafka接入数据之后,即将所有数据存于hudi中,包括所有中间处理数据以及最终数据。文章《实时数仓|基于Flin…
-
hudi 0.10版本前瞻(2021/12/02)
hudi在2021/11/26对0.10版本代码进行了冻结,并且在官网发布了0.10版本前瞻,我们来一起看一下0.10给我们带来了什么cool features。
-
hudi问题汇总
关于流读changelog问题 我们知道hudi可以开启changelog模式,保留消息变更信息(I/+U/-U/D),但是我们在查询变更消息时,需要注意的是需要在sql-clie…
-
Uber如何构建经济高效的开源大数据平台
随着 Uber 业务的扩张,为其提供支持的基础数据池呈指数级增长,因此处理成本也越来越高。 当大数据成为我们最大的运营支出之一时,我们开始了一项降低数据平台成本的举措,该计划将挑战…
-
深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案
目前市面上流行的三大开源数据湖方案分别为:Delta、Apache Iceberg 和 Apache Hudi。其中,由于 Apache Spark 在商业化上取得巨大成功,所以由…
-
hudi 0.10.0-SNAPSHOT适配hdp 3.1.5编译
新增hdp仓库 在项目根目录下的pom文件中新增: <repository> <id>hdp</id> <url>https://r…
-
使用hive查询从hudi同步的表需要注意的问题
设置 hive.input.format 在hive cli或者beeline执行查询任务时,需要做如下指定: set hive.input.format = org.apache…
-
Apache Hudi 在 B 站构建实时数据湖的实践
温馨提示本文摘自阿里云社区,仅为整理分享.参考链接:https://developer.aliyun.com/article/789774?spm=a2c6h.13148508.0…
-
快手基于Apache Hudi的千亿级数据湖实践
温馨提示文章摘自:快手千亿级数据湖实践! (qq.com),来源于ApacheHudi ,作者靳国卫 分享者为靳国卫,快手大数据研发专家,负责用户增长数据团队 分为三部分介绍Hud…
-
Zeppelin结合Flink查询hudi数据
关于Zeppelin Zeppelin是基于 Web 的notebook,是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。…
-
使用presto查询同步到hive的hudi数据
温馨提示要完成如下任务,请确保已经使用其他方法将hudi数据同步到hive中。如果没有同步hive数据,可参考文章:使用flink SQL Client将mysql数据写入到hud…
-
使用flink SQL Client将mysql数据写入到hudi并同步到hive
测试环境 组件版本 mysql 5.7 hive 3.1.2 flink 1.12.2 hudi 0.9.0 hadoop 3.2.0 首先请确保以下组件正常启动: mysql h…
-
Flink SQL Client实战CDC数据入湖
总览 本文使用datafaker工具生成数据发送到MySQL,通过flink cdc工具将mysql binlog数据发送到kafka,最后再从kafka中读取数据并写入到hudi…