Hudi
-
Apache HUDI在字节跳动推荐系统中的实践
管梓越,大数据开发工程师, 现就职于字节跳动推荐架构部门。专注于hudi在机器学习场景下的开发与应用。支持抖音,今日头条等产品的机器学习场景下的架构工作。 本次分享会涉及在搜索推荐…
-
用ranger对hive metastore 进行授权管理
hive standalone metastore 3.1.2可作为独立服务,作为spark、flink、presto等服务的元数据管理中心,然而在现有的hive授权方案中只有针对…
-
hive metastore配置kerberos认证
hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是…
-
OnZoom基于Apache Hudi的流批一体架构实践
背景 OnZoom是Zoom新产品,是基于Zoom Meeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸,OnZoom是一个综合性解决方案,为付费的Zo…
-
基于Flink1.13.3与hudi 0.10.0-release构建准实时数仓
本文基于Flink SQL与hudi构建准实时数仓,在Flink从kafka接入数据之后,即将所有数据存于hudi中,包括所有中间处理数据以及最终数据。文章《实时数仓|基于Flin…
-
hudi 0.10版本前瞻(2021/12/02)
hudi在2021/11/26对0.10版本代码进行了冻结,并且在官网发布了0.10版本前瞻,我们来一起看一下0.10给我们带来了什么cool features。
-
hudi问题汇总
关于流读changelog问题 我们知道hudi可以开启changelog模式,保留消息变更信息(I/+U/-U/D),但是我们在查询变更消息时,需要注意的是需要在sql-clie…
-
深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案
目前市面上流行的三大开源数据湖方案分别为:Delta、Apache Iceberg 和 Apache Hudi。其中,由于 Apache Spark 在商业化上取得巨大成功,所以由…
-
hudi 0.10.0-SNAPSHOT适配hdp 3.1.5编译
新增hdp仓库 在项目根目录下的pom文件中新增: <repository> <id>hdp</id> <url>https://r…
-
使用hive查询从hudi同步的表需要注意的问题
设置 hive.input.format 在hive cli或者beeline执行查询任务时,需要做如下指定: set hive.input.format = org.apache…
-
Apache Hudi 在 B 站构建实时数据湖的实践
温馨提示本文摘自阿里云社区,仅为整理分享.参考链接:https://developer.aliyun.com/article/789774?spm=a2c6h.13148508.0…
-
快手基于Apache Hudi的千亿级数据湖实践
温馨提示文章摘自:快手千亿级数据湖实践! (qq.com),来源于ApacheHudi ,作者靳国卫 分享者为靳国卫,快手大数据研发专家,负责用户增长数据团队 分为三部分介绍Hud…
-
Zeppelin结合Flink查询hudi数据
关于Zeppelin Zeppelin是基于 Web 的notebook,是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。…
-
使用prometheus监控hudi相关指标
前提 首先请安装好prometheus、pushgateway以及grafana,如果还没安装请参考: Prometheus与pushGateway安装与使用 Grafana安装指…
-
使用flink SQL Client将mysql数据写入到hudi并同步到hive
测试环境 组件版本 mysql 5.7 hive 3.1.2 flink 1.12.2 hudi 0.9.0 hadoop 3.2.0 首先请确保以下组件正常启动: mysql h…
-
Flink SQL Client实战CDC数据入湖
总览 本文使用datafaker工具生成数据发送到MySQL,通过flink cdc工具将mysql binlog数据发送到kafka,最后再从kafka中读取数据并写入到hudi…
-
spark-shell操作hudi并使用hbase作为索引
前言 接上一篇文章,上篇文章说到hudi适配hbase 2.2.6,这篇文章在spark-shell中操作hudi,并使用hbase作为索引。要完成以下实验,请先确保你已经按照文章…
-
hudi 0.9.0适配hbase 2.2.6
总览 在hudi中,hbase可以作为索引数据的存储,hudi默认使用的hbase版本为1.2.3。 在hbase从1.x升级到2.x之后,其api发生了较大的变化,直接修改hud…
-
Apache Hudi 0.9.0 版本发布
下载信息 源码地址: Apache Hudi 源码 版本相关jar包: here 版本迁移指南 如果从旧版本进行迁移,还请检查下面每个后续版本的升级说明 在0.9.0中,Hudi添…
-
使用flink插入数据到hudi数据湖初探
环境: hadoop 3.2.0 flink 1.11.4-bin-scala_2.11 hudi 0.8.0 本文基于上述组件版本使用flink插入数据到hudi数据湖中。为了确…