hudi 归档 - 第4页共5页 - 从大数据到人工智能

Hudi

Apache hudi meetup at uber 2022.1.12配英文字幕

该视频为由Uber和Apache Hudi社区主办的虚拟Meetup。他们将以Apache Hudi 0.10.0版本的更新作为开场，随后来自优步、沃尔玛和迪士尼+ Hotstar…

xiaozhch5
2022-01-19
045200
Hudi

一文带你了解Lakehouse的并发控制：我们是否过于乐观？

1. 概述如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。但到目前为止，实际完成了什么？目前有哪些方法？它们在现实世界中的表现如何？这些问题是本博客的重点。有幸…

xiaozhch5
2022-01-17
046410
Hudi

字节跳动基于 HUDI 的实时数据湖平台介绍

耿筱喻-字节跳动大数据研发工程师 pdf下载：下载

xiaozhch5
2022-01-17
075130
Hudi

Apache HUDI在字节跳动推荐系统中的实践

管梓越，大数据开发工程师，现就职于字节跳动推荐架构部门。专注于hudi在机器学习场景下的开发与应用。支持抖音，今日头条等产品的机器学习场景下的架构工作。本次分享会涉及在搜索推荐…

xiaozhch5
2022-01-17
095300
用ranger对hive metastore 进行授权管理

hive standalone metastore 3.1.2可作为独立服务，作为spark、flink、presto等服务的元数据管理中心，然而在现有的hive授权方案中只有针对…

xiaozhch5
2022-01-11 • Hive
21.5K22
Hive

hive metastore配置kerberos认证

hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是…

xiaozhch5
2022-01-11
166810
Hive

spark SQL配置连接Hive Metastore 3.1.2

Hive Metastore作为元数据管理中心，支持多种计算引擎的读取操作，例如Flink、Presto、Spark等。本文讲述通过spark SQL配置连接Hive Metast…

xiaozhch5
2022-01-09
077310
Hudi

OnZoom基于Apache Hudi的流批一体架构实践

背景 OnZoom是Zoom新产品，是基于Zoom Meeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸，OnZoom是一个综合性解决方案，为付费的Zo…

xiaozhch5
2021-12-21
061900
基于Flink1.13.3与hudi 0.10.0-release构建准实时数仓

本文基于Flink SQL与hudi构建准实时数仓，在Flink从kafka接入数据之后，即将所有数据存于hudi中，包括所有中间处理数据以及最终数据。文章《实时数仓|基于Flin…

xiaozhch5
2021-12-11 • Flink
061700
hudi 0.10版本前瞻（2021/12/02）

hudi在2021/11/26对0.10版本代码进行了冻结，并且在官网发布了0.10版本前瞻，我们来一起看一下0.10给我们带来了什么cool features。

xiaozhch5
2021-12-02 • Hudi
136110
Hudi

hudi 0.10.0-SNAPSHOT适配hdp 3.1.5编译

新增hdp仓库在项目根目录下的pom文件中新增： <repository> <id>hdp</id> <url>https://r…

xiaozhch5
2021-11-15
087400
Hudi

使用hive查询从hudi同步的表需要注意的问题

设置 hive.input.format 在hive cli或者beeline执行查询任务时，需要做如下指定： set hive.input.format = org.apache…

xiaozhch5
2021-11-12
01.2K10
Apache Hudi 在 B 站构建实时数据湖的实践

温馨提示本文摘自阿里云社区，仅为整理分享.参考链接：https://developer.aliyun.com/article/789774?spm=a2c6h.13148508.0…

xiaozhch5
2021-11-12 • Hudi
066600
快手基于Apache Hudi的千亿级数据湖实践

温馨提示文章摘自：快手千亿级数据湖实践！ (qq.com)，来源于ApacheHudi ，作者靳国卫分享者为靳国卫，快手大数据研发专家，负责用户增长数据团队分为三部分介绍Hud…

xiaozhch5
2021-11-12 • Hudi
065330
Zeppelin结合Flink查询hudi数据

关于Zeppelin Zeppelin是基于 Web 的notebook，是支持使用 SQL、Scala、Python、R 等进行数据驱动的交互式数据分析和协作的Notebook。…

xiaozhch5
2021-11-12 • Hudi
01.1K10
Hudi

使用prometheus监控hudi相关指标

前提首先请安装好prometheus、pushgateway以及grafana，如果还没安装请参考： Prometheus与pushGateway安装与使用 Grafana安装指…

xiaozhch5
2021-11-12
01.5K30
Hive

使用presto查询同步到hive的hudi数据

温馨提示要完成如下任务，请确保已经使用其他方法将hudi数据同步到hive中。如果没有同步hive数据，可参考文章：使用flink SQL Client将mysql数据写入到hud…

xiaozhch5
2021-11-12
062900
Flink

使用flink SQL Client将mysql数据写入到hudi并同步到hive

测试环境组件版本 mysql 5.7 hive 3.1.2 flink 1.12.2 hudi 0.9.0 hadoop 3.2.0 首先请确保以下组件正常启动： mysql h…

xiaozhch5
2021-11-12
42.3K60
Flink

Flink SQL Client实战CDC数据入湖

总览本文使用datafaker工具生成数据发送到MySQL，通过flink cdc工具将mysql binlog数据发送到kafka，最后再从kafka中读取数据并写入到hudi…

xiaozhch5
2021-11-12
51.4K32
spark-shell操作hudi并使用hbase作为索引

前言接上一篇文章，上篇文章说到hudi适配hbase 2.2.6，这篇文章在spark-shell中操作hudi，并使用hbase作为索引。要完成以下实验，请先确保你已经按照文章…

xiaozhch5
2021-11-12 • Hbase
01.0K00