hudi
-
Apache Hudi 0.11.0 新版本新特性解读
1. Apache Hudi 0.11.0 新功能简介:多级索引 Multi-Modal Index 2. Spark SQL 新功能与 Flink 集成改进 3. 快速浏览其他功…
-
Hudi元数据表(Metadata table)解析
元数据表的作用 ApacheHudi元数据表可以显著提高查询的读/写性能。元数据表的主要目的是消除“列出文件”操作的要求。 读取和写入数据时,会执行文件列表操作,以获取文件系统的当…
-
Hudi release-0.11.0重磅发布🎉
hudi 0.11.0版本正式release啦,接下来跟着官网介绍看看本版本引入了哪些新的功能特性吧! 文章内容翻译自:hudi release 0.11.0 版本亮点 多模式索引…
-
印尼医疗龙头企业Halodoc的数据平台转型之路:基于Apache Hudi的数据平台V2.0
摘要 数据平台已经彻底改变了公司存储、分析和使用数据的方式——但为了更有效地使用它们,它们需要可靠、高性能和透明。数据在制定业务决策和评估产品或 Halodoc 功能的性能方面发挥…
-
字节跳动基于 Apache Hudi 的多流拼接实践
字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 该方案在存储层提供对多流数据的关联能力,旨在解决实…
-
将hudi同步到配置kerberos的hive3
前人种树,后人乘凉。本文基于社区pr:https://github.com/apache/hudi/pull/3771 ,新增一些其他配置项以完成本场景下的hudi → hive …
-
字节跳动基于Hudi的数据湖集成实践
本文是字节跳动数据平台开发套件团队在Flink Forward Asia 2021: Flink Forward 峰会上的演讲,着重分享了字节跳动数据湖技术上的选型思考和探索实践。…
-
重磅!基于Apache Hudi的商业公司Onehouse成立
Apache Hudi[1](简称“Hudi”)于 2016 年在 Uber 创建,旨在将数据仓库功能引入数据湖以获取准实时的数据,开创了事务数据湖架构,现已在所有垂直行业中进入主…
-
靳国卫:快手如何使用Hudi解决数据内容建设的效率问题?
分享嘉宾:靳国卫 快手 大数据研发专家 编辑整理:刘鹏鹏 滴滴出行 出品平台:DataFunTalk 导读:从领域模型建设的角度,我们知道需要对业务场景进行合理的拆解、规划、设计,…
-
使用 Apache Hudi、Kafka、Hive 和 Debezium 构建开放数据湖
总览 在接下来的文章中,我们将学习如何使用开源软件 (OSS) 在 AWS 上构建数据湖,包括 Red Hat 的 Debezium、Apache Kafka、Kafka Conn…
-
Hudi源码分析之使用Flink Table/SQL实现Hudi Sources
在文章Flink Table/SQL自定义Sources和Sinks全解析(附代码)中我们说到在Flink Table/SQL中如何自定义Sources和Sinks,有了上述文章的…
-
Flink Table/SQL自定义Sources和Sinks全解析(附代码)
动态表是Flink Table和SQL API处理有界和无界数据的核心概念。 在Flink中,动态表只是逻辑概念,其本身并不存储数据,而是将表的具体数据存储在外部系统(比如说数据库…
-
Apache hudi meetup at uber 2022.1.12配英文字幕
该视频为由Uber和Apache Hudi社区主办的虚拟Meetup。他们将以Apache Hudi 0.10.0版本的更新作为开场,随后来自优步、沃尔玛和迪士尼+ Hotstar…
-
一文带你了解Lakehouse的并发控制:我们是否过于乐观?
1. 概述 如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。但到目前为止,实际完成了什么?目前有哪些方法?它们在现实世界中的表现如何?这些问题是本博客的重点。 有幸…
-
字节跳动基于 HUDI 的实时数据湖平台介绍
耿筱喻-字节跳动大数据研发工程师 pdf下载:下载
-
Apache HUDI在字节跳动推荐系统中的实践
管梓越,大数据开发工程师, 现就职于字节跳动推荐架构部门。专注于hudi在机器学习场景下的开发与应用。支持抖音,今日头条等产品的机器学习场景下的架构工作。 本次分享会涉及在搜索推荐…
-
用ranger对hive metastore 进行授权管理
hive standalone metastore 3.1.2可作为独立服务,作为spark、flink、presto等服务的元数据管理中心,然而在现有的hive授权方案中只有针对…
-
hive metastore配置kerberos认证
hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是…
-
OnZoom基于Apache Hudi的流批一体架构实践
背景 OnZoom是Zoom新产品,是基于Zoom Meeting的一个独一无二的在线活动平台和市场。作为Zoom统一通信平台的延伸,OnZoom是一个综合性解决方案,为付费的Zo…
-
基于Flink1.13.3与hudi 0.10.0-release构建准实时数仓
本文基于Flink SQL与hudi构建准实时数仓,在Flink从kafka接入数据之后,即将所有数据存于hudi中,包括所有中间处理数据以及最终数据。文章《实时数仓|基于Flin…