hudi
-
BiliBili使用Apache Hudi基于拉链表的全量表极限存储优化方案
01 背景 2020年以来,半导体生产不足,这个问题困扰着全世界。互联网企业高度依赖于网络基础设施和服务器设施,没有半导体就没有满足个人需要的个人电子消费品,也就没有蓬勃发展的互联…
-
hudi 键的生成(Key Generation)
Hudi中的每条记录都由一个主键唯一标识,主键是用于记录所属的记录键和分区路径的参数。使用主键,Hudi可以强制a)分区级唯一性完整性约束b)允许快速更新和删除记录。应该明智地选择…
-
腾讯广告业务基于Apache Flink + Hudi的批流一体实践
1.业务背景介绍 广告主和代理商通过广告投放平台来进行广告投放,由多个媒介进行广告展示 ,从而触达到潜在用户。整个过程中会产生各种各样的数据,比如展现数据、点击数据。其中非常重要的…
-
Hudi Transformers(转换器)
Apache Hudi提供了一个HoodieTransformer Utility,允许您在将源数据写入Hudi表之前对其进行转换。有几种开箱即用的转换器,您也可以构建自己的自定义…
-
hudi文件大小设置
本文档将向您展示Apache Hudi如何克服可怕的小文件问题。Hudi的一个关键设计决策是避免在一开始就创建小文件,并始终编写大小适当的文件。在Hudi中有两种管理小文件的方法,…
-
改进Apache Hudi的标记机制
Hudi 支持在写入操作期间对存储上未提交的数据进行全自动清理。 Apache Hudi 表中的写入操作使用标记来有效地跟踪写入存储的数据文件。 在这篇博文中,我们深入探讨了现有的…
-
Apache Kyuubi + Hudi在 T3 出行的深度实践
T3出行是一家基于车联网驱动的智慧出行平台,拥有海量且丰富的数据源。因为车联网数据的多样性,T3出行构建了以 Apache Hudi 为基础的企业级数据湖,提供强有力的业务支撑。而…
-
实时数据湖在字节跳动的实践
分享嘉宾:杨诗旻 字节跳动数据平台 编辑整理:田长远 出品平台:DataFunTalk 导读:今天分享的主题是实时数据湖在字节跳动的实践,将围绕下面四点展开: 对实时数据湖的解读 …
-
Apache Hudi 0.11.0 新版本新特性解读
1. Apache Hudi 0.11.0 新功能简介:多级索引 Multi-Modal Index 2. Spark SQL 新功能与 Flink 集成改进 3. 快速浏览其他功…
-
Hudi元数据表(Metadata table)解析
元数据表的作用 ApacheHudi元数据表可以显著提高查询的读/写性能。元数据表的主要目的是消除“列出文件”操作的要求。 读取和写入数据时,会执行文件列表操作,以获取文件系统的当…
-
Hudi release-0.11.0重磅发布?
hudi 0.11.0版本正式release啦,接下来跟着官网介绍看看本版本引入了哪些新的功能特性吧! 文章内容翻译自:hudi release 0.11.0 版本亮点 多模式索引…
-
印尼医疗龙头企业Halodoc的数据平台转型之路:基于Apache Hudi的数据平台V2.0
摘要 数据平台已经彻底改变了公司存储、分析和使用数据的方式——但为了更有效地使用它们,它们需要可靠、高性能和透明。数据在制定业务决策和评估产品或 Halodoc 功能的性能方面发挥…
-
字节跳动基于 Apache Hudi 的多流拼接实践
字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 该方案在存储层提供对多流数据的关联能力,旨在解决实…
-
将hudi同步到配置kerberos的hive3
前人种树,后人乘凉。本文基于社区pr:https://github.com/apache/hudi/pull/3771 ,新增一些其他配置项以完成本场景下的hudi → hive …
-
字节跳动基于Hudi的数据湖集成实践
本文是字节跳动数据平台开发套件团队在Flink Forward Asia 2021: Flink Forward 峰会上的演讲,着重分享了字节跳动数据湖技术上的选型思考和探索实践。…
-
重磅!基于Apache Hudi的商业公司Onehouse成立
Apache Hudi[1](简称“Hudi”)于 2016 年在 Uber 创建,旨在将数据仓库功能引入数据湖以获取准实时的数据,开创了事务数据湖架构,现已在所有垂直行业中进入主…
-
靳国卫:快手如何使用Hudi解决数据内容建设的效率问题?
分享嘉宾:靳国卫 快手 大数据研发专家 编辑整理:刘鹏鹏 滴滴出行 出品平台:DataFunTalk 导读:从领域模型建设的角度,我们知道需要对业务场景进行合理的拆解、规划、设计,…
-
使用 Apache Hudi、Kafka、Hive 和 Debezium 构建开放数据湖
总览 在接下来的文章中,我们将学习如何使用开源软件 (OSS) 在 AWS 上构建数据湖,包括 Red Hat 的 Debezium、Apache Kafka、Kafka Conn…
-
Hudi源码分析之使用Flink Table/SQL实现Hudi Sources
在文章Flink Table/SQL自定义Sources和Sinks全解析(附代码)中我们说到在Flink Table/SQL中如何自定义Sources和Sinks,有了上述文章的…
-
Flink Table/SQL自定义Sources和Sinks全解析(附代码)
动态表是Flink Table和SQL API处理有界和无界数据的核心概念。 在Flink中,动态表只是逻辑概念,其本身并不存储数据,而是将表的具体数据存储在外部系统(比如说数据库…