hudi 归档 - 第3页共5页 - 从大数据到人工智能

Hudi

改进Apache Hudi的标记机制

Hudi 支持在写入操作期间对存储上未提交的数据进行全自动清理。 Apache Hudi 表中的写入操作使用标记来有效地跟踪写入存储的数据文件。在这篇博文中，我们深入探讨了现有的…

xiaozhch5
2022-05-25
039500
Apache Kyuubi + Hudi在 T3 出行的深度实践

T3出行是一家基于车联网驱动的智慧出行平台，拥有海量且丰富的数据源。因为车联网数据的多样性，T3出行构建了以 Apache Hudi 为基础的企业级数据湖，提供强有力的业务支撑。而…

xiaozhch5
2022-05-24 • Hudi
070900
Hudi

实时数据湖在字节跳动的实践

分享嘉宾：杨诗旻字节跳动数据平台编辑整理：田长远出品平台：DataFunTalk 导读：今天分享的主题是实时数据湖在字节跳动的实践，将围绕下面四点展开：对实时数据湖的解读 …

xiaozhch5
2022-05-23
036100
Hudi

Apache Hudi 0.11.0 新版本新特性解读

1. Apache Hudi 0.11.0 新功能简介：多级索引 Multi-Modal Index 2. Spark SQL 新功能与 Flink 集成改进 3. 快速浏览其他功…

xiaozhch5
2022-05-14
897310
Hudi

Hudi元数据表（Metadata table)解析

元数据表的作用 ApacheHudi元数据表可以显著提高查询的读/写性能。元数据表的主要目的是消除“列出文件”操作的要求。读取和写入数据时，会执行文件列表操作，以获取文件系统的当…

xiaozhch5
2022-05-06
01.4K00
Hudi

Hudi release-0.11.0重磅发布?

hudi 0.11.0版本正式release啦，接下来跟着官网介绍看看本版本引入了哪些新的功能特性吧！文章内容翻译自：hudi release 0.11.0 版本亮点多模式索引…

xiaozhch5
2022-05-03
058700
Hudi

印尼医疗龙头企业Halodoc的数据平台转型之路：基于Apache Hudi的数据平台V2.0

摘要数据平台已经彻底改变了公司存储、分析和使用数据的方式——但为了更有效地使用它们，它们需要可靠、高性能和透明。数据在制定业务决策和评估产品或 Halodoc 功能的性能方面发挥…

jellyfin
2022-04-27
027700
Hudi

OPPO数据湖统一存储技术实践

导读 OPPO是一家智能终端制造公司，有着数亿的终端用户，每天产生了大量文本、图片、音视频等非结构化数据。在保障数据连通性、实时性以及数据安全治理要求的前提下，如何低成本、高效率地…

xiaozhch5
2022-04-23
070000
Hudi

字节跳动基于 Apache Hudi 的多流拼接实践

字节跳动数据湖团队在实时数仓构建宽表的业务场景中，探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。该方案在存储层提供对多流数据的关联能力，旨在解决实…

xiaozhch5
2022-04-01
037410
Hudi

基于Apache Parquet™的更细粒度的加密方法

本文翻译自uber文章：《One Stone, Three Birds: Finer-Grained Encryption @ Apache Parquet™》数据访问限制、保留…

xiaozhch5
2022-03-16
077900
Flink

将hudi同步到配置kerberos的hive3

前人种树，后人乘凉。本文基于社区pr：https://github.com/apache/hudi/pull/3771 ，新增一些其他配置项以完成本场景下的hudi → hive …

xiaozhch5
2022-03-02
01.6K10
后端

周劲松：Flink与Spark全都要，网易流批一体实时数据湖Arctic

分享嘉宾：周劲松网易编辑整理：王贤才碧桂园出品平台：DataFunTalk 导读：这次分享的主题是网易内部孵化的数据湖项目Arctic。在分析了部分现有开源数据湖项目后，网…

xiaozhch5
2022-02-17
183720
Hudi

字节跳动基于Hudi的数据湖集成实践

本文是字节跳动数据平台开发套件团队在Flink Forward Asia 2021: Flink Forward 峰会上的演讲，着重分享了字节跳动数据湖技术上的选型思考和探索实践。…

xiaozhch5
2022-02-14
067710
Hudi

重磅！基于Apache Hudi的商业公司Onehouse成立

Apache Hudi[1]（简称“Hudi”）于 2016 年在 Uber 创建，旨在将数据仓库功能引入数据湖以获取准实时的数据，开创了事务数据湖架构，现已在所有垂直行业中进入主…

xiaozhch5
2022-02-03
078510
Hudi

靳国卫：快手如何使用Hudi解决数据内容建设的效率问题？

分享嘉宾：靳国卫快手大数据研发专家编辑整理：刘鹏鹏滴滴出行出品平台：DataFunTalk 导读：从领域模型建设的角度，我们知道需要对业务场景进行合理的拆解、规划、设计，…

xiaozhch5
2022-02-03
055310
Flink

Flink与Spark读写parquet文件全解析

Parquet介绍 Parquet 是一种开源文件格式，用于处理扁平列式存储数据格式，可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它…

xiaozhch5
2022-01-26
01.4K10
后端

中国信通院云原生数据湖首批评测正式启动

大数据技术的内涵伴随着传统信息技术和数据应用的发展不断演进，而大数据技术体系的核心始终是面向海量数据的存储、计算、处理等基础技术。支撑数据存储计算的软件系统起源于20世纪60年代的…

xiaozhch5
2022-01-25
276001
Hudi

使用 Apache Hudi、Kafka、Hive 和 Debezium 构建开放数据湖

总览在接下来的文章中，我们将学习如何使用开源软件 (OSS) 在 AWS 上构建数据湖，包括 Red Hat 的 Debezium、Apache Kafka、Kafka Conn…

xiaozhch5
2022-01-23
01.0K00
Hudi

Hudi源码分析之使用Flink Table/SQL实现Hudi Sources

在文章Flink Table/SQL自定义Sources和Sinks全解析（附代码）中我们说到在Flink Table/SQL中如何自定义Sources和Sinks，有了上述文章的…

xiaozhch5
2022-01-22
094780
Flink

Flink Table/SQL自定义Sources和Sinks全解析（附代码）

动态表是Flink Table和SQL API处理有界和无界数据的核心概念。在Flink中，动态表只是逻辑概念，其本身并不存储数据，而是将表的具体数据存储在外部系统（比如说数据库…

xiaozhch5
2022-01-20
42.3K21