大数据
-
字节跳动基于Hudi的数据湖集成实践
本文是字节跳动数据平台开发套件团队在Flink Forward Asia 2021: Flink Forward 峰会上的演讲,着重分享了字节跳动数据湖技术上的选型思考和探索实践。…
-
Flink核心概念之概念透析
实践练习章节介绍了作为 Flink API 根基的有状态实时流处理的基本概念,并且举例说明了如何在 Flink 应用中使用这些机制。其中 Data Pipelines & …
-
Flink核心概念之架构解析
Flink 是一个分布式系统,需要有效分配和管理计算资源才能执行流应用程序。它集成了所有常见的集群资源管理器,例如Hadoop YARN、Apache Mesos和Kubernet…
-
重磅!基于Apache Hudi的商业公司Onehouse成立
Apache Hudi[1](简称“Hudi”)于 2016 年在 Uber 创建,旨在将数据仓库功能引入数据湖以获取准实时的数据,开创了事务数据湖架构,现已在所有垂直行业中进入主…
-
靳国卫:快手如何使用Hudi解决数据内容建设的效率问题?
分享嘉宾:靳国卫 快手 大数据研发专家 编辑整理:刘鹏鹏 滴滴出行 出品平台:DataFunTalk 导读:从领域模型建设的角度,我们知道需要对业务场景进行合理的拆解、规划、设计,…
-
Flink核心概念之时间流式处理
含有时间的流处理是有状态流处理的扩展,其中时间在计算中起一定作用。 除其他外,当您进行时间序列分析、基于特定时间段(通常称为窗口)进行聚合时,或者在事件发生的时间很重要的情况下进行…
-
Flink CDC 和 kafka 进行多源合并和下游同步更新
摘要: 本文介绍了 Flink CDC 利用 Kafka 进行 CDC 多源合并和下游同步更新的实践分享。 前言 本文主要是针对 Flink SQL 使用 Flink CDC 无法…
-
Flink核心概念之有状态的流式处理
什么是状态 虽然数据流中的许多操作一次只查看一个单独的事件(例如事件解析器),但有些操作会记住跨多个事件的信息(例如窗口操作符)。 这些操作称为有状态的。 有状态操作的一些示例: …
-
重磅!Apache Kafka 3.1.0正式发布!
3.1.0 版本包含许多改进和新功能。我们将在这篇博文中重点介绍一些更突出的功能,但请参阅发行说明以获取完整的更改列表。 虽然仍然不建议将 KRaft 用于生产(已知差距),但我们…
-
Flink与Spark读写parquet文件全解析
Parquet介绍 Parquet 是一种开源文件格式,用于处理扁平列式存储数据格式,可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它…
-
中国信通院云原生数据湖首批评测正式启动
大数据技术的内涵伴随着传统信息技术和数据应用的发展不断演进,而大数据技术体系的核心始终是面向海量数据的存储、计算、处理等基础技术。支撑数据存储计算的软件系统起源于20世纪60年代的…
-
hbase HBCK2使用指南
HBCK2是apache hbase集群修复工具。 HBCK2 与hbck1比较 HBCK2 是 hbck 的继承者,hbase-1.x (A.K.A hbck1) 附带的修复工具…
-
使用 Apache Hudi、Kafka、Hive 和 Debezium 构建开放数据湖
总览 在接下来的文章中,我们将学习如何使用开源软件 (OSS) 在 AWS 上构建数据湖,包括 Red Hat 的 Debezium、Apache Kafka、Kafka Conn…
-
Hudi源码分析之使用Flink Table/SQL实现Hudi Sources
在文章Flink Table/SQL自定义Sources和Sinks全解析(附代码)中我们说到在Flink Table/SQL中如何自定义Sources和Sinks,有了上述文章的…
-
Flink Table/SQL自定义Sources和Sinks全解析(附代码)
动态表是Flink Table和SQL API处理有界和无界数据的核心概念。 在Flink中,动态表只是逻辑概念,其本身并不存储数据,而是将表的具体数据存储在外部系统(比如说数据库…
-
Apache hudi meetup at uber 2022.1.12配英文字幕
该视频为由Uber和Apache Hudi社区主办的虚拟Meetup。他们将以Apache Hudi 0.10.0版本的更新作为开场,随后来自优步、沃尔玛和迪士尼+ Hotstar…
-
一文带你了解Lakehouse的并发控制:我们是否过于乐观?
1. 概述 如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。但到目前为止,实际完成了什么?目前有哪些方法?它们在现实世界中的表现如何?这些问题是本博客的重点。 有幸…
-
字节跳动基于 HUDI 的实时数据湖平台介绍
耿筱喻-字节跳动大数据研发工程师 pdf下载:下载
-
Apache HUDI在字节跳动推荐系统中的实践
管梓越,大数据开发工程师, 现就职于字节跳动推荐架构部门。专注于hudi在机器学习场景下的开发与应用。支持抖音,今日头条等产品的机器学习场景下的架构工作。 本次分享会涉及在搜索推荐…
-
presto在字节跳动的应用: Hive UDF Wrapper for Presto
分享者:Pengfei Chang