后端
-
Hudi源码分析之使用Flink Table/SQL实现Hudi Sources
在文章Flink Table/SQL自定义Sources和Sinks全解析(附代码)中我们说到在Flink Table/SQL中如何自定义Sources和Sinks,有了上述文章的…
-
Flink Table/SQL自定义Sources和Sinks全解析(附代码)
动态表是Flink Table和SQL API处理有界和无界数据的核心概念。 在Flink中,动态表只是逻辑概念,其本身并不存储数据,而是将表的具体数据存储在外部系统(比如说数据库…
-
结构型设计模式
总览 这篇文章中,我们主要介绍一下结构型设计模式,以及讨论结构型设计模式中代理模式、装饰者模式、适配器模式和桥接模式有哪些及其差异点。 根据 Gang Of Four (GoF)[…
-
行为设计模式及其在JVM中的应用
在上篇文章中我们说到创建者设计模式。 现在我们来看看行为设计模式。 这些模式关注我们的对象如何相互交互或者我们如何与它们交互。 责任链模式 责任链模式允许对象实现一个公共接口,并且…
-
Apache hudi meetup at uber 2022.1.12配英文字幕
该视频为由Uber和Apache Hudi社区主办的虚拟Meetup。他们将以Apache Hudi 0.10.0版本的更新作为开场,随后来自优步、沃尔玛和迪士尼+ Hotstar…
-
一文带你了解Lakehouse的并发控制:我们是否过于乐观?
1. 概述 如今数据湖上的事务被认为是 Lakehouse 的一个关键特征。但到目前为止,实际完成了什么?目前有哪些方法?它们在现实世界中的表现如何?这些问题是本博客的重点。 有幸…
-
字节跳动基于 HUDI 的实时数据湖平台介绍
耿筱喻-字节跳动大数据研发工程师 pdf下载:下载
-
Apache HUDI在字节跳动推荐系统中的实践
管梓越,大数据开发工程师, 现就职于字节跳动推荐架构部门。专注于hudi在机器学习场景下的开发与应用。支持抖音,今日头条等产品的机器学习场景下的架构工作。 本次分享会涉及在搜索推荐…
-
创建型设计模式简介
总览 在软件工程中,设计模式描述了软件设计中最常遇到的问题的既定解决方案。 它代表了经验丰富的软件开发人员经过长期反复试验而形成的最佳实践。 在 Erich Gamma、John …
-
presto在字节跳动的应用: Hive UDF Wrapper for Presto
分享者:Pengfei Chang
-
AI平民化之路 – 华为云ModelArts和AI Gallery
在校期间主学机器学习和算法,在一次偶然的机会接触了大数据,而后便入门大数据,至今也从事大数据平台开发工作。可是,仍然对AI技术念念不忘呀,平常也会做点机器学习相关的小东西,尝试一些…
-
用ranger对hive metastore 进行授权管理
hive standalone metastore 3.1.2可作为独立服务,作为spark、flink、presto等服务的元数据管理中心,然而在现有的hive授权方案中只有针对…
-
六分钟读懂Apache Ranger
本文用六分钟视频介绍Apache Ranger,并配有英文字幕。
-
hive metastore配置kerberos认证
hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是…
-
一文读懂Kafka Connect核心概念
概览 Kafka Connect 是一种用于在 Apache Kafka 和其他系统之间可扩展且可靠地流式传输数据的工具。 它使快速定义将大量数据移入和移出 Kafka 的连接器变…
-
spark SQL配置连接Hive Metastore 3.1.2
Hive Metastore作为元数据管理中心,支持多种计算引擎的读取操作,例如Flink、Presto、Spark等。本文讲述通过spark SQL配置连接Hive Metast…
-
Flink Forward Asia 2021 实时数据湖合集
合集内容 Building The Real-time Datalake at ByteDance (00:00:00-00:22:47) Flink CDC 如何简化实时数据入湖…
-
通过Java API获取Hive Metastore中的元数据信息
在文章中,我们说到Hive 3.0.0版本开始,其单独提供了standalone metastore服务以作为像presto等处理引擎的元数据管理中心。 本文以Java API为例…
-
InfluxDB核心概念系列之设计原则
工欲善其事必先利其器,想要用好InfluxDB,当然要先厘清其基本概念,本文为InfluxDB核心概念系列文章之设计原则。 InfluxDB 实现了时间序列数据的优化设计原则。 其…
-
InfluxDB核心概念系列之数据模式
工欲善其事必先利其器,想要用好InfluxDB,当然要先厘清其基本概念,本文为InfluxDB核心概念系列文章之数据模式。 InfluxDB 数据元素存储在时间结构合并树 (TSM…