Flink
-
Apache Flink 在斗鱼的应用与实践
摘要:本文整理自斗鱼实时计算负责人夏畅在 Flink Forward Asia 2021 行业实践专场的分享。本篇内容主要分为四个部分: 背景介绍 实时平台建设 实时数仓探索 未来…
-
BIGO 使用 Flink 做 OLAP 分析及实时数仓的实践和优化
业务背景 BIGO 是一家面向海外的以短视频直播业务为主的公司, 目前公司的主要业务包括 BigoLive (全球直播服务),Likee (短视频创作分享平台),IMO (免费通信…
-
flink部分面试题汇总
Flink的运⾏架构 当 Flink 集群启动后,⾸先会启动⼀个 JobManger 和⼀个或多个的 TaskManager。由 Client 提交任务给JobManager,Jo…
-
FLlink监控Checkpoints
概览(Overview) Flink 的 Web 界面提供了选项卡/标签(tab)来监视作业的 checkpoint 信息。作业终止后,这些统计信息仍然可用。有四个不同的选项卡可显…
-
Flink Standalone HA搭建指南
基本环境 集群主机 IP host147 10.45.151.147 host148 10.45.151.148 host149 10.45.151.149 配置域名映射 vim …
-
Flink大状态与Checkpint调优
Flink 应用要想大规模可靠运行,必须满足两个条件: 应用程序需要能够可靠地进行checkpoint操作 故障后资源需要足够赶上输入数据流 第一部分讨论如何大规模执行checkp…
-
Apache Flink 在移动云实时计算的实践
本文整理自移动软件开发工程师谢磊在 Flink Forward Asia 2021 平台建设专场的演讲。本篇内容主要分为四个部分: 实时计算平台建设 中移信令业务优化 稳定性实践 …
-
将hudi同步到配置kerberos的hive3
前人种树,后人乘凉。本文基于社区pr:https://github.com/apache/hudi/pull/3771 ,新增一些其他配置项以完成本场景下的hudi → hive …
-
云原生模式部署Flink应用
入门指南 本入门部分将指导您在 Kubernetes 上设置功能齐全的 Flink 集群。 基本介绍 Kubernetes 是一种流行的容器编排系统,用于自动化计算机应用程序的部署…
-
Flink DataStream API与Data Table API/SQL集成
在定义数据处理管道时,Table API 和 DataStream API 同样重要。 DataStream API 在一个相对较低级别的命令式编程 API 中提供了流处理的原语(…
-
Flink SQL中的Join操作
Flink SQL 支持对动态表进行复杂灵活的连接操作。 有几种不同类型的连接来解决可能需要的各种语义查询。 默认情况下,连接顺序未优化。 表按照在 FROM 子句中指定的顺序连接…
-
Flink和Spark读写avro文件
前面文章基于Java实现Avro文件读写功能我们说到如何使用java读写avro文件,本文基于上述文章进行扩展,展示flink和spark如何读取avro文件。 Flink读写av…
-
pinterest使用 Apache Flink(近)实时地检测图像相似性
Pinterest是世界上最大的图片社交分享网站。网站允许用户创建和管理主题图片集合,例如事件、兴趣和爱好。以下为来自Pinterest工程师关于代码审查的一些思考。 作者:Sha…
-
Flink核心概念之概念透析
实践练习章节介绍了作为 Flink API 根基的有状态实时流处理的基本概念,并且举例说明了如何在 Flink 应用中使用这些机制。其中 Data Pipelines & …
-
Flink核心概念之架构解析
Flink 是一个分布式系统,需要有效分配和管理计算资源才能执行流应用程序。它集成了所有常见的集群资源管理器,例如Hadoop YARN、Apache Mesos和Kubernet…
-
Flink核心概念之时间流式处理
含有时间的流处理是有状态流处理的扩展,其中时间在计算中起一定作用。 除其他外,当您进行时间序列分析、基于特定时间段(通常称为窗口)进行聚合时,或者在事件发生的时间很重要的情况下进行…
-
Flink CDC 和 kafka 进行多源合并和下游同步更新
摘要: 本文介绍了 Flink CDC 利用 Kafka 进行 CDC 多源合并和下游同步更新的实践分享。 前言 本文主要是针对 Flink SQL 使用 Flink CDC 无法…
-
Flink核心概念之有状态的流式处理
什么是状态 虽然数据流中的许多操作一次只查看一个单独的事件(例如事件解析器),但有些操作会记住跨多个事件的信息(例如窗口操作符)。 这些操作称为有状态的。 有状态操作的一些示例: …
-
Flink与Spark读写parquet文件全解析
Parquet介绍 Parquet 是一种开源文件格式,用于处理扁平列式存储数据格式,可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它…
-
Flink Table/SQL自定义Sources和Sinks全解析(附代码)
动态表是Flink Table和SQL API处理有界和无界数据的核心概念。 在Flink中,动态表只是逻辑概念,其本身并不存储数据,而是将表的具体数据存储在外部系统(比如说数据库…