Flink

Flink

Apache Flink 在斗鱼的应用与实践

摘要：本文整理自斗鱼实时计算负责人夏畅在 Flink Forward Asia 2021 行业实践专场的分享。本篇内容主要分为四个部分：背景介绍实时平台建设实时数仓探索未来…

xiaozhch5
2022-03-18
034800
Flink

BIGO 使用 Flink 做 OLAP 分析及实时数仓的实践和优化

业务背景 BIGO 是一家面向海外的以短视频直播业务为主的公司, 目前公司的主要业务包括 BigoLive (全球直播服务)，Likee (短视频创作分享平台)，IMO (免费通信…

xiaozhch5
2022-03-11
046620
Flink

flink部分面试题汇总

Flink的运⾏架构当 Flink 集群启动后，⾸先会启动⼀个 JobManger 和⼀个或多个的 TaskManager。由 Client 提交任务给JobManager，Jo…

xiaozhch5
2022-03-11
060600
Flink

FLlink监控Checkpoints

概览（Overview） Flink 的 Web 界面提供了选项卡/标签（tab）来监视作业的 checkpoint 信息。作业终止后，这些统计信息仍然可用。有四个不同的选项卡可显…

xiaozhch5
2022-03-05
034000
Flink

Flink Standalone HA搭建指南

基本环境集群主机 IP host147 10.45.151.147 host148 10.45.151.148 host149 10.45.151.149 配置域名映射 vim …

xiaozhch5
2022-03-05
078400
Flink

Flink大状态与Checkpint调优

Flink 应用要想大规模可靠运行，必须满足两个条件：应用程序需要能够可靠地进行checkpoint操作故障后资源需要足够赶上输入数据流第一部分讨论如何大规模执行checkp…

xiaozhch5
2022-03-04
053900
Flink

Apache Flink 在移动云实时计算的实践

本文整理自移动软件开发工程师谢磊在 Flink Forward Asia 2021 平台建设专场的演讲。本篇内容主要分为四个部分：实时计算平台建设中移信令业务优化稳定性实践 …

xiaozhch5
2022-03-04
051510
Flink

将hudi同步到配置kerberos的hive3

前人种树，后人乘凉。本文基于社区pr：https://github.com/apache/hudi/pull/3771 ，新增一些其他配置项以完成本场景下的hudi → hive …

xiaozhch5
2022-03-02
01.6K10
Flink

云原生模式部署Flink应用

入门指南本入门部分将指导您在 Kubernetes 上设置功能齐全的 Flink 集群。基本介绍 Kubernetes 是一种流行的容器编排系统，用于自动化计算机应用程序的部署…

xiaozhch5
2022-02-26
01.2K00
Flink

Flink DataStream API与Data Table API/SQL集成

在定义数据处理管道时，Table API 和 DataStream API 同样重要。 DataStream API 在一个相对较低级别的命令式编程 API 中提供了流处理的原语（…

xiaozhch5
2022-02-22
02.2K00
Flink

Flink SQL中的Join操作

Flink SQL 支持对动态表进行复杂灵活的连接操作。有几种不同类型的连接来解决可能需要的各种语义查询。默认情况下，连接顺序未优化。表按照在 FROM 子句中指定的顺序连接…

xiaozhch5
2022-02-21
066500
Flink

Flink和Spark读写avro文件

前面文章基于Java实现Avro文件读写功能我们说到如何使用java读写avro文件，本文基于上述文章进行扩展，展示flink和spark如何读取avro文件。 Flink读写av…

xiaozhch5
2022-02-19
056500
Flink

pinterest使用 Apache Flink（近）实时地检测图像相似性

Pinterest是世界上最大的图片社交分享网站。网站允许用户创建和管理主题图片集合,例如事件、兴趣和爱好。以下为来自Pinterest工程师关于代码审查的一些思考。作者：Sha…

今天还想吃蛋糕
2022-02-15
047100
Flink

Flink核心概念之概念透析

实践练习章节介绍了作为 Flink API 根基的有状态实时流处理的基本概念，并且举例说明了如何在 Flink 应用中使用这些机制。其中 Data Pipelines & …

xiaozhch5
2022-02-07
031330
Flink

Flink核心概念之架构解析

Flink 是一个分布式系统，需要有效分配和管理计算资源才能执行流应用程序。它集成了所有常见的集群资源管理器，例如Hadoop YARN、Apache Mesos和Kubernet…

xiaozhch5
2022-02-07
060700
Flink

Flink核心概念之时间流式处理

含有时间的流处理是有状态流处理的扩展，其中时间在计算中起一定作用。除其他外，当您进行时间序列分析、基于特定时间段（通常称为窗口）进行聚合时，或者在事件发生的时间很重要的情况下进行…

xiaozhch5
2022-01-31
030900
Flink

Flink CDC 和 kafka 进行多源合并和下游同步更新

摘要：本文介绍了 Flink CDC 利用 Kafka 进行 CDC 多源合并和下游同步更新的实践分享。前言本文主要是针对 Flink SQL 使用 Flink CDC 无法…

xiaozhch5
2022-01-30
01.2K10
Flink

Flink核心概念之有状态的流式处理

什么是状态虽然数据流中的许多操作一次只查看一个单独的事件（例如事件解析器），但有些操作会记住跨多个事件的信息（例如窗口操作符）。这些操作称为有状态的。有状态操作的一些示例： …

今天还想吃蛋糕
2022-01-28
166800
Flink

Flink与Spark读写parquet文件全解析

Parquet介绍 Parquet 是一种开源文件格式，用于处理扁平列式存储数据格式，可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它…

xiaozhch5
2022-01-26
01.5K10
Flink

Flink Table/SQL自定义Sources和Sinks全解析（附代码）

动态表是Flink Table和SQL API处理有界和无界数据的核心概念。在Flink中，动态表只是逻辑概念，其本身并不存储数据，而是将表的具体数据存储在外部系统（比如说数据库…

xiaozhch5
2022-01-20
42.4K21