大数据

Flink

美团基于 Flink 的实时数仓平台建设新进展

▼ 关注「Apache Flink」，获取更多技术干货 ▼ 摘要：本文整理自美团实时数仓平台负责人姚冬阳在 Flink Forward Asia 2021 实时数仓专场的演讲。主要…

maolv, xiao
2022-06-24
032900
Flink

钱大妈基于 Flink 的实时风控实践

▼ 关注「Apache Flink」，获取更多技术干货 ▼ 摘要：本文作者彭明德，介绍了钱大妈与阿里云 Flink 实时计算团队共建实时风控规则引擎，精确识别羊毛党以防营销预算流失…

maolv, xiao
2022-06-24
040710
Flink

快手实时数仓保障体系研发实践

▼ 关注「Apache Flink」，获取更多技术干货 ▼ 摘要：本文整理自快手实时计算数据团队技术专家李天朔在 Flink Forward Asia 2021 实时数仓专场的演讲…

maolv, xiao
2022-06-24
036600
Flink 源码：广播流状态源码解析

Broadcast State 是 Operator State 的一种特殊类型。它的引入是为了支持这样的场景: 一个流的记录需要广播到所有下游任务，在这些用例中，它们用于在所有子任务中维护相同的状态。然后可以在处理第二个流的数据时访问这个广播状态，广播状态有自己的一些特性。

JasonLee实时计算
2022-06-24 • Flink
021710
Flink

Flink SQL Client远程调试指南

在使用Flink SQL过程中，SQL Client想必大家都是非常熟悉的，本文介绍基于IDEA的SQL Client远程调试方法。前提：本文使用的Flink版本为1.14.4，…

xiaozhch5
2022-06-23
01.6K00
Flink ＋ Prometheus ＋ Grafana 实时监控最佳实践

我们都知道 Flink 任务是一个 7*24 小时不停运行的任务,所以对于任务的实时监控就显得尤为重要,因为任务运行的状态对于我们来说是一个黑盒,比如任务是否挂掉,是否存在反压,使用的内存,CPU 等情况我们是不知道的,虽然 Flink 的 UI 上面可以添加相关的 metrics 来查看,但是需要手动的一个一个添加,还是比较麻烦的,特别是在任务非常多的情况下.所以就需要有一种统一的监控方案来解决这个问题.Flink 本身提供了非常丰富的 Metric Reporters,比如 JMX InfluxDB Graphite Prometheus 等等,生产环境上用的比较多的是 InfluxDB 和 Prometheus ,我这里选择的是 Prometheus 来上报 Flink 的 metrics 然后通过 Grafana 进行展示.

JasonLee实时计算
2022-06-23 • Flink
073300
后端

干货 | 支持10X增长，携程机票订单库Sharding实践

作者简介初八，携程资深研发经理，专注于订单后台系统架构优化工作；JefferyXin，携程高级后端开发专家，专注系统性能、业务架构等领域。一、背景随着机票订单业务的不断增…

jellyfin
2022-06-23
020500
后端

干货 | 携程实体链接技术的探索及实践

作者简介携程旅游AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中知识图谱组专注旅游领域知识图谱的构建及应用落地。一、背景介绍随着网络应用技术的飞速发展，多元…

jellyfin
2022-06-23
025500
Hudi

hudi时间旅行查询完整版

本文从头开始讲述使用Flink引擎实现hudi数据湖基于commit_time的查询语义。基本使用可参考前面文章hudi时间旅行查询基本要求：有一台机器部署docker用于安装…

xiaozhch5
2022-06-22
065610
后端

干货 | 携程百亿级缓存系统探索之路——本地缓存结构选型与内存压缩

作者简介一十，携程资深后端开发工程师；振青，携程高级后端开发专家。一、前言携程酒店查询服务是酒店BU后端的核心服务，主要负责提供所有酒店动态数据计算的统一接口。在处理请求的…

jetty
2022-06-22
022600
Kyuubi

如何优化 Spark 小文件，Kyuubi 一步搞定！

“ Hive 表中太多的小文件会影响数据的查询性能和效率，同时加大了 HDFS NameNode 的压力。Hive (on MapReduce) 一般可以简单的通过一些参数来控…

jellyfin
2022-06-21
084200
大数据

如何给 Flink Print SQL Connector 添加随机取样功能?

Flink 提供了 Print SQL Connector 可以让我们非常方便的把数据打印到标准输出.有助于我们测试 SQL 任务,检验数据的正确性.

但是在生产环境中,上游的数据量是非常大的,如果直接把数据输出的话,可能会把标准输出文件打满,造成页面卡死的情况,反而不利于我们观测数据,所以我们可以对 Print SQL Connector 进行简单的改造,加一个随机取样的参数控制数据输出.

JasonLee实时计算
2022-06-21
065900
后端

直播、游戏等全场景联防联控，B站精准流量感知风控实践

分享嘉宾：李家琛哔哩哔哩风控负责人编辑整理：尹鹏庆杭州师范大学出品平台：DataFunTalk 导读：随着互联网时代的到来，互联网行业内业务模式在不断创新的同时也遭遇到了…

xiaozhch5
2022-06-20
096600
Pulsar

博文推荐｜整合 Spring 与 Pulsar，在 Java 中构建微服务

本文翻译自 StreamNative 博客《Spring into Pulsar》，作者 Tim Spann，StreamNative 布道师。译者简介姜吉宁，开源爱好者、终生…

xiaozhch5
2022-06-20
036400
Hudi

hudi时间旅行查询

hudi每次数据写入时都会生成一个时间戳，用于表示数据写入的时间，基于该特性，在进行数据查询时可使用该时间对hudi中数据进行查询。使用flink引擎查询时可指定如下参数 &#8…

xiaozhch5
2022-06-20
11.7K10
Flink

Flink技术内幕之文件系统

Flink 通过 org.apache.flink.core.fs.FileSystem 类有自己的文件系统抽象。这种抽象提供了一组通用的操作和跨各种类型的文件系统实现的最小保证…

xiaozhch5
2022-06-18
056700
Flink

Flink技术内部之Task生命周期

Task 是 Flink 的基本执行单元。算子的每个并行实例都在 task 里执行。例如，一个并行度为 5 的算子，它的每个实例都由一个单独的 task 来执行。 StreamTa…

xiaozhch5
2022-06-18
026500
Flink

Flink技术内幕之作业调度

这篇文档简要描述了 Flink 怎样调度作业, 怎样在 JobManager 里描述和追踪作业状态原文链接：https://nightlies.apache.org/flink/…

xiaozhch5
2022-06-18
022300
后端

8个常用的Wireshark使用技巧，一看就会

一：数据包过滤 a.过滤需要的IP地址 ip.addr== b.在数据包过滤的基础上过滤协议ip.addr==xxx.xxx.xxx.xxx and tcp c.过滤端口ip.ad…

jellyfin
2022-06-18
044600
Flink

自适应批作业调度器：为 Flink 批作业自动推导并行度

对大部分用户来说，为 Flink 算子配置合适的并行度并不是一件容易的事。对于批作业，小的并行度会导致作业运行时间长，故障恢复慢，而不必要的大并行度会导致资源浪费，任务部署和数据 …

xiaozhch5
2022-06-17
034500