后端
-
刘嘉承:从设计、实现和优化角度浅谈Alluxio元数据同步
分享嘉宾:刘嘉承 Alluxio 核心组研发工程师 编辑整理:曾新宇 对外经贸大学 出品平台:DataFunTalk 导读:今天分享的题目是Alluxio元数据和数据的同步,从设计…
-
强化学习在黄页商家智能聊天助手中的探索实践
00 导读 本地服务(黄页)微聊代运营模式是指人工客服代替58平台上的商家与C端用户IM沟通聊天以获取商机(如用户联系方式、细粒度需求信息等),再将商机转交给商家,促进商家成单。我…
-
网易严选离线数仓质量建设实践
做数仓最重要的是什么?一是模型易用性,二是数据质量。模型易用性我们可以通过建模规范、指标管理等方式去实现。而对于数据质量呢?本篇将以严选数仓为例,从建设目标、保障措施、效果评价等几…
-
Flink CDC + Hudi 海量数据入湖在顺丰的实践
摘要:本文整理自顺丰大数据研发工程师覃立辉在 5月 21 日 Flink CDC Meetup 的演讲。主要内容包括: 顺丰数据集成背景 Flink CDC 实践问题与优化 未来规…
-
Flink CDC + OceanBase 全增量一体化数据集成方案
摘要:本文整理自 OceanBase 技术专家王赫(川粉)在 5 月 21 日 Flink CDC Meetup 的演讲。主要内容包括: OceanBase 介绍 Flink CD…
-
Flink ML API,为实时机器学习设计的算法接口与迭代引擎
▼ 关注「Apache Flink」,获取更多技术干货 ▼ 摘要:本文整理自阿里巴巴高级技术专家林东、阿里巴巴技术专家高赟(云骞)在 Flink Forward Asia 2021…
-
美团基于 Flink 的实时数仓平台建设新进展
▼ 关注「Apache Flink」,获取更多技术干货 ▼ 摘要:本文整理自美团实时数仓平台负责人姚冬阳在 Flink Forward Asia 2021 实时数仓专场的演讲。主要…
-
钱大妈基于 Flink 的实时风控实践
▼ 关注「Apache Flink」,获取更多技术干货 ▼ 摘要:本文作者彭明德,介绍了钱大妈与阿里云 Flink 实时计算团队共建实时风控规则引擎,精确识别羊毛党以防营销预算流失…
-
快手实时数仓保障体系研发实践
▼ 关注「Apache Flink」,获取更多技术干货 ▼ 摘要:本文整理自快手实时计算数据团队技术专家李天朔在 Flink Forward Asia 2021 实时数仓专场的演讲…
-
Flink 源码:广播流状态源码解析
Broadcast State 是 Operator State 的一种特殊类型。它的引入是为了支持这样的场景: 一个流的记录需要广播到所有下游任务,在这些用例中,它们用于在所有子任务中维护相同的状态。然后可以在处理第二个流的数据时访问这个广播状态,广播状态有自己的一些特性。
-
Flink SQL Client远程调试指南
在使用Flink SQL过程中,SQL Client想必大家都是非常熟悉的,本文介绍基于IDEA的SQL Client远程调试方法。 前提:本文使用的Flink版本为1.14.4,…
-
Flink + Prometheus + Grafana 实时监控最佳实践
我们都知道 Flink 任务是一个 7*24 小时不停运行的任务,所以对于任务的实时监控就显得尤为重要,因为任务运行的状态对于我们来说是一个黑盒,比如任务是否挂掉,是否存在反压,使用的内存,CPU 等情况我们是不知道的,虽然 Flink 的 UI 上面可以添加相关的 metrics 来查看,但是需要手动的一个一个添加,还是比较麻烦的,特别是在任务非常多的情况下.所以就需要有一种统一的监控方案来解决这个问题.Flink 本身提供了非常丰富的 Metric Reporters,比如 JMX InfluxDB Graphite Prometheus 等等,生产环境上用的比较多的是 InfluxDB 和 Prometheus ,我这里选择的是 Prometheus 来上报 Flink 的 metrics 然后通过 Grafana 进行展示.
-
干货 | 支持10X增长,携程机票订单库Sharding实践
作者简介 初八,携程资深研发经理,专注于订单后台系统架构优化工作;JefferyXin,携程高级后端开发专家,专注系统性能、业务架构等领域。 一、背景 随着机票订单业务的不断增…
-
干货 | 携程实体链接技术的探索及实践
作者简介 携程旅游AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品,其中知识图谱组专注旅游领域知识图谱的构建及应用落地。 一、背景介绍 随着网络应用技术的飞速发展,多元…
-
hudi时间旅行查询完整版
本文从头开始讲述使用Flink引擎实现hudi数据湖基于commit_time的查询语义。基本使用可参考前面文章hudi时间旅行查询 基本要求: 有一台机器部署docker用于安装…
-
干货 | 携程百亿级缓存系统探索之路——本地缓存结构选型与内存压缩
作者简介 一十,携程资深后端开发工程师;振青,携程高级后端开发专家。 一、前言 携程酒店查询服务是酒店BU后端的核心服务,主要负责提供所有酒店动态数据计算的统一接口。在处理请求的…
-
如何优化 Spark 小文件,Kyuubi 一步搞定!
“ Hive 表中太多的小文件会影响数据的查询性能和效率,同时加大了 HDFS NameNode 的压力。Hive (on MapReduce) 一般可以简单的通过一些参数来控…
-
如何给 Flink Print SQL Connector 添加随机取样功能?
Flink 提供了 Print SQL Connector 可以让我们非常方便的把数据打印到标准输出.有助于我们测试 SQL 任务,检验数据的正确性.
但是在生产环境中,上游的数据量是非常大的,如果直接把数据输出的话,可能会把标准输出文件打满,造成页面卡死的情况,反而不利于我们观测数据,所以我们可以对 Print SQL Connector 进行简单的改造,加一个随机取样的参数控制数据输出.
-
直播、游戏等全场景联防联控,B站精准流量感知风控实践
分享嘉宾:李家琛 哔哩哔哩 风控负责人 编辑整理:尹鹏庆 杭州师范大学 出品平台:DataFunTalk 导读:随着互联网时代的到来,互联网行业内业务模式在不断创新的同时也遭遇到了…
-
博文推荐|整合 Spring 与 Pulsar,在 Java 中构建微服务
本文翻译自 StreamNative 博客《Spring into Pulsar》,作者 Tim Spann,StreamNative 布道师。 译者简介 姜吉宁,开源爱好者、终生…