大数据
-
事件时间 – 生成Watermark
在本节中,你将了解 Flink 中用于处理事件时间的时间戳和 watermark 相关的 API。有关事件时间,_处理时间_和_摄取时间_的介绍,请参阅事件时间概览小节。 Wate…
-
Flink 执行模式(流/批)
DataStream API 支持不同的运行时执行模式,你可以根据你的用例需要和作业特点进行选择。 DataStream API 有一种”经典“的执行行为,我们称之为流(STREA…
-
Flink DataStream API编程指南
Flink 中的 DataStream 程序是对数据流(例如过滤、更新状态、定义窗口、聚合)进行转换的常规程序。数据流的起始是从各种源(例如消息队列、套接字流、文件)创建的。结果通…
-
Opensearch基本介绍
OpenSearch 是一个社区驱动的开源搜索和分析套件,开发人员使用该套件来摄取、搜索、可视化和分析数据。 OpenSearch 由数据存储和搜索引擎 (OpenSearch)、…
-
揭秘阿里云 Flink 智能诊断利器——Flink Job Advisor
01 引言 阿里云实时计算 Flink 作为一款专业级别的高性能实时大数据处理系统,它在各种业务场景中都发挥了关键的作用。丰富而复杂的上下游系统让它能够支撑实时数仓、实时风控、实时…
-
Apache Flink 在微信业务场景下的内核及应用优化
引言 Flink 在大数据流处理方面具有高吞吐、低延迟等优势,其作为微信大数据平台 Gemini-2.0 的实时流计算引擎,支撑了微信实时推荐、实时数仓、实时风控等多个业务场景的应…
-
ubuntu 22.04安装mysql 8.0与避坑指南
MySQL 是一个开源数据库管理系统,可作为流行的 LAMP(Linux、Apache、MySQL、PHP/Python/Perl)堆栈的一部分安装。 它实现了关系模型并使用结构化…
-
ubuntu 22.04安装PostgreSQL
关系数据库管理系统是许多网站和应用程序的关键组件。 它们提供了一种结构化的方式来存储、组织和访问信息。 PostgreSQL 或 Postgres 是一种关系数据库管理系统,它提供…
-
Flink SQL中的数据类型
Flink SQL 为用户提供了一系列丰富的原始数据类型。 数据类型 在 Flink 的 Table 生态系统中,数据类型 描述了数据的逻辑类型,可以用来表示转换过程中输入、输出的…
-
chatgpt助力大数据数仓开发实践,效果惊艳
故事的开始是这样的,大数据开发删了几张表,过了2天才发现删错了,于是开发找我恢复表,我看了下数据还在回收站,问题不大。只需要建表,把所有的分区数据mv回去,然后msck…
-
涤生大数据HDFS小文件治理总结
随着大数据时代的到来,数据量不断增长,HDFS也成为了数据存储和处理的重要组成部分。然而,由于HDFS的设计原理和文件存储方式,HDFS系统中存在大量的小文件,这些小文件会导致HD…
-
货拉拉大数据离线混合引擎服务建设实践
1. 背景 货拉拉作为一家数据智能驱动的科技物流型平台企业,内部分析师和研发人员等每天会通过大数据服务进行大量 ad-hoc 查询分析。通过 NPS 调研发现用户普遍反馈 ad-h…
-
Flink SQL 的数据脱敏解决方案
Flink SQL 的数据脱敏解决方案,支持面向用户级别的数据脱敏访问控制,即特定用户只能访问到脱敏后的数据。此方案是实时领域Flink的解决思路,类似于离线数仓 Hive 中 R…
-
B站大数据集群混部实践(上)- 资源超配篇
本期作者 陈昱康 哔哩哔哩离线平台负责人 卜凡 哔哩哔哩高级开发工程师 吴剑亮 哔哩哔哩资深开发工程师 1.背景 在过去一年的时间里,B站离线平台资源调度侧的主要挑战有两个方面: …
-
B站账号多租户架构升级与落地实践
本期作者 韩建凯 哔哩哔哩资深开发工程师 背景 当前账号系统从研发维护的角度有以下痛点: 账号研发团队支持多条业务线:B站国内版、B站国际版、海外游戏等。但当前每一个业务线都是独立…
-
一次线上JVM调优实践,FullGC40次/天到10天一次的优化过程
哈喽大家好,我是阿Q! 通过这一个多月的努力,将 FullGC 从40次/天优化到近10天才触发一次,而且 YoungGC 的时间也减少了一半以上,这么大的优化,有必要记录一下中间…
-
Hybrid Shuffle 测试分析和使用建议
摘要:Apache Flink 社区在 1.16 版本引入了 Hybrid Shuffle Mode [1],它是传统的 Batch Shuffle 和 Pipelined Shu…
-
OPPO 大数据诊断平台“罗盘”正式开源
PART 01 背景 OPPO 大数据平台目前有 20+个服务组件,数据量超 1EB,离线任务数近百万,实时任务数千,数据开发分析师超千人。这也带来了系统复杂度的问题,一方面是用户…
-
云原生架构下B站Flink存算分离的改造实践
本期作者 张陈毅 哔哩哔哩资深开发工程师 曹杰 哔哩哔哩资深开发工程师 1. 背景 在当前整个行业及公司内部降本增效的大背景下,B站内部也在积极推进实时与在线业务资源的整合,往云原…
-
Spark on GraalVM在facebook的应用
Facebook 正在使用 GraalVM 来加速其 Spark 工作负载并减少内存和 CPU 使用率。 继续阅读以了解他们的迁移故事、性能改进结果和未来计划。 Facebook …