大数据
-
揭秘阿里云 Flink 智能诊断利器——Flink Job Advisor
01 引言 阿里云实时计算 Flink 作为一款专业级别的高性能实时大数据处理系统,它在各种业务场景中都发挥了关键的作用。丰富而复杂的上下游系统让它能够支撑实时数仓、实时风控、实时…
-
Apache Flink 在微信业务场景下的内核及应用优化
引言 Flink 在大数据流处理方面具有高吞吐、低延迟等优势,其作为微信大数据平台 Gemini-2.0 的实时流计算引擎,支撑了微信实时推荐、实时数仓、实时风控等多个业务场景的应…
-
ubuntu 22.04安装mysql 8.0与避坑指南
MySQL 是一个开源数据库管理系统,可作为流行的 LAMP(Linux、Apache、MySQL、PHP/Python/Perl)堆栈的一部分安装。 它实现了关系模型并使用结构化…
-
ubuntu 22.04安装PostgreSQL
关系数据库管理系统是许多网站和应用程序的关键组件。 它们提供了一种结构化的方式来存储、组织和访问信息。 PostgreSQL 或 Postgres 是一种关系数据库管理系统,它提供…
-
Flink SQL中的数据类型
Flink SQL 为用户提供了一系列丰富的原始数据类型。 数据类型 在 Flink 的 Table 生态系统中,数据类型 描述了数据的逻辑类型,可以用来表示转换过程中输入、输出的…
-
chatgpt助力大数据数仓开发实践,效果惊艳
故事的开始是这样的,大数据开发删了几张表,过了2天才发现删错了,于是开发找我恢复表,我看了下数据还在回收站,问题不大。只需要建表,把所有的分区数据mv回去,然后msck…
-
涤生大数据HDFS小文件治理总结
随着大数据时代的到来,数据量不断增长,HDFS也成为了数据存储和处理的重要组成部分。然而,由于HDFS的设计原理和文件存储方式,HDFS系统中存在大量的小文件,这些小文件会导致HD…
-
货拉拉大数据离线混合引擎服务建设实践
1. 背景 货拉拉作为一家数据智能驱动的科技物流型平台企业,内部分析师和研发人员等每天会通过大数据服务进行大量 ad-hoc 查询分析。通过 NPS 调研发现用户普遍反馈 ad-h…
-
Flink SQL 的数据脱敏解决方案
Flink SQL 的数据脱敏解决方案,支持面向用户级别的数据脱敏访问控制,即特定用户只能访问到脱敏后的数据。此方案是实时领域Flink的解决思路,类似于离线数仓 Hive 中 R…
-
B站大数据集群混部实践(上)- 资源超配篇
本期作者 陈昱康 哔哩哔哩离线平台负责人 卜凡 哔哩哔哩高级开发工程师 吴剑亮 哔哩哔哩资深开发工程师 1.背景 在过去一年的时间里,B站离线平台资源调度侧的主要挑战有两个方面: …
-
B站账号多租户架构升级与落地实践
本期作者 韩建凯 哔哩哔哩资深开发工程师 背景 当前账号系统从研发维护的角度有以下痛点: 账号研发团队支持多条业务线:B站国内版、B站国际版、海外游戏等。但当前每一个业务线都是独立…
-
一次线上JVM调优实践,FullGC40次/天到10天一次的优化过程
哈喽大家好,我是阿Q! 通过这一个多月的努力,将 FullGC 从40次/天优化到近10天才触发一次,而且 YoungGC 的时间也减少了一半以上,这么大的优化,有必要记录一下中间…
-
Hybrid Shuffle 测试分析和使用建议
摘要:Apache Flink 社区在 1.16 版本引入了 Hybrid Shuffle Mode [1],它是传统的 Batch Shuffle 和 Pipelined Shu…
-
OPPO 大数据诊断平台“罗盘”正式开源
PART 01 背景 OPPO 大数据平台目前有 20+个服务组件,数据量超 1EB,离线任务数近百万,实时任务数千,数据开发分析师超千人。这也带来了系统复杂度的问题,一方面是用户…
-
云原生架构下B站Flink存算分离的改造实践
本期作者 张陈毅 哔哩哔哩资深开发工程师 曹杰 哔哩哔哩资深开发工程师 1. 背景 在当前整个行业及公司内部降本增效的大背景下,B站内部也在积极推进实时与在线业务资源的整合,往云原…
-
Spark on GraalVM在facebook的应用
Facebook 正在使用 GraalVM 来加速其 Spark 工作负载并减少内存和 CPU 使用率。 继续阅读以了解他们的迁移故事、性能改进结果和未来计划。 Facebook …
-
尘锋信息基于 Apache Paimon 的流批一体湖仓实践
摘要 尘锋信息基于 Apache Paimon 构建流批一体湖仓,主要分享: 整库入湖,TB 级数据近实时入湖 基于 Flink + Paimon 的数仓 批 ETL 建设 基于 …
-
Airwallex 基于 Flink 打造实时风控系统
摘要:本文整理自 Airwallex Risk ML Platform Team 董大凡,在 Flink Forward Asia 2022 实时风控专场的分享。本篇内容主要分为五…
-
GraalVM基本介绍
GraalVM 是一种高性能 JDK,旨在加速用 Java 和其他 JVM 语言编写的应用程序的执行,同时还为 JavaScript、Python 和许多其他流行语言提供运行时。 …
-
Alluxio性能调优
本文档介绍了各种调优 Alluxio 性能的技巧和配置。 常见性能问题 以下是在调整性能时用于解决常见问题的清单: 所有节点都在工作吗? 检查 Alluxio 集群是否健康。 您可…