大数据
-
SQL能完成哪方面的计算?一文详解关系代数和SQL语法
数据分析的语言接口 OLAP计算引擎是一架机器,而操作这架机器的是编程语言。使用者通过特定语言告诉计算引擎,需要读取哪些数据、以及需要进行什么样的计算。编程语言有很多种,任何人都可…
-
企业微信零耦合集成腾讯会议和腾讯文档插件化架构实践
导语 | 企业微信 iOS 端作为代码超过800万行的大型项目,接入了腾讯会议、腾讯文档、企业邮箱等功能插件。要融合多个异构系统、支撑多个团队同时协作开发一个 APP 是极大的挑战…
-
网易游戏实时 HTAP 计费风控平台建设
摘要:本文整理自网易互娱资深工程师, Flink Contributor, CDC Contributor 林佳,在 FFA 实时风控专场的分享。本篇内容主要分为五个部分: 实时风…
-
实时数仓架构在流利说的实践
本文目录 背景 实时数仓可以为我们带来什么 技术方案选型 数据存储方案选型 Flink 开发平台选型 维表存储方案选型 Connector 开发 实时数仓整体架构 数据开发案例 数…
-
分布式可视化作业调度平台 DolphinScheduler MasterServer 设计核心要点揭秘
点击蓝字 关注我们 作者 | 欧阳业伟 01 导读 Apache DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度平台,致力于解决数据处理流程中…
-
四个步骤,教你落地稳定性保障工作
序-好记性不如烂笔头 稳定性是个啥? 第一次接触稳定性这个词是在加入阿里第一年的双十一KO会上。接触到限流、扩容、压测等词汇,只觉得稳定性工作是琐碎的、繁杂的、无流程性的、无明确衡…
-
vivo 故障定位平台的探索与实践
作者:vivo 互联网服务器团队- Liu Xin、Yu Dan 本文基于故障定位项目的实践,围绕根因定位算法的原理进行展开介绍。鉴于算法有一定的复杂度,本文通过图文的方式进行说明…
-
Apache Iceberg 中的 Z-Ordering 如何帮助提高性能
如果您已经采用或正在考虑测试 Apache Iceberg 作为组织和管理数据湖中所有原始数据文件(Parquet、ORC等)的表格式,那么现在,您可以直接对湖中的数据执行数据仓库…
-
美团2022年技术年货-合集 PDF下载
新春将至,一年一度的美团技术年货也如约到来。 时间煮雨,岁月缝花,花开无声,花谢无语。2022这一年,我们一起经历了无数的悲喜,也留下了满满的回忆。 也许生活就是这样,只有历尽波澜…
-
B站基于ClickHouse的海量用户行为分析应用实践
本期作者 陆志君 数仓平台资深数据开发工程师 赵卓男 哔哩哔哩资深开发工程师 张弛 哔哩哔哩高级开发工程师 王智博 哔哩哔哩资深开发工程师 01. 背景介绍 数据驱动理念已被各行各…
-
Apache Hudi 0.12.2发布
长期支持版本 我们的目标是维护 0.12 更长时间,并通过最新的 0.12.x 版本提供稳定版本供用户迁移。 此版本 (0.12.2) 是最新的 0.12 版本。 迁移指南 此版本…
-
基于 Log 的通用增量 Checkpoint
摘要:本文整理自 Apache Flink Contributor 俞航翔 9 月 24 日在 Apache Flink Meetup 的分享。主要内容包括: Checkpoint…
-
基于kcat将TPC-DS数据快速导入kafka集群
在大数据领域,TPC-DS是一个常用的基准测试框架。基准测试结果测量单用户模式下的查询响应时间、多用户模式下的查询吞吐量以及给定硬件、操作系统和数据处理系统配置在受控、复杂、多用户…
-
Flink写hudi报datanode异常以及解决办法
问题描述 这几天在使用tpcds数据对hudi 0.12.0写入性能进行压测,发现在数据写入半小时后,即出现异常,并且程序不断重启,任务异常日志如下: 2023-01-06 18:…
-
Java多线程编程实战指南-设计模式篇 PDF下载
基本内容 随着CPU 多核时代的到来,多线程编程在充分利用计算资源、提高软件服务质量方面扮演了越来越重要的角色。而 解决多线程编程中频繁出现的普遍问题可以借鉴设计模式所提供的现成解…
-
HotSpot实战 PDF下载
基本介绍 《HotSpot实战》深入浅出地讲解了HotSpot虚拟机的工作原理,将隐藏在它内部的本质内容逐一呈现在读者面前,包括OpenJDK与HotSpot项目、编译和调试Hot…
-
OpenJDK-调试 (CLion)
导入项目 1、openjdk 12及以上版本 openjdk-12及以上的版本可以采用compile_commands.json导入,这种方式导入可以解决clion采用生成CMak…
-
如何更好地使用Kafka?
点个关注?跟腾讯工程师学技术 引言| 要确保Kafka在使用过程中的稳定性,需要从kafka在业务中的使用周期进行依次保障。主要可以分为:事先预防(通过规范的使用、开发,预防问题产…
-
Hudi在兴盛优选数据湖应用中的实践
1.背景 ◆1.1 业务背景 Hudi作为主流的数据湖产品之一,解决了Hive无法更新的场景,由于支持ACID事务能力,所以也就能够很好的支撑实时读写,这在架构上就为流批一体提供了…
-
vivo 云原生容器探索和落地实践
作者:vivo 互联网容器团队- Pan Liangbiao 本文根据潘良彪老师在“2022 vivo开发者大会”现场演讲内容整理而成。 2018年起,vivo以容器作…