大数据
-
Apache Iceberg 中的 Z-Ordering 如何帮助提高性能
如果您已经采用或正在考虑测试 Apache Iceberg 作为组织和管理数据湖中所有原始数据文件(Parquet、ORC等)的表格式,那么现在,您可以直接对湖中的数据执行数据仓库…
-
美团2022年技术年货-合集 PDF下载
新春将至,一年一度的美团技术年货也如约到来。 时间煮雨,岁月缝花,花开无声,花谢无语。2022这一年,我们一起经历了无数的悲喜,也留下了满满的回忆。 也许生活就是这样,只有历尽波澜…
-
B站基于ClickHouse的海量用户行为分析应用实践
本期作者 陆志君 数仓平台资深数据开发工程师 赵卓男 哔哩哔哩资深开发工程师 张弛 哔哩哔哩高级开发工程师 王智博 哔哩哔哩资深开发工程师 01. 背景介绍 数据驱动理念已被各行各…
-
Apache Hudi 0.12.2发布
长期支持版本 我们的目标是维护 0.12 更长时间,并通过最新的 0.12.x 版本提供稳定版本供用户迁移。 此版本 (0.12.2) 是最新的 0.12 版本。 迁移指南 此版本…
-
基于 Log 的通用增量 Checkpoint
摘要:本文整理自 Apache Flink Contributor 俞航翔 9 月 24 日在 Apache Flink Meetup 的分享。主要内容包括: Checkpoint…
-
基于kcat将TPC-DS数据快速导入kafka集群
在大数据领域,TPC-DS是一个常用的基准测试框架。基准测试结果测量单用户模式下的查询响应时间、多用户模式下的查询吞吐量以及给定硬件、操作系统和数据处理系统配置在受控、复杂、多用户…
-
Flink写hudi报datanode异常以及解决办法
问题描述 这几天在使用tpcds数据对hudi 0.12.0写入性能进行压测,发现在数据写入半小时后,即出现异常,并且程序不断重启,任务异常日志如下: 2023-01-06 18:…
-
Java多线程编程实战指南-设计模式篇 PDF下载
基本内容 随着CPU 多核时代的到来,多线程编程在充分利用计算资源、提高软件服务质量方面扮演了越来越重要的角色。而 解决多线程编程中频繁出现的普遍问题可以借鉴设计模式所提供的现成解…
-
HotSpot实战 PDF下载
基本介绍 《HotSpot实战》深入浅出地讲解了HotSpot虚拟机的工作原理,将隐藏在它内部的本质内容逐一呈现在读者面前,包括OpenJDK与HotSpot项目、编译和调试Hot…
-
OpenJDK-调试 (CLion)
导入项目 1、openjdk 12及以上版本 openjdk-12及以上的版本可以采用compile_commands.json导入,这种方式导入可以解决clion采用生成CMak…
-
如何更好地使用Kafka?
点个关注?跟腾讯工程师学技术 引言| 要确保Kafka在使用过程中的稳定性,需要从kafka在业务中的使用周期进行依次保障。主要可以分为:事先预防(通过规范的使用、开发,预防问题产…
-
Hudi在兴盛优选数据湖应用中的实践
1.背景 ◆1.1 业务背景 Hudi作为主流的数据湖产品之一,解决了Hive无法更新的场景,由于支持ACID事务能力,所以也就能够很好的支撑实时读写,这在架构上就为流批一体提供了…
-
vivo 云原生容器探索和落地实践
作者:vivo 互联网容器团队- Pan Liangbiao 本文根据潘良彪老师在“2022 vivo开发者大会”现场演讲内容整理而成。 2018年起,vivo以容器作…
-
sqlite wal 分析
动手点关注 干货不迷路 sqlite 提供了一种 redo log 型事务实现,支持读写的并发,见 write-ahead log(https://sqlite.org/wal.h…
-
基于大数据的App漏洞分析与挖掘
为贯彻落实工业和信息化部、国家互联网信息办公室、公安部联合印发的《网络产品安全漏洞管理规定》,2021年8月26日,工业和信息化部移动互联网App产品安全漏洞库发布会暨安全漏洞管理…
-
OPPO大数据诊断平台设计与实践
01 背景 随着欧加集团大数据业务的发展,现阶段公司大数据平台20+个组件,1EB+级别数据量,平台1000人均日活,服务已经有相当大的规模。在这样的业务背景下,越来越多的用户在使…
-
Glacier:OPPO智能湖仓服务底座
01 前言 沉寂已久的大数据技术圈,因为数据湖的概念变得热了起来,一时间,数据湖,湖仓一体,智能湖仓,众多概念如雨后春笋。数据湖用来存储和处理大量结构化、半结构化和非结构化数据。提…
-
分布式sql引擎原理分析-逻辑执行计划生成
不管是传统数据库或者基于sql的分布式大数据分析工具,基本原理都是把一个sql转换成sql语法树(AST),通过对语法树的分析转换成执行计划。传统数据库会根据执行计划通过执行引擎并…
-
B站数据服务中台建设实践
01 背景 随着公司业务的发展,对于数据的需求会越来越多。怎么在业务系统中高效的使用数据,让业务系统处理大数据时化繁为简,数据服务化基本是必经之路。那么什么是数据服务化,简单理解就…
-
RocketMQ Schema——让消息成为流动的结构化数据
本文作者:许奕斌,阿里云智能高级研发工程师。 Why we need schema RocketMQ 目前对于消息体没有任何数据格式的约束,可以是 JSON ,可以是对象 toSt…