

bajiebajie2333编辑
-
分布式可视化作业调度平台 DolphinScheduler MasterServer 设计核心要点揭秘
点击蓝字 关注我们 作者 | 欧阳业伟 01 导读 Apache DolphinScheduler 是一个分布式易扩展的可视化 DAG 工作流任务调度平台,致力于解决数据处理流程中…
-
Apache Iceberg 中的 Z-Ordering 如何帮助提高性能
如果您已经采用或正在考虑测试 Apache Iceberg 作为组织和管理数据湖中所有原始数据文件(Parquet、ORC等)的表格式,那么现在,您可以直接对湖中的数据执行数据仓库…
-
B站基于ClickHouse的海量用户行为分析应用实践
本期作者 陆志君 数仓平台资深数据开发工程师 赵卓男 哔哩哔哩资深开发工程师 张弛 哔哩哔哩高级开发工程师 王智博 哔哩哔哩资深开发工程师 01. 背景介绍 数据驱动理念已被各行各…
-
基于 Log 的通用增量 Checkpoint
摘要:本文整理自 Apache Flink Contributor 俞航翔 9 月 24 日在 Apache Flink Meetup 的分享。主要内容包括: Checkpoint…
-
由浅入深读透vue源码:diff算法
导语 | 开发者工作中,研究代码逻辑常需要思考这个问题:数组变更后,具体变更了哪一些元素?变更的位置如何?本文作者陈碧松解析并覆写了针对数组变化的diff算法逻辑。希望本文对你有帮…
-
Java多线程编程实战指南-设计模式篇 PDF下载
基本内容 随着CPU 多核时代的到来,多线程编程在充分利用计算资源、提高软件服务质量方面扮演了越来越重要的角色。而 解决多线程编程中频繁出现的普遍问题可以借鉴设计模式所提供的现成解…
-
12000字!实战案例!Python+SQL京东用户行为分析
来源丨网络 1、项目背景 项目对京东电商运营数据集进行指标分析以了解用户购物行为特征,为运营决策提供支持建议。本文采用了MySQL和Python两种代码进行指标计算以适应不同的数据…
-
OpenJDK-调试 (CLion)
导入项目 1、openjdk 12及以上版本 openjdk-12及以上的版本可以采用compile_commands.json导入,这种方式导入可以解决clion采用生成CMak…
-
Hudi在兴盛优选数据湖应用中的实践
1.背景 ◆1.1 业务背景 Hudi作为主流的数据湖产品之一,解决了Hive无法更新的场景,由于支持ACID事务能力,所以也就能够很好的支撑实时读写,这在架构上就为流批一体提供了…
-
sqlite wal 分析
动手点关注 干货不迷路 sqlite 提供了一种 redo log 型事务实现,支持读写的并发,见 write-ahead log(https://sqlite.org/wal.h…
-
OPPO大数据诊断平台设计与实践
01 背景 随着欧加集团大数据业务的发展,现阶段公司大数据平台20+个组件,1EB+级别数据量,平台1000人均日活,服务已经有相当大的规模。在这样的业务背景下,越来越多的用户在使…
-
分布式sql引擎原理分析-逻辑执行计划生成
不管是传统数据库或者基于sql的分布式大数据分析工具,基本原理都是把一个sql转换成sql语法树(AST),通过对语法树的分析转换成执行计划。传统数据库会根据执行计划通过执行引擎并…
-
B站数据服务中台建设实践
01 背景 随着公司业务的发展,对于数据的需求会越来越多。怎么在业务系统中高效的使用数据,让业务系统处理大数据时化繁为简,数据服务化基本是必经之路。那么什么是数据服务化,简单理解就…
-
程序员的数学 PDF下载
基本介绍 《程序员的数学 第2版》面向程序员介绍了编程中常用的数学知识,借以培养初级程序员的数学思维。读者无须精通编程,也无须精通数学,只要具备四则运算和乘方等基础知识,即可阅读本…
-
Kubernetes 排错、调试常用方法总结
在 k8s 云环境中,我们需要在容器内抓包进行 Debug, 但通常大多容器都没有安装 tcpdump 以及其他网络工具;在托管 k8s 中我们想登录 node,不是没权限就是步骤…
-
阿里张弛:企业数据安全中的数据脱敏
分享嘉宾:张驰 阿里巴巴本地生活 编辑整理:罗擘 香港中文大学 出品平台:DataFunTalk 导读:随着各国数据安全保护法的颁布,数据安全已经成为大数据应用行业的关键课题。如何…
-
Java本地高性能缓存实践
Java缓存技术可分为远端缓存和本地缓存,远端缓存常用的方案有著名的redis和memcache,而本地缓存的代表技术主要有HashMap,Guava Cache,Caffeine…
-
实时湖仓一体规模化实践:腾讯广告日志平台
1. 背景 1.1 整体架构 腾讯广告系统中的日志数据流,按照时效性可划分为实时和离线,实时日志通过消息队列供下游消费使用,离线日志需要保存下来,供下游准实时(分钟级)计算任务,离…
-
开源 | WLock:分布式锁平滑迁移实践
W WLock ● 项目名称:WLock ● Github地址: https://github.com/wuba/WLock.git ● 简介:WLock是一套基于58已开源的一致…
-
工业数据治理和数据资源化思考与实践
导读:近年来,数据治理和数据资产化成为了工业数字化进程中的重点,得到了越来越多企业的重视。如果您是企业数据技术团队负责人,负责数据治理或者数据管理相关工作,董事长或总经理需要围绕企…