大数据
-
从0到1详解ZooKeeper的应用场景及架构原理
背景 ZooKeeper 深入ZooKeeper一致性协议原理 ZooKeeper服务端角色 一致性协议-ZAB ZAB协议读写流程 ZooKeeper Leader选举算法 Z…
-
B站基于Iceberg的湖仓一体架构实践
背景 在B站,每天都有PB级的数据注入到大数据平台,经过离线或实时的ETL建模后,提供给下游的分析、推荐及预测等场景使用。面对如此大规模的数据,如何高效低成本地满足下游数据的分析需…
-
B站大数据平台元数据业务分享
本期作者 沈汪洋 哔哩哔哩资深开发工程师 负责B站数据平台工具侧元数据、数据运营、数据管理等业务方向,专注于元数据采集、血缘应用、数据地图、建模工具、治理工具等工具或产品功能的落…
-
B站分布式KV存储混沌工程实践
本期作者 彭良友 哔哩哔哩资深测试开发工程师 负责B站基础架构存储/微服务质量保障,一直从事中间件的质量工程建设工作,专注于分布式系统测试方案设计,应用和推广。 01 背景 之前我…
-
分布式文件系统中快照隔离的实现方案
SI & MVCC 快照隔离(SI,Snapshot Isolation)是讨论隔离性时常见的术语,可以做两种的解读,一是具体的隔离级别,SQL Server、Cockro…
-
BiliBili使用Apache Hudi基于拉链表的全量表极限存储优化方案
01 背景 2020年以来,半导体生产不足,这个问题困扰着全世界。互联网企业高度依赖于网络基础设施和服务器设施,没有半导体就没有满足个人需要的个人电子消费品,也就没有蓬勃发展的互联…
-
Java实现布隆过滤器
布隆过滤器 海量数据处理以及缓存穿透这两个场景让我认识了 布隆过滤器 ,我查阅了一些资料来了解它,但是很多现成资料并不满足我的需求,所以就决定自己总结一篇关于布隆过滤器的文章。希望…
-
hudi 键的生成(Key Generation)
Hudi中的每条记录都由一个主键唯一标识,主键是用于记录所属的记录键和分区路径的参数。使用主键,Hudi可以强制a)分区级唯一性完整性约束b)允许快速更新和删除记录。应该明智地选择…
-
Streaming Data Warehouse 存储:需求与架构
作者|Jingsong Lee jingsonglee0@gmail.com 一、数仓中的计算 在计算机领域,数据仓库(DW 或 DWH),是一个用于报告和数据分析的系统,被认为是…
-
Meta公司新探索 | 利用Alluxio数据缓存降低Presto延迟
概要速览 Meta公司(前“Facebook公司”,下文统称“Meta”)的Presto团队一直在与Alluxio 合作为Presto提供开源数据缓存方案。该方案被用于M…
-
腾讯广告业务基于Apache Flink + Hudi的批流一体实践
1.业务背景介绍 广告主和代理商通过广告投放平台来进行广告投放,由多个媒介进行广告展示 ,从而触达到潜在用户。整个过程中会产生各种各样的数据,比如展现数据、点击数据。其中非常重要的…
-
Apache Arrow:一种适合异构大数据系统的内存列存数据格式标准
本文介绍一种内存列存数据格式:Apache Arrow,它有一个非常大的愿景:提供内存数据分析 (in-memory analytics) 的开发平台,让数据在异构大数据系统间移动…
-
StarRocks × Apache Flink:如何构建简单强大的实时数仓架构
实时数据分析正在成为企业数字化经营的核心,如何有效构建实时数据分析系统是每个企业都在面临的挑战。 当前在构建实时数仓时,由于数据源的多样性,需要使用不同的采集工具,如 Flume、…
-
万字长文详解HBase读写性能优化
一、HBase 读优化 1. HBase客户端优化 和大多数系统一样,客户端作为业务读写的入口,姿势使用不正确通常会导致本业务读延迟较高实际上存在一些使用姿势的推荐用法,这里一般需…
-
Kafka 负载均衡在 vivo 的落地实践
vivo 互联网服务器团队-You Shuo 副本迁移是Kafka最高频的操作,对于一个拥有几十万个副本的集群,通过人工去完成副本迁移是一件很困难的事情。Cruise Contro…
-
Hudi Transformers(转换器)
Apache Hudi提供了一个HoodieTransformer Utility,允许您在将源数据写入Hudi表之前对其进行转换。有几种开箱即用的转换器,您也可以构建自己的自定义…
-
hudi文件大小设置
本文档将向您展示Apache Hudi如何克服可怕的小文件问题。Hudi的一个关键设计决策是避免在一开始就创建小文件,并始终编写大小适当的文件。在Hudi中有两种管理小文件的方法,…
-
网易数帆数据中台逻辑数据湖的实践
导读:本文将介绍过去15年中,网易大数据团队在应对不断涌现的新需求、新痛点的过程中,逐渐形成的一套逻辑数据湖落地方法。内容分为五部分: 关于网易数帆 为什么做逻辑数据湖 怎么做逻辑…
-
Flink 1.15 新功能架构解析:高效稳定的通用增量 Checkpoint
作者|梅源(Yuan Mei)& Roman Khachatryan 流处理系统最重要的特性是端到端的延迟,端到端延迟是指开始处理输入数据到输出该数据产生的结果所需的时间…
-
docker搭建minio集群
分布式Minio可以让你将多块硬盘(甚至在不同的机器上)组成一个对象存储服务。由于硬盘分布在不同的节点上,分布式Minio避免了单点故障。 分布式Minio有什么好处? 在大数据领…