大数据

后端

k8s快速部署kafka 3.3.1

在平常开发测试中，使用docker或者k8s快速部署某个组件会是一个不错的选择。kafka 3.3.1作为kraft第一个生产可用版本，本文介绍使用k8s快速部署基于kraft运行…

xiaozhch5
2022-11-25
046600
Hudi

数据湖技术在抖音近实时场景的实践

本文为字节跳动基于数据湖技术的近实时场景实践，主要包括以下几部分内容：数据湖技术的特性、近实时技术的架构、电商数仓实践、未来的挑战与规划。文 | 汶园来自字节跳动数据平台数据B…

xiaozhch5
2022-11-24
018700
后端

深入设计模式 PDF下载

文章内容本文为亚历山大·什韦茨所著深入设计模式图书下载地址：隐藏内容，扫描左侧二维码关注【从大数据到人工智能】公众号，发送【验证码】获验证信息

xiaozhch5
2022-11-22
01.7K00
后端

数据治理：指标体系管理

来源：迪答数据全文共 2629 字，建议阅读 7 分钟在数据治理中，数据指标一般都是业务中最基础的分析内容，但是业务不断地快速发展迭代，指标管理上就会出现很多问题。所以在数据治…

xiaozhch5
2022-11-22
043900
后端

网易数帆数据治理演进

导读：本文将分享网易数帆数据治理的发展过程，以及对现代数据治理的概念和理念的理解，提出现代数据治理应该与数据开发和消费很好地衔接，具备开发治理一体化、形成治理的闭环、仓内仓外统一治…

xiaozhch5
2022-11-22
017800
后端

分布式面试题 PDF下载

PDF内容内容摘要分布式基础集群、分布式、SOA、微服务的概念及区别集群：不同服务器部署同一套应用服务对外提供访问，实现服务的负载均衡或者互备(热备，主从等)，指同一种组件的多…

xiaozhch5
2022-11-22
019010
后端

开源 | WLock：分布式锁平滑迁移实践

W WLock ● 项目名称：WLock ● Github地址： https://github.com/wuba/WLock.git ● 简介：WLock是一套基于58已开源的一致…

bajiebajie2333
2022-11-17
015000
工业数据治理和数据资源化思考与实践

导读：近年来，数据治理和数据资产化成为了工业数字化进程中的重点，得到了越来越多企业的重视。如果您是企业数据技术团队负责人，负责数据治理或者数据管理相关工作，董事长或总经理需要围绕企…

bajiebajie2333
2022-11-16 • 后端
012800
后端

StarRocks 支持 Apache Hudi实践

近年来，随着大数据分析技术的进步，大量业务场景对数据仓库的实时性提出了更高的要求，Lakehouse 架构逐渐被各大公司熟悉和接受，Apache Hudi（以下简称 Hudi）、A…

xiaozhch5
2022-11-14
030700
后端

顺丰科技数据治理实践

导读：本文介绍顺丰科技在数据治理方面的实践。分享分为两个部分，第一部分总体介绍顺丰科技在整个数据治理过程中的心路历程：我们做了哪些工作，在数据治理各个领域，分别做了什么事情。第二部…

xiaozhch5
2022-11-14
035800
后端

RAFT算法详解

一、Raft算法概述 1、三种角色 Raft是一个用于管理日志一致性的协议。它将分布式一致性分解为多个子问题：Leader选举（Leader election）、日志复制（Lo…

xiaozhch5
2022-11-10
023610
Alluxio

大咖分享 | 如何构建 Alluxio 审计日志分析系统

（本文作者）大数据技术日新月异，数据湖、数据中台、逻辑数据湖、数据编织、数据编排等数据建设理念不断出现、深化，究其根本依然是如何能够将数据规整起来，以统一的规范对数据的脉络进行梳…

jellyfin
2022-11-09
018800
后端

Tair 对 Redis 引擎架构之争的看法

背景 2022 年 6 月 8 日，Redis Inc. 的官方博客发布了一篇名为《13 年后，Redis 是否需要一个新架构？》[1]的文章，这篇文章由 Redis 的联合创始人…

xiaozhch5
2022-11-09
019310
后端

RoaringBitmap介绍（中文翻译）

原地址：https://github.com/RoaringBitmap/RoaringBitmap Bitsets，也称为bitmaps，通常用作快速数据结构。不幸的是，它们可…

xiaozhch5
2022-11-09
045300
Iceberg

Puffin and Iceberg：海雀与冰山齐飞

Apache Iceberg 社区推出了一种名为 Puffin 的新文件格式。等一下。我们有 Parquet 和 ORC。我们真的需要另一种文件格式吗? 它是否给我们带来了额外…

jellyfin
2022-11-08
01.8K00
后端

2022 年容器生态系统的 9 大趋势洞察

这项研究建立在 Datadog 以前版本的容器使用报告[1]、容器编排报告[2]和Docker 研究报告[3]的基础上。最新更新于 2022 年 11 月。译自：https://w…

xiaozhch5
2022-11-07
020310
更快更稳更易用: Flink 自适应批处理能力演进

+ 摘要：本文整理自阿里巴巴高级技术专家朱翥、阿里巴巴高级技术专家贺小令在 9 月 24 日 Apache Flink Meetup 的演讲。主要内容包括： Adaptive Ba…

xiaozhch5
2022-11-07 • Flink
030800
Flink

官宣｜Apache Flink 1.16 发布公告

作者｜贺小令 Apache Flink 持续保持高速发展，是 Apache 最活跃的社区之一。Flink 1.16 共有 240 多个 Contributor 热情参与，共完成了 …

xiaozhch5
2022-11-03
033320
Hive

hive metastore为MySQL时的中文乱码问题

问题一当hive的metastore为MySQL时，数据库及表编码都必须是latin1(CHARACTER SET latin1 COLLATE latin1_bin)，否则会有…

xiaozhch5
2022-10-28
055600
后端

聊聊大数据下的存算分离

导读：大数据集群从最初开始建设时，一般都采用存算一体化的架构，主要是考虑部署简单、管理起来也方便。但是随着集群规模的不断扩大，在整个集群的资源规划和稳定性上都遭受到了不同程度的挑…

xiaozhch5
2022-10-27
055800