大数据
-
k8s快速部署kafka 3.3.1
在平常开发测试中,使用docker或者k8s快速部署某个组件会是一个不错的选择。kafka 3.3.1作为kraft第一个生产可用版本,本文介绍使用k8s快速部署基于kraft运行…
-
数据湖技术在抖音近实时场景的实践
本文为字节跳动基于数据湖技术的近实时场景实践,主要包括以下几部分内容:数据湖技术的特性、近实时技术的架构、电商数仓实践、未来的挑战与规划。 文 | 汶园 来自字节跳动数据平台数据B…
-
深入设计模式 PDF下载
文章内容 本文为亚历山大·什韦茨所著深入设计模式图书 下载地址: 隐藏内容,扫描左侧二维码关注【从大数据到人工智能】公众号,发送【验证码】获验证信息
-
数据治理:指标体系管理
来源:迪答数据 全文共 2629 字,建议阅读 7 分钟 在数据治理中,数据指标一般都是业务中最基础的分析内容,但是业务不断地快速发展迭代,指标管理上就会出现很多问题。所以在数据治…
-
网易数帆数据治理演进
导读:本文将分享网易数帆数据治理的发展过程,以及对现代数据治理的概念和理念的理解,提出现代数据治理应该与数据开发和消费很好地衔接,具备开发治理一体化、形成治理的闭环、仓内仓外统一治…
-
分布式面试题 PDF下载
PDF内容 内容摘要 分布式基础集群、分布式、SOA、微服务的概念及区别集群:不同服务器部署同一套应用服务对外提供访问,实现服务的负载均衡或者互备(热备,主从等),指同一种组件的多…
-
开源 | WLock:分布式锁平滑迁移实践
W WLock ● 项目名称:WLock ● Github地址: https://github.com/wuba/WLock.git ● 简介:WLock是一套基于58已开源的一致…
-
工业数据治理和数据资源化思考与实践
导读:近年来,数据治理和数据资产化成为了工业数字化进程中的重点,得到了越来越多企业的重视。如果您是企业数据技术团队负责人,负责数据治理或者数据管理相关工作,董事长或总经理需要围绕企…
-
StarRocks 支持 Apache Hudi实践
近年来,随着大数据分析技术的进步,大量业务场景对数据仓库的实时性提出了更高的要求,Lakehouse 架构逐渐被各大公司熟悉和接受,Apache Hudi(以下简称 Hudi)、A…
-
顺丰科技数据治理实践
导读:本文介绍顺丰科技在数据治理方面的实践。分享分为两个部分,第一部分总体介绍顺丰科技在整个数据治理过程中的心路历程:我们做了哪些工作,在数据治理各个领域,分别做了什么事情。第二部…
-
RAFT算法详解
一、Raft算法概述 1、三种角色 Raft是一个用于管理日志一致性的协议。它将分布式一致性分解为多个子问题:Leader选举(Leader election)、日志复制(Lo…
-
大咖分享 | 如何构建 Alluxio 审计日志分析系统
(本文作者) 大数据技术日新月异,数据湖、数据中台、逻辑数据湖、数据编织、数据编排等数据建设理念不断出现、深化,究其根本依然是如何能够将数据规整起来,以统一的规范对数据的脉络进行梳…
-
Tair 对 Redis 引擎架构之争的看法
背景 2022 年 6 月 8 日,Redis Inc. 的官方博客发布了一篇名为《13 年后,Redis 是否需要一个新架构?》[1]的文章,这篇文章由 Redis 的联合创始人…
-
RoaringBitmap介绍(中文翻译)
原地址:https://github.com/RoaringBitmap/RoaringBitmap Bitsets,也称为bitmaps,通常用作快速数据结构。 不幸的是,它们可…
-
Puffin and Iceberg: 海雀与冰山齐飞
Apache Iceberg 社区推出了一种名为 Puffin 的新文件格式。 等一下。 我们有 Parquet 和 ORC。我们真的需要另一种文件格式吗? 它是否给我们带来了额外…
-
2022 年容器生态系统的 9 大趋势洞察
这项研究建立在 Datadog 以前版本的容器使用报告[1]、容器编排报告[2]和Docker 研究报告[3]的基础上。最新更新于 2022 年 11 月。译自:https://w…
-
更快更稳更易用: Flink 自适应批处理能力演进
+ 摘要:本文整理自阿里巴巴高级技术专家朱翥、阿里巴巴高级技术专家贺小令在 9 月 24 日 Apache Flink Meetup 的演讲。主要内容包括: Adaptive Ba…
-
官宣|Apache Flink 1.16 发布公告
作者|贺小令 Apache Flink 持续保持高速发展,是 Apache 最活跃的社区之一。Flink 1.16 共有 240 多个 Contributor 热情参与,共完成了 …
-
hive metastore为MySQL时的中文乱码问题
问题一 当hive的metastore为MySQL时,数据库及表编码都必须是latin1(CHARACTER SET latin1 COLLATE latin1_bin),否则会有…
-
聊聊大数据下的存算分离
导读: 大数据集群从最初开始建设时,一般都采用存算一体化的架构,主要是考虑部署简单、管理起来也方便。但是随着集群规模的不断扩大,在整个集群的资源规划和稳定性上都遭受到了不同程度的挑…