后端
-
工业数据治理和数据资源化思考与实践
导读:近年来,数据治理和数据资产化成为了工业数字化进程中的重点,得到了越来越多企业的重视。如果您是企业数据技术团队负责人,负责数据治理或者数据管理相关工作,董事长或总经理需要围绕企…
-
StarRocks 支持 Apache Hudi实践
近年来,随着大数据分析技术的进步,大量业务场景对数据仓库的实时性提出了更高的要求,Lakehouse 架构逐渐被各大公司熟悉和接受,Apache Hudi(以下简称 Hudi)、A…
-
顺丰科技数据治理实践
导读:本文介绍顺丰科技在数据治理方面的实践。分享分为两个部分,第一部分总体介绍顺丰科技在整个数据治理过程中的心路历程:我们做了哪些工作,在数据治理各个领域,分别做了什么事情。第二部…
-
RAFT算法详解
一、Raft算法概述 1、三种角色 Raft是一个用于管理日志一致性的协议。它将分布式一致性分解为多个子问题:Leader选举(Leader election)、日志复制(Lo…
-
大咖分享 | 如何构建 Alluxio 审计日志分析系统
(本文作者) 大数据技术日新月异,数据湖、数据中台、逻辑数据湖、数据编织、数据编排等数据建设理念不断出现、深化,究其根本依然是如何能够将数据规整起来,以统一的规范对数据的脉络进行梳…
-
Tair 对 Redis 引擎架构之争的看法
背景 2022 年 6 月 8 日,Redis Inc. 的官方博客发布了一篇名为《13 年后,Redis 是否需要一个新架构?》[1]的文章,这篇文章由 Redis 的联合创始人…
-
RoaringBitmap介绍(中文翻译)
原地址:https://github.com/RoaringBitmap/RoaringBitmap Bitsets,也称为bitmaps,通常用作快速数据结构。 不幸的是,它们可…
-
论元数据在可观测性中的重要性
作者:陈晨,DeepFLow 产品架构师 虚拟化和容器化让应用的部署环境和运行环境变得复杂起来,系统的复杂度呈指数级增长。在垂直领域下各个可观测性开源产品的侧重点也是不同,那打通这…
-
Puffin and Iceberg: 海雀与冰山齐飞
Apache Iceberg 社区推出了一种名为 Puffin 的新文件格式。 等一下。 我们有 Parquet 和 ORC。我们真的需要另一种文件格式吗? 它是否给我们带来了额外…
-
2022 年容器生态系统的 9 大趋势洞察
这项研究建立在 Datadog 以前版本的容器使用报告[1]、容器编排报告[2]和Docker 研究报告[3]的基础上。最新更新于 2022 年 11 月。译自:https://w…
-
更快更稳更易用: Flink 自适应批处理能力演进
+ 摘要:本文整理自阿里巴巴高级技术专家朱翥、阿里巴巴高级技术专家贺小令在 9 月 24 日 Apache Flink Meetup 的演讲。主要内容包括: Adaptive Ba…
-
官宣|Apache Flink 1.16 发布公告
作者|贺小令 Apache Flink 持续保持高速发展,是 Apache 最活跃的社区之一。Flink 1.16 共有 240 多个 Contributor 热情参与,共完成了 …
-
hive metastore为MySQL时的中文乱码问题
问题一 当hive的metastore为MySQL时,数据库及表编码都必须是latin1(CHARACTER SET latin1 COLLATE latin1_bin),否则会有…
-
聊聊大数据下的存算分离
导读: 大数据集群从最初开始建设时,一般都采用存算一体化的架构,主要是考虑部署简单、管理起来也方便。但是随着集群规模的不断扩大,在整个集群的资源规划和稳定性上都遭受到了不同程度的挑…
-
Apache Kyuubi on CDH 在竞技世界大数据平台实践
“ 为了满足业务大数据架构使用多种sql引擎:spark,flink,trino(同时查询 hive,clickhouse 等),需要部署一个统一的sql入口,该入口满足多引擎多平…
-
字节跳动基于 Apache Atlas 的近实时消息同步能力优化
字节数据中台DataLeap的Data Catalog系统通过接收MQ中的近实时消息来同步部分元数据。Apache Atlas对于实时消息的消费处理不满足性能要求,内部使用Flin…
-
翼支付数据治理实践之元数据管理
导读:元数据管理是企业数据治理的基础。企业以元数据为基石进行数据治理,帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策。希望通过本次讲解翼支付数据治理…
-
k8s部署nexus maven仓库指南
deployment描述文件信息: apiVersion: apps/v1 kind: Deployment metadata: labels: k8s-app: nexus3 n…
-
解决spark sql读取hudi表出现偶然读不出来数据问题
相关版本 hadoop 3.2.0 spark 3.3.0 hudi 0.12.0 问题分析 用beeline连接spark thriftserver或者kyuubi(spark …
-
字节跳动流式数仓和实时分析服务的思考和实践
分享嘉宾:汪建锋 火山引擎 技术专家 编辑整理:张玮 出品平台:DataFunTalk 导读:字节跳动旗下有许多产品,每天有大量的数据需要接收和计算。其中,以抖音、头条等为代表的产…