后端
-
官宣|Apache Flink 1.16 发布公告
作者|贺小令 Apache Flink 持续保持高速发展,是 Apache 最活跃的社区之一。Flink 1.16 共有 240 多个 Contributor 热情参与,共完成了 …
-
hive metastore为MySQL时的中文乱码问题
问题一 当hive的metastore为MySQL时,数据库及表编码都必须是latin1(CHARACTER SET latin1 COLLATE latin1_bin),否则会有…
-
聊聊大数据下的存算分离
导读: 大数据集群从最初开始建设时,一般都采用存算一体化的架构,主要是考虑部署简单、管理起来也方便。但是随着集群规模的不断扩大,在整个集群的资源规划和稳定性上都遭受到了不同程度的挑…
-
Apache Kyuubi on CDH 在竞技世界大数据平台实践
“ 为了满足业务大数据架构使用多种sql引擎:spark,flink,trino(同时查询 hive,clickhouse 等),需要部署一个统一的sql入口,该入口满足多引擎多平…
-
字节跳动基于 Apache Atlas 的近实时消息同步能力优化
字节数据中台DataLeap的Data Catalog系统通过接收MQ中的近实时消息来同步部分元数据。Apache Atlas对于实时消息的消费处理不满足性能要求,内部使用Flin…
-
翼支付数据治理实践之元数据管理
导读:元数据管理是企业数据治理的基础。企业以元数据为基石进行数据治理,帮助企业更好地对数据资产进行管理,理清数据之间的关系,实现精准高效的分析和决策。希望通过本次讲解翼支付数据治理…
-
k8s部署nexus maven仓库指南
deployment描述文件信息: apiVersion: apps/v1 kind: Deployment metadata: labels: k8s-app: nexus3 n…
-
解决spark sql读取hudi表出现偶然读不出来数据问题
相关版本 hadoop 3.2.0 spark 3.3.0 hudi 0.12.0 问题分析 用beeline连接spark thriftserver或者kyuubi(spark …
-
字节跳动流式数仓和实时分析服务的思考和实践
分享嘉宾:汪建锋 火山引擎 技术专家 编辑整理:张玮 出品平台:DataFunTalk 导读:字节跳动旗下有许多产品,每天有大量的数据需要接收和计算。其中,以抖音、头条等为代表的产…
-
37手游基于云平台的大数据建设实践
摘要:本文整理自 37 手游大数据平台资深开发工程师史飞翔在实时数仓 Workshop · 广州站的演讲。主要内容包括: 云平台大数据建设背景 云平台大数据建设方案 应用实践 未来…
-
FFA 议程上线!实时化浪潮下,Apache Flink 还将在大数据领域掀起怎样的变革?
Flink Forward Asia 2022 将于 11 月 26-27 日在线上举办,议程内容正式上线! 今年是 Flink Forward Asia(下文简称 FFA)落地中…
-
字节跳动基于Apache Doris + Hudi的湖仓分析探索实践
分享嘉宾:杜军令 字节跳动 大数据工程师 出品平台:DataFunTalk 导读:Doris是一种MPP架构的分析型数据库,主要面向多维分析、数据报表、用户画像分析等场景。自带分析…
-
万字长文 | 理想汽车从 Hadoop 到云原生的演进与思考
?云原生架构下,基于 Hadoop 技术栈搭建数据平台应该如何改造? 理想汽车大数据平台涉及的组件多, 在从 Hadoop 到云原生演进的过程中边探索,边实践,积累了不少一手经验;…
-
解决hudi hms catalog中flink建表,spark无法写入问题
问题描述 在hudi 0.12.0版本,flink和spark都可以基于hive metastore进行元数据管理,更多信息可参考:hudi HMS Catalog指南。也就是说基…
-
Spark AQE SkewedJoin 在字节跳动的实践和优化
动手点关注 干货不迷路 1. 概述 本文将首先介绍 Spark AQE SkewedJoin 的基本原理以及字节跳动在使用 AQE SkewedJoin 的实践中遇到的一些问题;其…
-
sidecar收集flink pod日志到es
使用flink kubernetes operator创建flink任务,将flink日志通过sidecar方式发送到es相关配置 apiVersion: flink.apache…
-
基于Apache Hudi + MinIO 构建流式数据湖
Apache Hudi 是一个流式数据湖平台,将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式,…
-
B站基于Clickhouse的下一代日志体系建设实践
本期作者 束家麒 基础架构部资深开发工程师 凌涛 基础架构部资深开发工程师 01 背景介绍 日志作为线上定位问题排障的重要手段,在可观测领域有着不可替代的作用。稳定性、成本、易用性…
-
亲测3分钟!带你从零配置 Kyuubi 查询 Doris
“ 作者介绍: 赵敏,网易数帆服务端开发工程师,Apache Kyuubi Committer。目前在网易数帆从事有数数据集成产品的开发。 ” …
-
华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践
背景 湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向。 华为云早在2020年就开始着手相关技术的预研,并落…