后端
-
37手游基于云平台的大数据建设实践
摘要:本文整理自 37 手游大数据平台资深开发工程师史飞翔在实时数仓 Workshop · 广州站的演讲。主要内容包括: 云平台大数据建设背景 云平台大数据建设方案 应用实践 未来…
-
FFA 议程上线!实时化浪潮下,Apache Flink 还将在大数据领域掀起怎样的变革?
Flink Forward Asia 2022 将于 11 月 26-27 日在线上举办,议程内容正式上线! 今年是 Flink Forward Asia(下文简称 FFA)落地中…
-
字节跳动基于Apache Doris + Hudi的湖仓分析探索实践
分享嘉宾:杜军令 字节跳动 大数据工程师 出品平台:DataFunTalk 导读:Doris是一种MPP架构的分析型数据库,主要面向多维分析、数据报表、用户画像分析等场景。自带分析…
-
万字长文 | 理想汽车从 Hadoop 到云原生的演进与思考
?云原生架构下,基于 Hadoop 技术栈搭建数据平台应该如何改造? 理想汽车大数据平台涉及的组件多, 在从 Hadoop 到云原生演进的过程中边探索,边实践,积累了不少一手经验;…
-
解决hudi hms catalog中flink建表,spark无法写入问题
问题描述 在hudi 0.12.0版本,flink和spark都可以基于hive metastore进行元数据管理,更多信息可参考:hudi HMS Catalog指南。也就是说基…
-
Spark AQE SkewedJoin 在字节跳动的实践和优化
动手点关注 干货不迷路 1. 概述 本文将首先介绍 Spark AQE SkewedJoin 的基本原理以及字节跳动在使用 AQE SkewedJoin 的实践中遇到的一些问题;其…
-
sidecar收集flink pod日志到es
使用flink kubernetes operator创建flink任务,将flink日志通过sidecar方式发送到es相关配置 apiVersion: flink.apache…
-
基于Apache Hudi + MinIO 构建流式数据湖
Apache Hudi 是一个流式数据湖平台,将核心仓库和数据库功能直接引入数据湖。Hudi 不满足于将自己称为 Delta 或 Apache Iceberg 之类的开放文件格式,…
-
B站基于Clickhouse的下一代日志体系建设实践
本期作者 束家麒 基础架构部资深开发工程师 凌涛 基础架构部资深开发工程师 01 背景介绍 日志作为线上定位问题排障的重要手段,在可观测领域有着不可替代的作用。稳定性、成本、易用性…
-
亲测3分钟!带你从零配置 Kyuubi 查询 Doris
“ 作者介绍: 赵敏,网易数帆服务端开发工程师,Apache Kyuubi Committer。目前在网易数帆从事有数数据集成产品的开发。 ” …
-
华为云 MRS 基于 Apache Hudi 极致查询优化的探索实践
背景 湖仓一体(LakeHouse)是一种新的开放式架构,它结合了数据湖和数据仓库的最佳元素,是当下大数据领域的重要发展方向。 华为云早在2020年就开始着手相关技术的预研,并落…
-
元数据治理:产品方案介绍及案例实践
导读: 今天分享的主题是元数据治理实践,这是一项长期持续的工作,涉及多部门协作、多角色参与,链路长且复杂,要有完善的流程、成熟的平台、业务和技术部门共同参与,才能推进治理工作的有效…
-
k8s 写入hudi表快速测试指南
x## ubuntu安装nfs服务 sudo apt-get install nfs-kernel-server sudo vim /etc/exports /data1/nfs/…
-
OPPO实时计算平台基于云原生的作业弹性伸缩设计与实践
文章大纲: 一、背景 二、技术方案 2.1 整体架构 2.2 方案详述: 1.纵向伸缩: 2.横向伸缩 3.云原生独立部署模式 4.资源伸缩协调器 三、方案实践及效果 3.1 弹性…
-
从 Hadoop 到云原生, 大数据平台如何做存算分离
? 关于作者: 苏锐,Juicedata 合伙人, JuiceFS 的1号成员,一直深度参与在开源社区中支持开发者使用 JuiceFS。历任互联网 O2O 汽车服务品牌功夫洗车创…
-
揭开 Apache Parquet 文件格式的神秘面纱
你曾经使用过pandas的 pd.read_csv() 吗?如果你使用 parquet 而不是 CSV,那么该命令的运行速度可能会快约 50 倍[1]。 在这篇文章中我们将讨论 A…
-
字节跳动基于 Apache Hudi 构建实时数仓的实践
分享嘉宾:张友军 字节跳动 编辑整理:王宇翔 出品平台:DataFunTalk 导读:今天很高兴能与大家分享字节数据平台在实时数仓中的一些实践。目前在数据湖和Hudi相关的一些基本…
-
HiveServer2 内存泄漏问题定位与优化方案
动手点关注 干货不迷路 ? 前言 HiveServer2 属于 Hive 组件的一个服务,主要提供 Hive 访问接口,例如可通过 JDBC 的方式提交 Hive 作业,HiveS…
-
万字长文:基于Apache Hudi + Flink多流拼接(大宽表)最佳实践
1. 背景 经典场景 Flink 侧实现 业务侧通常会基于实时计算引擎在流上做多个数据源的 JOIN 产出这个宽表,但这种解决方案在实践中面临较多挑战,主要可分为以下两种情况: 1…
-
基于Elasticsearch的指标可观测实践
分享嘉宾:魏子珺 阿里云 ES内核专家 编辑整理:陈凯翔 亚厦股份 出品平台:DataFunTalk 导读:大家好,我是来自阿里巴巴的魏子珺,今天给大家分享的主题是基于Elasti…