后端
-
元数据治理:产品方案介绍及案例实践
导读: 今天分享的主题是元数据治理实践,这是一项长期持续的工作,涉及多部门协作、多角色参与,链路长且复杂,要有完善的流程、成熟的平台、业务和技术部门共同参与,才能推进治理工作的有效…
-
k8s 写入hudi表快速测试指南
x## ubuntu安装nfs服务 sudo apt-get install nfs-kernel-server sudo vim /etc/exports /data1/nfs/…
-
OPPO实时计算平台基于云原生的作业弹性伸缩设计与实践
文章大纲: 一、背景 二、技术方案 2.1 整体架构 2.2 方案详述: 1.纵向伸缩: 2.横向伸缩 3.云原生独立部署模式 4.资源伸缩协调器 三、方案实践及效果 3.1 弹性…
-
从 Hadoop 到云原生, 大数据平台如何做存算分离
? 关于作者: 苏锐,Juicedata 合伙人, JuiceFS 的1号成员,一直深度参与在开源社区中支持开发者使用 JuiceFS。历任互联网 O2O 汽车服务品牌功夫洗车创…
-
揭开 Apache Parquet 文件格式的神秘面纱
你曾经使用过pandas的 pd.read_csv() 吗?如果你使用 parquet 而不是 CSV,那么该命令的运行速度可能会快约 50 倍[1]。 在这篇文章中我们将讨论 A…
-
字节跳动基于 Apache Hudi 构建实时数仓的实践
分享嘉宾:张友军 字节跳动 编辑整理:王宇翔 出品平台:DataFunTalk 导读:今天很高兴能与大家分享字节数据平台在实时数仓中的一些实践。目前在数据湖和Hudi相关的一些基本…
-
HiveServer2 内存泄漏问题定位与优化方案
动手点关注 干货不迷路 ? 前言 HiveServer2 属于 Hive 组件的一个服务,主要提供 Hive 访问接口,例如可通过 JDBC 的方式提交 Hive 作业,HiveS…
-
万字长文:基于Apache Hudi + Flink多流拼接(大宽表)最佳实践
1. 背景 经典场景 Flink 侧实现 业务侧通常会基于实时计算引擎在流上做多个数据源的 JOIN 产出这个宽表,但这种解决方案在实践中面临较多挑战,主要可分为以下两种情况: 1…
-
基于Elasticsearch的指标可观测实践
分享嘉宾:魏子珺 阿里云 ES内核专家 编辑整理:陈凯翔 亚厦股份 出品平台:DataFunTalk 导读:大家好,我是来自阿里巴巴的魏子珺,今天给大家分享的主题是基于Elasti…
-
Apache Flink Table Store 0.2.0 发布
作者|Jingsong Lee jingsonglee0@gmail.com Apache Flink 社区很高兴地宣布发布 Apache Flink Table Store 0….
-
如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效?
小编有话说 市场的变幻,政策的完善,技术的革新……种种因素让我们面对太多的挑战,这仍需我们不断探索、克服。 今年,网易数帆将持续推出新栏目「金融专家说」「技术专家说」「产品专家说」…
-
数据标准在模型设计和数据质量中的实践
导读: 本文将带领大家一起基于实际的应用场景进行实践,从0~1构建数据标准并在模型设计和数据质量中体现价值。 数据标准如何应用?数据标准能起到什么作用?自数据标准产品上线以来,一直…
-
面试官:如何安全地使用List
今天我们来讨论一个JUC中的集合类CopyOnWriteArrayList。 为什么研究这个类 在很多应用场景中,对于集合的读操作的频率一定会远远大于写操作。由于读操作根本不会修改…
-
京东基于时序知识图谱的问答系统
分享嘉宾:商超博士 京东硅谷研究院 研究员 编辑整理:张存旺 北航杭州创新研究院 出品平台:DataFunTalk 导读:本文将分享Temporal Knowledge Graph…
-
Flink 侧流输出源码解析
Flink 的 side output 为我们提供了侧流(分流)输出的功能,根据条件可以把一条流分为多个不同的流,之后做不同的处理逻辑,下面就来看下侧流输出相关的源码。
-
网易传媒数据管治建设实践
分享嘉宾:盖建伟 (前)网易 数据研发 编辑整理:霍玮 洛钼集团 出品平台:DataFunTalk 导读:传媒的数据管治体系,解决了资源使用负载高、不可控的痛点,搭建了数据资产登记…
-
吴喆:全民K歌直播推荐系统详解
分享嘉宾:吴喆 腾讯音乐 高级研究员 编辑整理:吴祺尧 加州大学圣地亚哥分校 出品平台:DataFunTalk 导读:推荐技术在迭代思路上已经形成一套成熟的范式,通过对经典算法的解…
-
B站离线多机房架构实践
本期作者 陈昱康 哔哩哔哩技术专家 B站离线平台负责人, 对分布式计算和存储、调度、查询引擎、在线离线混部、高并发等方面有丰富研发和实践经验。 陈诚 哔哩哔哩资深开发工程师 202…
-
强化学习在京东618大促流量调控中的落地应用
分享嘉宾:赵宇博士 京东零售 编辑整理:王妍红 出品平台:DataFunTalk 导读:大家好,我是来自京东零售搜索算法部的赵宇,今天我来给大家介绍一下我们使用强化学习在大促流量调…
-
基于 Hudi 的湖仓一体技术在 Shopee 的实践
目录1. Shopee 数据系统建设中面临的典型问题2. 为什么选择 Hudi3. Shopee 在 Hudi 落地过程中的实践4. 社区贡献5. 总结与展望 湖仓一体(LakeH…