大数据
-
Hive参数与性能企业级调优
Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。 但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个…
-
开源|携程机票 App KMM 跨端 KV 存储库 MMKV-Kotlin
作者简介 禹昂,携程移动端资深工程师,专注于 Kotlin 移动端跨平台领域,Kotlin 中文社区核心成员,图书《Kotlin 编程实践》译者。 一、背景 携程机票移动端研发团…
-
B站离线多机房架构实践
本期作者 陈昱康 哔哩哔哩技术专家 B站离线平台负责人, 对分布式计算和存储、调度、查询引擎、在线离线混部、高并发等方面有丰富研发和实践经验。 陈诚 哔哩哔哩资深开发工程师 202…
-
降本增效黑科技 | 基于Kubernetes的在/离线业务混部
本文章将结合我们的工作实践,分享如何基于Kubernetes实现在/离线业务的混合部署,在不影响在线业务的前提下,将CPU利用率提高到50%以上,大幅降低企业数据中心成本。 1 引…
-
Shuttle + Alluxio 加速内存Shuffle起飞
00 前言 Shuttle[1] 是OPPO大数据团队开源的高可用高性能的 Spark Remote Shuffle Service,文章[2]中详细介绍了Shuttle的架构和设…
-
hudi HMS Catalog尝鲜指南
hudi支持HMS catalog啦! 功能亮点:当flink和spark同时接入hive metastore时,用hive metastore对hudi的元数据进行管理,无论是使…
-
酷家乐 x StarRocks:3D云设计SaaS独角兽如何降本增效、统一离线和实时分析
作者:群核科技大数据团队 群核科技成立于 2011 年 11 月,专注云系统设计及三维内容制作的技术研发和应用,面向家居、房产、公装等全空间领域,为企业级客户提供设计渲染、营销展示…
-
流批一体在京东的探索与实践
▼ 关注「Apache Flink」,获取更多技术干货 ▼ 摘要:本文整理自京东高级技术专家韩飞在 Flink Forward Asia 2021 流批一体专场的分享。主要内容包括…
-
基于Impala的高性能数仓实践之执行引擎模块
导读: 本系列文章将结合实际开发和使用经验,聊聊可以从哪些方面对数仓查询引擎进行优化。 Impala是Cloudera开发和开源的数仓查询引擎,以性能优秀著称。除了Apache I…
-
干货 | 字节跳动埋点数据流建设与治理实践(上)
文 | 石伟 来自字节跳动数据平台开发套件团队 埋点数据流 埋点数据流在字节跳动 埋点数据流主要处理的数据是埋点,埋点也叫Event Tracking,是数据和业务之间的桥梁,也…
-
欢聚集团 × StarRocks: 灵活、统一、极速的数据分析新范式
作者 杨操 欢聚集团高级大数据开发工程师,主要负责 OLAP 系统研发与维护 欢聚集团成立于 2005 年,是一家全球领先的社交媒体企业,旗下运营有 Bigo Live 直播、Li…
-
网易严选商品中心DDD实践
商品中心随着自身业务的发展,系统复杂度逐渐变高。在业务治理过程中,我们尝试引入了DDD来辅助进行现有业务的模型重建,并在此基础上完成了中台服务能力的沉淀和对外提供。通过将核心业务逻…
-
Flink CDC 在大健云仓的实践
摘要:本文整理自大健云仓基础架构负责人、Flink CDC Maintainer 龚中强在 5 月 21 日 Flink CDC Meetup 的演讲。主要内容包括: 引入 Fli…
-
Flink CDC MongoDB Connector 的实现原理和使用实践
摘要:本文整理自 XTransfer 资深 Java 开发工程师、Flink CDC Maintainer 孙家宝在 Flink CDC Meetup 的演讲。主要内容包括: Mo…
-
波克城市:从Impala到StarRocks,让游戏分析焕发新活力
作者:波克城市大数据平台部门 波克科技股份有限公司(以下简称“波克城市”)成立于 2010 年,立足于精品休闲游戏的全球化研发、发行,旗下拥有《爆炒江湖》《我是航天员》《猫咪公寓》…
-
刘嘉承:从设计、实现和优化角度浅谈Alluxio元数据同步
分享嘉宾:刘嘉承 Alluxio 核心组研发工程师 编辑整理:曾新宇 对外经贸大学 出品平台:DataFunTalk 导读:今天分享的题目是Alluxio元数据和数据的同步,从设计…
-
网易严选离线数仓质量建设实践
做数仓最重要的是什么?一是模型易用性,二是数据质量。模型易用性我们可以通过建模规范、指标管理等方式去实现。而对于数据质量呢?本篇将以严选数仓为例,从建设目标、保障措施、效果评价等几…
-
Flink CDC + Hudi 海量数据入湖在顺丰的实践
摘要:本文整理自顺丰大数据研发工程师覃立辉在 5月 21 日 Flink CDC Meetup 的演讲。主要内容包括: 顺丰数据集成背景 Flink CDC 实践问题与优化 未来规…
-
Flink CDC + OceanBase 全增量一体化数据集成方案
摘要:本文整理自 OceanBase 技术专家王赫(川粉)在 5 月 21 日 Flink CDC Meetup 的演讲。主要内容包括: OceanBase 介绍 Flink CD…
-
Flink ML API,为实时机器学习设计的算法接口与迭代引擎
▼ 关注「Apache Flink」,获取更多技术干货 ▼ 摘要:本文整理自阿里巴巴高级技术专家林东、阿里巴巴技术专家高赟(云骞)在 Flink Forward Asia 2021…