大数据
-
从Delta 2.0开始聊聊我们需要怎样的数据湖
盘点行业内近期发生的大事,Delta 2.0 的开源是最让人津津乐道的,尤其在 Databricks 官宣 delta2.0 时抛出了下面这张性能对比,颇有些引战的味道。 虽然 D…
-
基于Impala的高性能数仓建设实践之虚拟数仓
导读: 本文主要介绍网易数帆NDH在Impala上实现的虚拟数仓特性,包括资源分组、水平扩展、混合分组和分时复用等功能,可以灵活配置集群资源、均衡节点负载、提高查询并发,并充分利用…
-
如何对CDP中的Hive元数据表进行调优
作者:唐辉 1.文档编写目的 在日常使用中,我们可以发现在hive元数据库中的TBL_COL_PRIVS,TBL_PRIVS 、PART_COL_STATS表相当大,部分特殊情况下…
-
Flink 自定义SQL实现Hudi MOR表压缩
Hudi在构建流式数据湖方面具有领先地位。Flink作为真正的流处理引擎,与Hudi搭配是理所应当的事情了。但是目前Hudi MOR表压缩功能除了在线压缩以外,并不能通过SQL实现…
-
深度解析字节跳动的增长模型
字节跳动是如何做用户增长的? 关于这个问题,坊间流传着各种版本的回答。有人说时也命也靠运气;有人说靠抖音最推崇的算法;也有人说是靠字节一只强悍的增长团队… 10年前,在…
-
Apache Iceberg在小红书的探索与实践
分享嘉宾:孙超 小红书 软件工程师 编辑整理:王宇翔 出品平台:DataFunTalk 导读:本文主要介绍了小红书数据流团队基于Apache Iceberg在实时数仓领域的探索与实…
-
哔哩哔哩 Android 同步优化•Jetifier
本期作者 肖玲通 哔哩哔哩高级开发工程师 从事 B 站 Android CI/CD 开发,当前聚焦在Android 编译构建方面。 01 背景 在今年年初时,我们发现在 Andro…
-
Kafka在美团数据平台的实践
总第526篇 2022年 第043篇 Kafka在美团数据平台承担着统一的数据缓存和分发的角色,随着数据量的增长,集群规模的扩大,Kafka面临的挑战也愈发严峻。本文分享了美团Ka…
-
字节跳动 Flink 状态查询实践与优化
摘要:本文整理自字节跳动基础架构工程师,Apache Flink Contributor 马越在 Flink Forward Asia 2021 平台建设专场的演讲。主要内容包括:…
-
Apache Doris 极速1.0版本解析与未来规划
分享嘉宾:陈明雨 Apache Doris PMC 成员 编辑整理:刘闰丰 酷开科技 出品平台:DataFunTalk 导读:本次分享的主题是Apache Doris极速1.0版本…
-
数据发现:数据湖数据目录的未来
在过去的几年里,数据湖已成为现代数据栈的必备品。但是虽然支持我们访问和分析数据的技术已经成熟,但在分布式环境中理解和信任这些数据的机制却落后了。 数据发现[1]可以帮助确保您的数据…
-
没有SLO就没有SRE?来看看B站SRE对SLO的实践总结(上)
本期作者 武安闯 哔哩哔哩业务SRE负责人 2016年加入B站,深度参与B站微服务拆分、云原生改造、高可用建设、SRE转型和稳定性体系落地等业务。当前主要关注B站在线业务的SRE稳…
-
快收藏!优化 Apache Flink 应用程序的 7 个技巧!
在 Shopify 中,我们将Apache Flink作为标准的有状态流媒体引擎,为我们的BFCM Live Map等各种用例提供支持。我们的 Flink 应用程序部署在利用Goo…
-
中原银行实时风控体系建设实践
摘要:本文整理自中原银行数据平台中心开发工程师陈玉强在 Flink Forward Asia 2021 行业实践专场的演讲。主要内容包括: 建设体系 选型 & 架构 应用场…
-
向阿鲲:B站基于Iceberg + Alluxio 助力湖仓一体项目落地实践
分享嘉宾:向阿鲲 哔哩哔哩 编辑整理:曾新宇 对外经贸大学 出品平台:DataFunTalk 导读:大家好,我是来自哔哩哔哩OLAP平台的向阿鲲。今天主要是跟大家分享B站基于Ice…
-
基于Apache Hudi的多库多表实时入湖最佳实践
1. 前言 CDC(Change Data Capture)从广义上讲所有能够捕获变更数据的技术都可以称为CDC,但本篇文章中对CDC的定义限定为以非侵入的方式实时捕获数据库的变更…
-
使用 Presto 和 Alluxio 在 AWS 上搭建高性能平台来支持实时游戏服务
概要速览 美国艺电 (EA) 是游戏行业的翘楚,每年为全球几十亿用户提供数十款游戏。能否针对EA的在线服务做出近实时决策对于业务发展至关重要。本文介绍了在AWS上搭建的基于Pres…
-
如何从0到1构建一个稳定、高性能的Redis集群?(附16张图解)
导语 | Redis持久化、主从复制、哨兵、分片集群,每个概念单独来看都很容易理解,但它们之间存在哪些联系?Redis为什么会演化出这几种架构模式?这篇文章告诉你答案。 引言 现…
-
酷开科技 × StarRocks:统一 OLAP 分析引擎,全面打造数字化的 OTT 模式
作者:周桂民,大数据架构师和负责人,主要负责大数据平台基础建设工作 酷开科技,全称深圳市酷开网络科技股份有限公司,成立于 2006 年,自主研发了智能电视操作系统——酷开系统。酷开…
-
Apache Druid介绍
什么是 Druid Apache Druid 是一个实时分析型数据库,旨在对大型数据集进行快速查询和分析("OLAP" 查询)。 Druid 最常被当做数据库,…