大数据
-
应用实践|知乎用户画像与实时数据的架构与实践
用户画像与实时数据分析是互联网企业的数据核心。知乎数据赋能团队以 Apache Doris 为基础,基于云服务构建高响应、低成本、兼顾稳定性与灵活性的实时数据架构,同时支持实时业务…
-
改进Apache Hudi的标记机制
Hudi 支持在写入操作期间对存储上未提交的数据进行全自动清理。 Apache Hudi 表中的写入操作使用标记来有效地跟踪写入存储的数据文件。 在这篇博文中,我们深入探讨了现有的…
-
Apache Pulsar 2.10.0 版本介绍
本文翻译自 StreamNative 博客《What’s New in Apache Pulsar 2.10》,作者为李鹏辉、Dave Duggins,原文地址为 https://…
-
应用实践| Apache Doris 在京东客服 OLAP 中的应用实践
引言 Apache Doris 是一款开源的 MPP 分析型数据库产品,不仅能够在亚秒级响应时间即可获得查询结果,有效的支持实时数据分析,而且支持 10PB 以上的超大的数据集。相…
-
Apache Kyuubi + Hudi在 T3 出行的深度实践
T3出行是一家基于车联网驱动的智慧出行平台,拥有海量且丰富的数据源。因为车联网数据的多样性,T3出行构建了以 Apache Hudi 为基础的企业级数据湖,提供强有力的业务支撑。而…
-
Spark如何启动Spark Thrift Server服务
将hive的hive-site.xml文件拷贝到spark/conf文件夹中,默认情况下其端口使用的是和hive的thriftserver2端口一样的,所以可以在hive-site…
-
应用实践 | Apache Doris 在小米集团的运维实践
背景 为了提高小米增长分析平台的查询性能以及降低平台的运维成本,2019 年 9 月小米集团首次引入了 Apache Doris 。在过去两年多的时间里,Apache Doris …
-
应用实践| 新东方在线教育实时数仓的落地实践
背景介绍 在传统数据仓库方面,通常以 T+1 离线批量计算为主,按照数仓建模方式,把要处理的业务按照主题域划分,构建各种数据模型,来满足公司经营分析,财务分析等各种公司管理层的数据…
-
应用实践|Apache Doris 在中仑网络的应用实践
公司介绍 苏州中仑网络科技有限公司成立于 2016 年,是一家“专注零售门店增收服务”的公司,公司自成立起,就一直以“解决中小零售门店经营难的问题”为初心,致力于为零售商户提供门店…
-
应用实践 | 特步集团基于 Apache Doris 的零售数据仓库项目实践
背景 特步集团有限公司是中国领先的体育用品企业之一,主要从事运动鞋、服装及配饰的设计、开发、制造和销售。为了提高特步零售 BI 主题数据分析的准确性和时效性,降低对 SAP HAN…
-
实时数据湖在字节跳动的实践
分享嘉宾:杨诗旻 字节跳动数据平台 编辑整理:田长远 出品平台:DataFunTalk 导读:今天分享的主题是实时数据湖在字节跳动的实践,将围绕下面四点展开: 对实时数据湖的解读 …
-
应用实践|百度爱番番实时 CDP 建设实践
导读:随着营销 3.0 时代的到来,企业愈发需要依托强大 CDP 能力解决其严重的数据孤岛问题,帮助企业加温线索、促活客户。但什么是 CDP 、好的 CDP 应该具备哪些关键特征?…
-
深入剖析共识性算法 Raft
作者:vivo 互联网服务器团队-ZhangPeng 一、 Raft简介 1.1 Raft简介 Raft 是一种为了管理日志复制的分布式一致性算法。Raft 出现之前,Paxos …
-
基于 Kafka 的实时数仓在搜索的实践应用
作者:vivo互联网服务器团队-Deng jie 一、概述 Apache Kafka 发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员。Apache K…
-
HBase海量数据高效入仓解决方案
作者:vivo互联网大数据团队-Tang Xicheng 一、方案背景 现阶段部分业务数据存储在HBase中,这部分数据体量较大,达到数十亿。大数据需要增量同步这部分业务数据到数据…
-
FastDFS 海量小文件存储解决之道
作者: vivo互联网服务器团队-Zhou Changqing 一、FastDFS原理介绍 FastDFS是一个C语言实现的开源轻量级分布式文件系统 。 支持 Linux、Free…
-
Kafka 万亿级消息实践之资源组流量掉零故障排查分析
作者:vivo 互联网服务器团队-Luo Mingbo 一、Kafka 集群部署架构 为了让读者能与小编在后续的问题分析中有更好的共鸣,小编先与各位读者朋友对齐一下我们 Kafka…
-
低代码实时数仓构建系统的设计与实践
1 导读 本文介绍58信安基于Flink实现低代码实时数仓构建系统,我们将数仓构建这一过程进行抽象,通过工程化的思想去解决,将固有领域问题交给系统,让开发人员关注数据本身,解放人力…
-
马蜂窝×StarRocks:OLAP 架构升级,开启极速统一新旅程
作者 毕博 马蜂窝大数据平台专家 马蜂窝旅游网是中国领先的旅行玩乐平台,创立于 2006 年,从 2010 年正式开始公司化运营,十年来在旅游 UGC 内容领域累积了大量内容。马蜂…
-
如何使用TPC-DS生成测试数据并导入MySQL
测试环境 centos7 mysql搭建指南可参考:https://lrting.top/backend/2111/ 安装依赖: yum install gcc make flex…