

bajiebajie2333编辑
-
应用实践 | Apache Doris 在小米集团的运维实践
背景 为了提高小米增长分析平台的查询性能以及降低平台的运维成本,2019 年 9 月小米集团首次引入了 Apache Doris 。在过去两年多的时间里,Apache Doris …
-
应用实践| 新东方在线教育实时数仓的落地实践
背景介绍 在传统数据仓库方面,通常以 T+1 离线批量计算为主,按照数仓建模方式,把要处理的业务按照主题域划分,构建各种数据模型,来满足公司经营分析,财务分析等各种公司管理层的数据…
-
应用实践 | 特步集团基于 Apache Doris 的零售数据仓库项目实践
背景 特步集团有限公司是中国领先的体育用品企业之一,主要从事运动鞋、服装及配饰的设计、开发、制造和销售。为了提高特步零售 BI 主题数据分析的准确性和时效性,降低对 SAP HAN…
-
基于 Kafka 的实时数仓在搜索的实践应用
作者:vivo互联网服务器团队-Deng jie 一、概述 Apache Kafka 发展至今,已经是一个很成熟的消息队列组件了,也是大数据生态圈中不可或缺的一员。Apache K…
-
HBase海量数据高效入仓解决方案
作者:vivo互联网大数据团队-Tang Xicheng 一、方案背景 现阶段部分业务数据存储在HBase中,这部分数据体量较大,达到数十亿。大数据需要增量同步这部分业务数据到数据…
-
FastDFS 海量小文件存储解决之道
作者: vivo互联网服务器团队-Zhou Changqing 一、FastDFS原理介绍 FastDFS是一个C语言实现的开源轻量级分布式文件系统 。 支持 Linux、Free…
-
马蜂窝×StarRocks:OLAP 架构升级,开启极速统一新旅程
作者 毕博 马蜂窝大数据平台专家 马蜂窝旅游网是中国领先的旅行玩乐平台,创立于 2006 年,从 2010 年正式开始公司化运营,十年来在旅游 UGC 内容领域累积了大量内容。马蜂…
-
网易数据分析大赛获奖作品分享:基于时间序列的玩家行为模式分析
导读: 本篇是2022年度网易数据分析大赛等奖作品分享,来自于网易雷火用户体验研究中心。 大家好,我是来自网易雷火用户体验研究中心的周壹,首先感谢网易数帆的同事们组织了此次数据分析…
-
应用实践|Apache Doris物化视图与索引在京东的典型应用
分享嘉宾:李阳 京东 架构师 编辑整理:史士博 百度 出品平台:DataFunTalk 导读:本文分享关于 Doris 的实际使用情况,主要是物化视图、索引的典型应用案例,以及在使…
-
Apache Doris在蜀海供应链的实践
张家锋 蜀海供应链大数据负责人 整体负责蜀海大数据平台和数据中台建设 本次分享大纲如下: 蜀海供应链业务介绍 蜀海数据仓库架构演进路线 …
-
京东物流基于 Doris 的亿级数据自助探索应用
分享嘉宾:刘笑言 京东物流 数据工程师 编辑整理:张进东 出品平台:DataFunTalk 导读:京东智慧物流在数据应用方面,主要是基于大数据预测分析技术实现智能化的调度、决策,提…
-
基于 Iceberg 拓展 Doris 数据湖能力的实践
6月 26 号,由示说网主办,上海白玉兰开源开放研究院、云启资本、开源社联合主办的上海开源大数据技术 Meetup 如期举行。Apache Doris 社区受邀参与本次 Meet…
-
ASTRAEA 为保障多租户GPU集群公平性深度学习调度器
Part1 介绍 现代GPU集群旨在支持多个租户(multi-tenancy) 的分布式深度学习任务,我们发现每个租户对资源的需求可能随着时间而动态改变。但是,现有的GPU调度器未…
-
Safari 面向数据中心的在线深度强化学习安全部署
本文介绍Safari学习框架(入围IEEE/ACM ICCPS 2022最佳论文候选者),一种基于物理模型的安全强化学习机制进行数据中心制冷系统的控制优化。 Part1 引言 深度…
-
FedUReID: 联邦无监督行人重识别训练
摘要 · 看点 在 ACMMM 2021 上,我们提出了联邦无监督行人重识别系统 FedUReID,在不需要标签、不因汇聚数据而产生隐私问题的前提下,采用分布式联邦学习的方式(一个…
-
一种支持泛型解析的PHPScf无痕化技术方案
1 背景介绍 PHP调用Java提供的接口,需要代码转化,使用scf调用。目前有两种技术方案:架构组方案和安居客方案。 架构组方案如下所示: 右上图展示了要转换代码需要填写的信息,…
-
Flink CDC Meetup · Online,5.21 开讲!
当下数据规模正在以惊人的速度增长,越来越多的应用场景也对数据处理的时效性有了更高的要求。随着近几年实时计算技术的迅猛发展,涌现了实时 OLAP、实时数据湖、实时数仓等架构,较好地解…
-
隐私技术技术是什么?它怎样保护我们的隐私安全?
01 隐私安全保护面临的挑战 数据在为人们的生活带来了种种便利的同时,也使得大家对个人数据隐私和安全产生了担忧,这俨然已经成为世界性的问题。 如何才能在遵循法规的要求下,既充分发挥…
-
Presto on Apache Kafka 在 Uber的应用
本文翻译自Uber技术文章《Presto® on Apache Kafka® At Uber Scale》 Uber的目标是通过让世界运转来激发机遇,而大数据是其中非常重要的一部分…
-
Spark RDD编程指南
前言 在高层次上,每个 Spark 应用程序都包含一个驱动程序,该驱动程序运行用户的主要功能并在集群上执行各种并行操作。 Spark 提供的主要抽象是弹性分布式数据集 (RDD),…