大数据
-
Meta公司内部项目-RaptorX:将Presto性能提升10倍
概要速览 RaptorX是Meta(前“Facebook公司”,下文统称“Meta”)公司的一个内部项目名称,目的是为了降低查询延迟,让Presto的查询性能大大超越原生(vani…
-
【Doris全面解析】Doris Stream Load原理解析
1 引言 Doris的导入(Load)功能就是将用户的原始数据导入到 Doris表中。Doris底层实现了统一的流式导入框架,而在这个框架之上,Doris提供了非常丰富的导入方式以…
-
应用实践|Apache Doris物化视图与索引在京东的典型应用
分享嘉宾:李阳 京东 架构师 编辑整理:史士博 百度 出品平台:DataFunTalk 导读:本文分享关于 Doris 的实际使用情况,主要是物化视图、索引的典型应用案例,以及在使…
-
Apache Doris在蜀海供应链的实践
张家锋 蜀海供应链大数据负责人 整体负责蜀海大数据平台和数据中台建设 本次分享大纲如下: 蜀海供应链业务介绍 蜀海数据仓库架构演进路线 …
-
京东物流基于 Doris 的亿级数据自助探索应用
分享嘉宾:刘笑言 京东物流 数据工程师 编辑整理:张进东 出品平台:DataFunTalk 导读:京东智慧物流在数据应用方面,主要是基于大数据预测分析技术实现智能化的调度、决策,提…
-
基于 Iceberg 拓展 Doris 数据湖能力的实践
6月 26 号,由示说网主办,上海白玉兰开源开放研究院、云启资本、开源社联合主办的上海开源大数据技术 Meetup 如期举行。Apache Doris 社区受邀参与本次 Meet…
-
Doris单机版安装指南
本文介绍了如何快速安装与配置单机版Apahe Doris环境。 新建目录与安装包下载: mkdir /data && cd /data wget https://d…
-
Apache Doris Join 实现与调优实践
8 月 14 号,由示说网和上海白玉兰开源开放研究院联合举办的开源大数据技术线上 Meetup 如期举行,Apache Doris 社区受邀参与本次 Meetup ,来自百度的数…
-
Flink 消费 Kafka 实时写入 Apache Doris(KFD)
1.概述 Apache Doris(原百度 Palo )是一款基于大规模并行处理技术的分布式 SQL 数据仓库,由百度在 2017 年开源,2018 年 8 月进入 Apache …
-
Apache Doris 在韵达物流领域的应用实践
6月 26 号,由示说网主办,上海白玉兰开源开放研究院、云启资本、开源社联合主办的上海开源大数据技术 Meetup 如期举行。Apache Doris 社区受邀参与本次 Meet…
-
严选时序预测算法实践
时序预测算法在电商场景中有着大量的应用场景,基于严选的实际业务需求,我们开发沉淀了一套时序预测算法系统,实现了“数据-模型-服务”的完整链路,并落地于网易严选的补货、调拨、投放、搜…
-
Apache Hudi 0.11.0 新版本新特性解读
1. Apache Hudi 0.11.0 新功能简介:多级索引 Multi-Modal Index 2. Spark SQL 新功能与 Flink 集成改进 3. 快速浏览其他功…
-
有赞 Flink 实时任务资源优化探索与实践
背景 随着 Flink k8s 化以及实时集群迁移完成,有赞越来越多的 Flink 实时任务运行在 K8s 集群上,Flink k8s 化提升了实时集群在大促时弹性扩缩容能力,更好…
-
Hive中的InputFormat、OutputFormat与SerDe
概览 Hive中,默认使用的是TextInputFormat,一行表示一条记录。在每条记录(一行中),默认使用^A分割各个字段。 在有些时候,我们往往面对多行,结构化的文档,并需要…
-
Hive LLAP概念透析
概览 由于社区近年来构建的各种功能和改进,包括 Tez 和基于成本的优化,Hive 的速度显着提高。 将 Hive 提升到一个新的水平需要以下内容: 异步主轴感知 IO 列块的预取…
-
Native Flink on Kubernetes 在小红书的实践
摘要:本文整理自小红书数据流团队资深研发工程师何军在 Flink Forward Asia 2021 平台建设专场的演讲,介绍了小红书基于 K8s 管理 Flink 任务的建设过程…
-
火山引擎 AB 测试总体经济影响
Forrester 提出了客户时代的概念,在这个时代企业面临着愈发激烈的市场竞争以及不断提升的客户期望,而优化客户体验 (CX)对于赢得、服务和留住客户变得至关重要。这意味着公司必…
-
官宣|Apache Flink 1.15 发布公告
作者 | Joe Moser & 高赟 翻译 | 高赟 Apache Flink,作为 Apache 社区最活跃的项目之一[1],一直秉承积极开放的态度不断进行技术深耕。在…
-
Flink CDC Meetup · Online,5.21 开讲!
当下数据规模正在以惊人的速度增长,越来越多的应用场景也对数据处理的时效性有了更高的要求。随着近几年实时计算技术的迅猛发展,涌现了实时 OLAP、实时数据湖、实时数仓等架构,较好地解…
-
干货 | 字节跳动构建Data Catalog数据目录系统的实践(下)
作为数据目录产品,Data Catalog 通过汇总技术和业务元数据,解决大数据生产者组织梳理数据、数据消费者找数和理解数的业务场景,并服务于数据开发和数据治理的产品体系。本文介绍…