大数据

Kyuubi

Kyuubi高可用架构

作为建立在 Apache Spark 之上的企业级即席 SQL 查询服务，Kyuubi 以高可用性 (HA) 为主要特征，旨在确保约定的服务可用性级别，例如高于正常运行时间。在 …

xiaozhch5
2022-04-12
01.6K00
Kyuubi

Kyuubi基本架构

介绍 Kyuubi 是一个高性能的通用 JDBC 和 SQL 执行引擎。 Kyuubi 的目标是方便用户像处理普通数据一样处理大数据。它提供了标准化的JDBC接口，方便大数据场景…

xiaozhch5
2022-04-09
01.9K10
Kyuubi

Kyuubi基本安装与使用指南

Apache Kyuubi (Incubating)，一个分布式和多租户网关，用于在 Lakehouse 上提供无服务器 SQL。本文为kyuubi入门文章，介绍了Kyuubi基本…

xiaozhch5
2022-04-08
13.7K21
Flink

【视频】T3 出行 Apache Kyuubi Flink SQL Engine 设计和相关实践

在日前的 Apache SeaTunnel & Kyuubi 联合 Meetup 上，T3出行大数据平台负责人、 Apache Kyuubi committer 杨华和T3…

xiaozhch5
2022-04-08
198300
Kyuubi进阶提升

Kyuubi 与 Spark ThriftServer 的全面对比分析

网易数帆旗下易数大数据团队开源的 Kyuubi，和 Spark 社区的Spark Thrift Server，都是通过纯 SQL 语言和 JDBC 接口的方式降低大数据使用门槛的项…

jellyfin
2022-04-07
11.5K00
Pinot

在Docker中快速测试Apache Pinot批数据导入与查询

Pinot 是一个实时分布式 OLAP 数据存储，专为提供超低延迟分析而构建，即使在极高吞吐量下也是如此。如果你还不了解Pinot，那么可以先阅读这篇文章《Apache Pinot…

xiaozhch5
2022-04-07
056500
Pinot

Apache Pinot基本介绍

Pinot 是一个实时分布式 OLAP 数据存储，专为提供超低延迟分析而构建，即使在极高吞吐量下也是如此。它可以直接从流数据源（例如 Apache Kafka 和 Amazon …

xiaozhch5
2022-04-07
12.0K10
Kafka

深入理解Kafka：核心设计与实践原理 PDF下载

内容简介 Kafka 起初是由Linkedin 公司采用Scala 语言开发的一个多分区、多副本且基于ZooKeeper协调的分布式消息系统，现己被捐献给Apache 基金会。目前…

jellyfin
2022-04-07
22.2K30
Spark

PySpark实战指南 PDF下载

内容简介在本书中，我们将知道你使用Python了解Apache Spark的最新性能，包括如何看懂结构化和非结构化的数据，如何使用PySpark中一些基本的可用数据类型，生成机器…

jellyfin
2022-04-06
01.3K00
Spark

大数据处理框架Apache Spark设计与实现 PDF下载

内容简介近年来，以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心，总结了大数据处理框架的基础知识、核心理…

xiaozhch5
2022-04-05
02.2K40
Flink

Flink内存配置调优指南

Flink内存模型（TaskManager）从上面的内存模型图可以看出内存结构： Flink使用了JVM Heap(堆内内存)和Off-Heap Memory(堆外内存)； JV…

xiaozhch5
2022-04-05
01.0K00
Hadoop

尚硅谷大数据技术之集群迁移（Apache和CDH）

1）准备两套集群，我这使用apache集群和CDH集群。 2）启动集群 3）启动完毕后，将apache集群中，hive库里dwd，dws，ads三个库的数据迁移到CDH集群 4）在…

bajiebajie2333
2022-04-05
057300
Hadoop

尚硅谷大数据技术之Hadoop生产调优手册

（作者：尚硅谷大数据研发部）版本：V3.3 电脑端阅读地址：https://lrting.top/backend/4245/ 第1章 HDFS—核心参数 1.1 NameNode…

xiaozhch5
2022-04-05
050100
Ozone

Apache Ozone 下一代大数据存储解密

Ozone 是 Hadoop 的可扩展、冗余和分布式对象存储。除了扩展到数十亿不同大小的对象外，Ozone 还可以在 Kubernetes 和 YARN 等容器化环境中有效运行。…

bajiebajie2333
2022-04-05
01.0K00
Hadoop

如何在100个节点集群上模拟10000个节点的集群？让DynoYARN来模拟吧

DynoYARN 是一种用于按需启动 YARN 集群并运行模拟 YARN 工作负载以进行规模测试的工具。由Linkedin开源。它可以在 100 个节点的 Hadoop 集群上模拟…

jellyfin
2022-04-04
038430
Flink

Flink学习精要（Java版）电子书下载

目录第 1 章初识 Flink 21.1 Flink 的源起和设计理念 21.2 Flink 的应用 31.3 流式数据处理的发展和演变 61.4 Flink 的特性总结 13…

jellyfin
2022-04-04
01.2K00
Hadoop

LinkedIn 如何将 Hadoop YARN 集群扩展到超过 10,000 个节点

在 LinkedIn，我们使用 Hadoop 作为大数据分析和机器学习的支柱。随着数据量呈指数级增长，并且公司在机器学习和数据科学方面进行了大量投资，我们的集群规模逐年翻了一番，…

xiaozhch5
2022-04-04
048400
Hudi

字节跳动基于 Apache Hudi 的多流拼接实践

字节跳动数据湖团队在实时数仓构建宽表的业务场景中，探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。该方案在存储层提供对多流数据的关联能力，旨在解决实…

xiaozhch5
2022-04-01
039610
Ozone

Ozone安装部署指南

Ozone 的安装和运行有多种方式，支持从简单的本地节点 docker 部署，到大规模多节点的 Kubernetes 或物理集群部署。 docker方式启动Ozone 如果还未安装…

xiaozhch5
2022-03-27
092200
Flink

字节跳动流式数据集成基于Flink Checkpoint两阶段提交的实践和优化（2）

目前字节跳动中国区 MQ dump 例行任务数巨大，日均处理流量在 PB 量级。巨大的任务量和数据量对 MQ dump 的稳定性以及准确性带来了极大的挑战。本文主要介绍 DTS …

xiaozhch5
2022-03-27
041500