大数据
-
Kyuubi高可用架构
作为建立在 Apache Spark 之上的企业级即席 SQL 查询服务,Kyuubi 以高可用性 (HA) 为主要特征,旨在确保约定的服务可用性级别,例如高于正常运行时间。 在 …
-
Kyuubi基本架构
介绍 Kyuubi 是一个高性能的通用 JDBC 和 SQL 执行引擎。 Kyuubi 的目标是方便用户像处理普通数据一样处理大数据。 它提供了标准化的JDBC接口,方便大数据场景…
-
Kyuubi基本安装与使用指南
Apache Kyuubi (Incubating),一个分布式和多租户网关,用于在 Lakehouse 上提供无服务器 SQL。本文为kyuubi入门文章,介绍了Kyuubi基本…
-
【视频】T3 出行 Apache Kyuubi Flink SQL Engine 设计和相关实践
在日前的 Apache SeaTunnel & Kyuubi 联合 Meetup 上,T3出行大数据平台负责人、 Apache Kyuubi committer 杨华和T3…
-
Kyuubi 与 Spark ThriftServer 的全面对比分析
网易数帆旗下易数大数据团队开源的 Kyuubi,和 Spark 社区的Spark Thrift Server,都是通过纯 SQL 语言和 JDBC 接口的方式降低大数据使用门槛的项…
-
在Docker中快速测试Apache Pinot批数据导入与查询
Pinot 是一个实时分布式 OLAP 数据存储,专为提供超低延迟分析而构建,即使在极高吞吐量下也是如此。如果你还不了解Pinot,那么可以先阅读这篇文章《Apache Pinot…
-
Apache Pinot基本介绍
Pinot 是一个实时分布式 OLAP 数据存储,专为提供超低延迟分析而构建,即使在极高吞吐量下也是如此。 它可以直接从流数据源(例如 Apache Kafka 和 Amazon …
-
深入理解Kafka:核心设计与实践原理 PDF下载
内容简介 Kafka 起初是由Linkedin 公司采用Scala 语言开发的一个多分区、多副本且基于ZooKeeper协调的分布式消息系统,现己被捐献给Apache 基金会。目前…
-
PySpark实战指南 PDF下载
内容简介 在本书中,我们将知道你使用Python了解Apache Spark的最新性能,包括如何看懂结构化和非结构化的数据,如何使用PySpark中一些基本的可用数据类型,生成机器…
-
大数据处理框架Apache Spark设计与实现 PDF下载
内容简介 近年来,以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心,总结了大数据处理框架的基础知识、核心理…
-
Flink内存配置调优指南
Flink内存模型(TaskManager) 从上面的内存模型图可以看出内存结构: Flink使用了JVM Heap(堆内内存)和Off-Heap Memory(堆外内存); JV…
-
尚硅谷大数据技术之集群迁移(Apache和CDH)
1)准备两套集群,我这使用apache集群和CDH集群。 2)启动集群 3)启动完毕后,将apache集群中,hive库里dwd,dws,ads三个库的数据迁移到CDH集群 4)在…
-
尚硅谷大数据技术之Hadoop生产调优手册
(作者:尚硅谷大数据研发部) 版本:V3.3 电脑端阅读地址:https://lrting.top/backend/4245/ 第1章 HDFS—核心参数 1.1 NameNode…
-
Apache Ozone 下一代大数据存储解密
Ozone 是 Hadoop 的可扩展、冗余和分布式对象存储。 除了扩展到数十亿不同大小的对象外,Ozone 还可以在 Kubernetes 和 YARN 等容器化环境中有效运行。…
-
如何在100个节点集群上模拟10000个节点的集群?让DynoYARN来模拟吧
DynoYARN 是一种用于按需启动 YARN 集群并运行模拟 YARN 工作负载以进行规模测试的工具。由Linkedin开源。它可以在 100 个节点的 Hadoop 集群上模拟…
-
Flink学习精要(Java版)电子书下载
目录 第 1 章 初识 Flink 21.1 Flink 的源起和设计理念 21.2 Flink 的应用 31.3 流式数据处理的发展和演变 61.4 Flink 的特性总结 13…
-
LinkedIn 如何将 Hadoop YARN 集群扩展到超过 10,000 个节点
在 LinkedIn,我们使用 Hadoop 作为大数据分析和机器学习的支柱。 随着数据量呈指数级增长,并且公司在机器学习和数据科学方面进行了大量投资,我们的集群规模逐年翻了一番,…
-
字节跳动基于 Apache Hudi 的多流拼接实践
字节跳动数据湖团队在实时数仓构建宽表的业务场景中,探索实践出的一种基于 Hudi Payload 的合并机制提出的全新解决方案。 该方案在存储层提供对多流数据的关联能力,旨在解决实…
-
Ozone安装部署指南
Ozone 的安装和运行有多种方式,支持从简单的本地节点 docker 部署,到大规模多节点的 Kubernetes 或物理集群部署。 docker方式启动Ozone 如果还未安装…
-
字节跳动流式数据集成基于Flink Checkpoint两阶段提交的实践和优化(2)
目前字节跳动中国区 MQ dump 例行任务数巨大,日均处理流量在 PB 量级。巨大的任务量和数据量对 MQ dump 的稳定性以及准确性带来了极大的挑战。 本文主要介绍 DTS …