后端

后端

HttpURLConnection获取开启kerberos的HDFS等组件的JMX信息

由于安全原因，需要对HDFS UI等端口进行限制访问，也就是配置kerberos认证，在core-site.xml文件中进行如下配置： <property> <n…

xiaozhch5
2022-04-15
063510
Kafka

基于SSD的Kafka应用层缓存架构设计与实现

Kafka在美团数据平台承担着统一的数据缓存和分发的角色，针对因PageCache互相污染，进而引发PageCache竞争导致实时作业被延迟作业影响的痛点，美团基于SSD自研了Ka…

xiaozhch5
2022-04-15
030510
Kyuubi

Apache Kyuubi及在移动云湖仓一体中的实践

分享嘉宾：姚琴网易数帆技术专家洪冬冬中国移动云能力中心软件开发工程师编辑整理：牛红艳出品平台：DataFunTalk 导读：在云原生+大数据的时代，随着业务数据量的爆炸式增…

xiaozhch5
2022-04-14
01.3K00
Kyuubi应用实践

【视频】Apache Kyuubi(Incubating)：网易对 Serverless Spark 的探索与实践

在 Apache 首次亚洲线上技术峰会 —ApacheCon Asia 大会上，网易数帆大数据专家，Apache Kyuubi PPMC，Apache Spark / Submar…

xiaozhch5
2022-04-13
179000
Kyuubi

Apache Kyuubi(Incubating)：网易对 Serverless Spark 的探索与实践

在 Apache 首次亚洲线上技术峰会 —ApacheCon Asia 大会上，网易数帆大数据专家，Apache Kyuubi PPMC，Apache Spark / …

jellyfin
2022-04-13
149700
Kyuubi

Kyuubi高可用架构

作为建立在 Apache Spark 之上的企业级即席 SQL 查询服务，Kyuubi 以高可用性 (HA) 为主要特征，旨在确保约定的服务可用性级别，例如高于正常运行时间。在 …

xiaozhch5
2022-04-12
01.6K00
Kyuubi

Kyuubi基本架构

介绍 Kyuubi 是一个高性能的通用 JDBC 和 SQL 执行引擎。 Kyuubi 的目标是方便用户像处理普通数据一样处理大数据。它提供了标准化的JDBC接口，方便大数据场景…

xiaozhch5
2022-04-09
01.9K10
Kyuubi

Kyuubi基本安装与使用指南

Apache Kyuubi (Incubating)，一个分布式和多租户网关，用于在 Lakehouse 上提供无服务器 SQL。本文为kyuubi入门文章，介绍了Kyuubi基本…

xiaozhch5
2022-04-08
13.7K21
Flink

【视频】T3 出行 Apache Kyuubi Flink SQL Engine 设计和相关实践

在日前的 Apache SeaTunnel & Kyuubi 联合 Meetup 上，T3出行大数据平台负责人、 Apache Kyuubi committer 杨华和T3…

xiaozhch5
2022-04-08
197500
Kyuubi进阶提升

Kyuubi 与 Spark ThriftServer 的全面对比分析

网易数帆旗下易数大数据团队开源的 Kyuubi，和 Spark 社区的Spark Thrift Server，都是通过纯 SQL 语言和 JDBC 接口的方式降低大数据使用门槛的项…

jellyfin
2022-04-07
11.5K00
Pinot

在Docker中快速测试Apache Pinot批数据导入与查询

Pinot 是一个实时分布式 OLAP 数据存储，专为提供超低延迟分析而构建，即使在极高吞吐量下也是如此。如果你还不了解Pinot，那么可以先阅读这篇文章《Apache Pinot…

xiaozhch5
2022-04-07
056100
Pinot

Apache Pinot基本介绍

Pinot 是一个实时分布式 OLAP 数据存储，专为提供超低延迟分析而构建，即使在极高吞吐量下也是如此。它可以直接从流数据源（例如 Apache Kafka 和 Amazon …

xiaozhch5
2022-04-07
11.9K10
Kafka

深入理解Kafka：核心设计与实践原理 PDF下载

内容简介 Kafka 起初是由Linkedin 公司采用Scala 语言开发的一个多分区、多副本且基于ZooKeeper协调的分布式消息系统，现己被捐献给Apache 基金会。目前…

jellyfin
2022-04-07
22.2K30
Spark

PySpark实战指南 PDF下载

内容简介在本书中，我们将知道你使用Python了解Apache Spark的最新性能，包括如何看懂结构化和非结构化的数据，如何使用PySpark中一些基本的可用数据类型，生成机器…

jellyfin
2022-04-06
01.3K00
Spark

大数据处理框架Apache Spark设计与实现 PDF下载

内容简介近年来，以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心，总结了大数据处理框架的基础知识、核心理…

xiaozhch5
2022-04-05
02.2K40
Flink

Flink内存配置调优指南

Flink内存模型（TaskManager）从上面的内存模型图可以看出内存结构： Flink使用了JVM Heap(堆内内存)和Off-Heap Memory(堆外内存)； JV…

xiaozhch5
2022-04-05
01.0K00
Hadoop

尚硅谷大数据技术之集群迁移（Apache和CDH）

1）准备两套集群，我这使用apache集群和CDH集群。 2）启动集群 3）启动完毕后，将apache集群中，hive库里dwd，dws，ads三个库的数据迁移到CDH集群 4）在…

bajiebajie2333
2022-04-05
057000
Hadoop

尚硅谷大数据技术之Hadoop生产调优手册

（作者：尚硅谷大数据研发部）版本：V3.3 电脑端阅读地址：https://lrting.top/backend/4245/ 第1章 HDFS—核心参数 1.1 NameNode…

xiaozhch5
2022-04-05
049900
Ozone

Apache Ozone 下一代大数据存储解密

Ozone 是 Hadoop 的可扩展、冗余和分布式对象存储。除了扩展到数十亿不同大小的对象外，Ozone 还可以在 Kubernetes 和 YARN 等容器化环境中有效运行。…

bajiebajie2333
2022-04-05
01.0K00
Hadoop

如何在100个节点集群上模拟10000个节点的集群？让DynoYARN来模拟吧

DynoYARN 是一种用于按需启动 YARN 集群并运行模拟 YARN 工作负载以进行规模测试的工具。由Linkedin开源。它可以在 100 个节点的 Hadoop 集群上模拟…

jellyfin
2022-04-04
038030