Spark

spark sql运维，spark ui你必须看得懂！

Apache Spark 提供了一套 web 用户界面（UI），可以用来监控 Spark 集群的状态和资源消耗情况。本文翻译自spark UI官方文档：https://spark.…

xiaozhch5
2024-11-01 • Spark
034110
释放大数据的潜力：基于kyuubi + spark + celeborn在 Kubernetes 上构建高效的计算集群入门

在大数据处理领域，如何高效地管理和分析海量数据是每个企业都面临的挑战。Kyuubi 和 Apache Spark 是广泛应用的大数据处理工具，而 Celeborn 则作为 Spar…

xiaozhch5
2024-11-01 • Spark
027400
Spark

Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native

作者：张凯@阿里云、陳韋廷@Intel、周渊@Intel 一、简介 Apache Celeborn(Incubating) 是阿里云捐赠给 Apache 的通用 Remote Sh…

xiaozhch5
2023-07-10
034900
Spark

Spark on GraalVM在facebook的应用

Facebook 正在使用 GraalVM 来加速其 Spark 工作负载并减少内存和 CPU 使用率。继续阅读以了解他们的迁移故事、性能改进结果和未来计划。 Facebook …

xiaozhch5
2023-04-30
019600
Spark

深入解析Spark内核架构设计与实现原理 PDF下载

基本介绍 Spark是不断壮大的大数据分析解决方案家族中备受关注的新增成员。它不仅为分布式数据集的处理提供一个有效框架，而且以高效的方式处理分布式数据集。它支持实时处理、流处理和批…

xiaozhch5
2023-02-07
023700
Spark

Spark AQE SkewedJoin 在字节跳动的实践和优化

动手点关注干货不迷路 1. 概述本文将首先介绍 Spark AQE SkewedJoin 的基本原理以及字节跳动在使用 AQE SkewedJoin 的实践中遇到的一些问题；其…

xiaozhch5
2022-10-13
021700
如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效？

小编有话说市场的变幻，政策的完善，技术的革新……种种因素让我们面对太多的挑战，这仍需我们不断探索、克服。今年，网易数帆将持续推出新栏目「金融专家说」「技术专家说」「产品专家说」…

bajiebajie2333
2022-09-14 • Spark
033100
Spark

Spark面对OOM问题的解决方法及优化总结

Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出 shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，ma…

xiaozhch5
2022-07-22
025600
Spark

Spark如何启动Spark Thrift Server服务

将hive的hive-site.xml文件拷贝到spark/conf文件夹中，默认情况下其端口使用的是和hive的thriftserver2端口一样的，所以可以在hive-site…

xiaozhch5
2022-05-24
01.3K00
Spark

Spark SQL在雪球的实践

文章来源：雪球数据团队，公众号：雪球工程师团队背景因为业务需要，雪球数据团队基于HDP 3.1.5(Hadoop 3.1.1+Hive 3.1.0+Tez 0.9.1)搭建了…

xiaozhch5
2022-05-01
091000
Spark

Spark RDD编程指南

前言在高层次上，每个 Spark 应用程序都包含一个驱动程序，该驱动程序运行用户的主要功能并在集群上执行各种并行操作。 Spark 提供的主要抽象是弹性分布式数据集 (RDD)，…

bajiebajie2333
2022-04-16
040000
Kyuubi进阶提升

Kyuubi 与 Spark ThriftServer 的全面对比分析

网易数帆旗下易数大数据团队开源的 Kyuubi，和 Spark 社区的Spark Thrift Server，都是通过纯 SQL 语言和 JDBC 接口的方式降低大数据使用门槛的项…

jellyfin
2022-04-07
11.5K00
Spark

PySpark实战指南 PDF下载

内容简介在本书中，我们将知道你使用Python了解Apache Spark的最新性能，包括如何看懂结构化和非结构化的数据，如何使用PySpark中一些基本的可用数据类型，生成机器…

jellyfin
2022-04-06
01.3K00
Spark

大数据处理框架Apache Spark设计与实现 PDF下载

内容简介近年来，以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心，总结了大数据处理框架的基础知识、核心理…

xiaozhch5
2022-04-05
02.2K40
Flink

Flink和Spark读写avro文件

前面文章基于Java实现Avro文件读写功能我们说到如何使用java读写avro文件，本文基于上述文章进行扩展，展示flink和spark如何读取avro文件。 Flink读写av…

xiaozhch5
2022-02-19
056500
Flink

Flink与Spark读写parquet文件全解析

Parquet介绍 Parquet 是一种开源文件格式，用于处理扁平列式存储数据格式，可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它…

xiaozhch5
2022-01-26
01.5K10