Spark
-
spark sql运维,spark ui你必须看得懂!
Apache Spark 提供了一套 web 用户界面(UI),可以用来监控 Spark 集群的状态和资源消耗情况。本文翻译自spark UI官方文档:https://spark….
-
释放大数据的潜力:基于kyuubi + spark + celeborn在 Kubernetes 上构建高效的计算集群入门
在大数据处理领域,如何高效地管理和分析海量数据是每个企业都面临的挑战。Kyuubi 和 Apache Spark 是广泛应用的大数据处理工具,而 Celeborn 则作为 Spar…
-
Gluten + Celeborn: 让 Native Spark 拥抱 Cloud Native
作者:张凯@阿里云、陳韋廷@Intel、周渊@Intel 一、简介 Apache Celeborn(Incubating) 是阿里云捐赠给 Apache 的通用 Remote Sh…
-
Spark on GraalVM在facebook的应用
Facebook 正在使用 GraalVM 来加速其 Spark 工作负载并减少内存和 CPU 使用率。 继续阅读以了解他们的迁移故事、性能改进结果和未来计划。 Facebook …
-
深入解析Spark内核架构设计与实现原理 PDF下载
基本介绍 Spark是不断壮大的大数据分析解决方案家族中备受关注的新增成员。它不仅为分布式数据集的处理提供一个有效框架,而且以高效的方式处理分布式数据集。它支持实时处理、流处理和批…
-
Spark AQE SkewedJoin 在字节跳动的实践和优化
动手点关注 干货不迷路 1. 概述 本文将首先介绍 Spark AQE SkewedJoin 的基本原理以及字节跳动在使用 AQE SkewedJoin 的实践中遇到的一些问题;其…
-
如何基于 Spark 和 Z-Order 实现企业级离线数仓降本提效?
小编有话说 市场的变幻,政策的完善,技术的革新……种种因素让我们面对太多的挑战,这仍需我们不断探索、克服。 今年,网易数帆将持续推出新栏目「金融专家说」「技术专家说」「产品专家说」…
-
Spark面对OOM问题的解决方法及优化总结
Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出 shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作,包括:flatMap,filter,ma…
-
Spark如何启动Spark Thrift Server服务
将hive的hive-site.xml文件拷贝到spark/conf文件夹中,默认情况下其端口使用的是和hive的thriftserver2端口一样的,所以可以在hive-site…
-
Spark SQL在雪球的实践
文章来源:雪球数据团队,公众号: 雪球工程师团队 背景 因为业务需要,雪球数据团队基于HDP 3.1.5(Hadoop 3.1.1+Hive 3.1.0+Tez 0.9.1)搭建了…
-
Spark RDD编程指南
前言 在高层次上,每个 Spark 应用程序都包含一个驱动程序,该驱动程序运行用户的主要功能并在集群上执行各种并行操作。 Spark 提供的主要抽象是弹性分布式数据集 (RDD),…
-
Kyuubi 与 Spark ThriftServer 的全面对比分析
网易数帆旗下易数大数据团队开源的 Kyuubi,和 Spark 社区的Spark Thrift Server,都是通过纯 SQL 语言和 JDBC 接口的方式降低大数据使用门槛的项…
-
PySpark实战指南 PDF下载
内容简介 在本书中,我们将知道你使用Python了解Apache Spark的最新性能,包括如何看懂结构化和非结构化的数据,如何使用PySpark中一些基本的可用数据类型,生成机器…
-
大数据处理框架Apache Spark设计与实现 PDF下载
内容简介 近年来,以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心,总结了大数据处理框架的基础知识、核心理…
-
Flink和Spark读写avro文件
前面文章基于Java实现Avro文件读写功能我们说到如何使用java读写avro文件,本文基于上述文章进行扩展,展示flink和spark如何读取avro文件。 Flink读写av…
-
Flink与Spark读写parquet文件全解析
Parquet介绍 Parquet 是一种开源文件格式,用于处理扁平列式存储数据格式,可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它…