spark

Spark

Spark AQE SkewedJoin 在字节跳动的实践和优化

动手点关注干货不迷路 1. 概述本文将首先介绍 Spark AQE SkewedJoin 的基本原理以及字节跳动在使用 AQE SkewedJoin 的实践中遇到的一些问题；其…

xiaozhch5
2022-10-13
021700
Spark

Spark面对OOM问题的解决方法及优化总结

Spark中的OOM问题不外乎以下两种情况 map执行中内存溢出 shuffle后内存溢出 map执行中内存溢出代表了所有map类型的操作，包括：flatMap，filter，ma…

xiaozhch5
2022-07-22
025700
Spark

Spark如何启动Spark Thrift Server服务

将hive的hive-site.xml文件拷贝到spark/conf文件夹中，默认情况下其端口使用的是和hive的thriftserver2端口一样的，所以可以在hive-site…

xiaozhch5
2022-05-24
01.3K00
Spark

Spark SQL在雪球的实践

文章来源：雪球数据团队，公众号：雪球工程师团队背景因为业务需要，雪球数据团队基于HDP 3.1.5(Hadoop 3.1.1+Hive 3.1.0+Tez 0.9.1)搭建了…

xiaozhch5
2022-05-01
091000
Spark

Spark RDD编程指南

前言在高层次上，每个 Spark 应用程序都包含一个驱动程序，该驱动程序运行用户的主要功能并在集群上执行各种并行操作。 Spark 提供的主要抽象是弹性分布式数据集 (RDD)，…

bajiebajie2333
2022-04-16
040000
Kyuubi进阶提升

Kyuubi 与 Spark ThriftServer 的全面对比分析

网易数帆旗下易数大数据团队开源的 Kyuubi，和 Spark 社区的Spark Thrift Server，都是通过纯 SQL 语言和 JDBC 接口的方式降低大数据使用门槛的项…

jellyfin
2022-04-07
11.5K00
Spark

PySpark实战指南 PDF下载

内容简介在本书中，我们将知道你使用Python了解Apache Spark的最新性能，包括如何看懂结构化和非结构化的数据，如何使用PySpark中一些基本的可用数据类型，生成机器…

jellyfin
2022-04-06
01.3K00
Spark

大数据处理框架Apache Spark设计与实现 PDF下载

内容简介近年来，以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心，总结了大数据处理框架的基础知识、核心理…

xiaozhch5
2022-04-05
02.2K40
Flink

Flink与Spark读写parquet文件全解析

Parquet介绍 Parquet 是一种开源文件格式，用于处理扁平列式存储数据格式，可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它…

xiaozhch5
2022-01-26
01.5K10
Hive

spark SQL配置连接Hive Metastore 3.1.2

Hive Metastore作为元数据管理中心，支持多种计算引擎的读取操作，例如Flink、Presto、Spark等。本文讲述通过spark SQL配置连接Hive Metast…

xiaozhch5
2022-01-09
079510
使用spark3操作hudi数据湖初探

环境： hadoop 3.2.0 spark 3.0.3-bin-hadoop3.2 hudi 0.8.0 本文基于上述组件版本使用spark插入数据到hudi数据湖中。为了确保以…

xiaozhch5
2021-11-12 • Hudi
01.2K00