Spark
-
Spark如何启动Spark Thrift Server服务
将hive的hive-site.xml文件拷贝到spark/conf文件夹中,默认情况下其端口使用的是和hive的thriftserver2端口一样的,所以可以在hive-site…
-
Spark SQL在雪球的实践
文章来源:雪球数据团队,公众号: 雪球工程师团队 背景 因为业务需要,雪球数据团队基于HDP 3.1.5(Hadoop 3.1.1+Hive 3.1.0+Tez 0.9.1)搭建了…
-
Spark RDD编程指南
前言 在高层次上,每个 Spark 应用程序都包含一个驱动程序,该驱动程序运行用户的主要功能并在集群上执行各种并行操作。 Spark 提供的主要抽象是弹性分布式数据集 (RDD),…
-
Kyuubi 与 Spark ThriftServer 的全面对比分析
网易数帆旗下易数大数据团队开源的 Kyuubi,和 Spark 社区的Spark Thrift Server,都是通过纯 SQL 语言和 JDBC 接口的方式降低大数据使用门槛的项…
-
PySpark实战指南 PDF下载
内容简介 在本书中,我们将知道你使用Python了解Apache Spark的最新性能,包括如何看懂结构化和非结构化的数据,如何使用PySpark中一些基本的可用数据类型,生成机器…
-
大数据处理框架Apache Spark设计与实现 PDF下载
内容简介 近年来,以Apache Spark为代表的大数据处理框架在学术界和工业界得到了广泛的使用。本书以Apache Spark框架为核心,总结了大数据处理框架的基础知识、核心理…
-
Flink和Spark读写avro文件
前面文章基于Java实现Avro文件读写功能我们说到如何使用java读写avro文件,本文基于上述文章进行扩展,展示flink和spark如何读取avro文件。 Flink读写av…
-
Flink与Spark读写parquet文件全解析
Parquet介绍 Parquet 是一种开源文件格式,用于处理扁平列式存储数据格式,可供 Hadoop 生态系统中的任何项目使用。 Parquet 可以很好地处理大量复杂数据。它…