Hive
-
深入理解TEZ引擎
简介 Tez是Apache开源的支持DAG作业的计算框架,是支持HADOOP2.x的重要引擎。它源于MapReduce框架,核心思想是将Map和Reduce两个操作进一步拆分,分解…
-
hive metastore为MySQL时的中文乱码问题
问题一 当hive的metastore为MySQL时,数据库及表编码都必须是latin1(CHARACTER SET latin1 COLLATE latin1_bin),否则会有…
-
HiveServer2 内存泄漏问题定位与优化方案
动手点关注 干货不迷路 ? 前言 HiveServer2 属于 Hive 组件的一个服务,主要提供 Hive 访问接口,例如可通过 JDBC 的方式提交 Hive 作业,HiveS…
-
如何对CDP中的Hive元数据表进行调优
作者:唐辉 1.文档编写目的 在日常使用中,我们可以发现在hive元数据库中的TBL_COL_PRIVS,TBL_PRIVS 、PART_COL_STATS表相当大,部分特殊情况下…
-
【Hive】hive 数据倾斜、优化策略、hive执行过程、垃圾回收
1. 数据倾斜 1.1 什么是数据倾斜? 由于数据分布不均匀,造成数据大量的集中到一点,造成数据热点 Hadoop 框架的特性 不怕数据大,怕数据倾斜 Jobs 数比较多的作业运行…
-
Hive性能调优实战 PDF下载
基本介绍 目前,图书市场上关于Hive的书籍比较少,而专题介绍Hive性能调优的图书就更少了,几乎是个空白。有些书籍中涉及Hive性能调优,但也只是浅尝辄止。笔者认为,Hive是构…
-
Hive参数与性能企业级调优
Hive作为大数据平台举足轻重的框架,以其稳定性和简单易用性也成为当前构建企业级数据仓库时使用最多的框架之一。 但是如果我们只局限于会使用Hive,而不考虑性能问题,就难搭建出一个…
-
Hive中的InputFormat、OutputFormat与SerDe
概览 Hive中,默认使用的是TextInputFormat,一行表示一条记录。在每条记录(一行中),默认使用^A分割各个字段。 在有些时候,我们往往面对多行,结构化的文档,并需要…
-
Hive LLAP概念透析
概览 由于社区近年来构建的各种功能和改进,包括 Tez 和基于成本的优化,Hive 的速度显着提高。 将 Hive 提升到一个新的水平需要以下内容: 异步主轴感知 IO 列块的预取…
-
Hive性能调优实战 PDF下载
基本内容 Hive作为Hadoop生态的重要组成部分,以其稳定和简单易用成为了当前企业在搭建大数据平台及构建企业级数据仓库时使用较为普遍的大数据组件之一。 目前,图书市场上关于Hi…
-
windows 11系统调试hive metastore 3.1.2源码新姿势
由于工作原因,需要深入了解一下hive metastore相关源码,这几天尝试了在windows中运行hive metastore代码,这边记录一下踩坑的过程以及解决方法。 win…
-
Hive MetaStore 在快手遇到的挑战与优化
分享嘉宾:王磊@快手编辑整理:Frank出品平台:DataFunTalk 导读:快手基于Hive构建数据仓库,并把Hive的元数据信息存储在MySql中,随着业务发展和数据增长,一…
-
云原生时代的到来,Hive会被替代吗
Apache Hive 在 2010 年作为 Hadoop 生态系统的一个组成部分突然出现,当时 Hadoop 是进行大数据分析的新颖且创新的方式。 Hive 所做的是为 Hado…
-
吴怡雯:腾讯数据湖元数据治理实践
分享嘉宾:吴怡雯 腾讯 高级工程师编辑整理:田长远出品平台:DataFunTalk 导读:大家好,今天分享的主题是腾讯数据湖的元数据治理实践,跟大家一起聊聊腾讯云上DLC数据湖计算…
-
hive面试题汇总
Hive的metastore的三种模式 内嵌Derby⽅式 这个是Hive默认的启动模式,⼀般⽤于单元测试,这种存储⽅式有⼀个缺点:在同⼀时间只能有⼀个进程连接使⽤数据库。 Loc…
-
将hudi同步到配置kerberos的hive3
前人种树,后人乘凉。本文基于社区pr:https://github.com/apache/hudi/pull/3771 ,新增一些其他配置项以完成本场景下的hudi → hive …
-
用ranger对hive metastore 进行授权管理
hive standalone metastore 3.1.2可作为独立服务,作为spark、flink、presto等服务的元数据管理中心,然而在现有的hive授权方案中只有针对…
-
hive metastore配置kerberos认证
hive从3.0.0开始提供hive metastore单独服务作为像presto、flink、spark等组件的元数据中心。但是默认情况下hive metastore在启动之后是…
-
spark SQL配置连接Hive Metastore 3.1.2
Hive Metastore作为元数据管理中心,支持多种计算引擎的读取操作,例如Flink、Presto、Spark等。本文讲述通过spark SQL配置连接Hive Metast…
-
通过Java API获取Hive Metastore中的元数据信息
在文章中,我们说到Hive 3.0.0版本开始,其单独提供了standalone metastore服务以作为像presto等处理引擎的元数据管理中心。 本文以Java API为例…