bigdata
-
ubuntu 18.04安装hdp 3.1.0完整版(含安装包下载)
节点准备 hostname ip 角色 ubuntu-1804-1 172.21.73.53 从节点 ubuntu-1804-2 172.21.73.54 主节点 ubuntu-1…
-
Uber如何构建经济高效的开源大数据平台
随着 Uber 业务的扩张,为其提供支持的基础数据池呈指数级增长,因此处理成本也越来越高。 当大数据成为我们最大的运营支出之一时,我们开始了一项降低数据平台成本的举措,该计划将挑战…
-
zeppelin高可用部署
这边所说的zeppelin高可用不是传统意义上的HA模式,而是利用统一的配置文件,在一个zeppelin server挂掉之后,在另一个zeppelin server从统一配置文件…
-
flink写入数据到hudi的四种方式
总览 bulk_insert 用于快速导入快照数据到hudi。 基本特性 bulk_insert可以减少数据序列化以及合并操作,于此同时,该数据写入方式会跳过数据去重,所以用户需要…
-
使用Flink对hudi MOR表进行离线压缩
默认情况下,MERGE_ON_READ表的压缩是启用的。 触发器策略是在完成五次提交后执行压缩。 因为压缩会消耗大量内存,并且与写操作处于相同的管道中,所以当数据量很大(> …
-
hudi中的写操作
在本节中,我们将介绍如何使用DeltaStreamer工具从外部数据源甚至其他Hudi表中获取新的更改,以及如何使用Hudi数据源通过upserts加速大型Spark作业。 然后可…
-
hudi 模式演化
模式演化是数据管理的一个非常重要的方面。 Hudi支持常见的模式演变场景,比如添加一个空字段或提升一个字段的数据类型,开箱即用。 此外,该模式可以跨引擎查询,如Presto、Hiv…
-
Hudi使用场景
近实时摄取 Hudi对各种数据的摄取都有很多的优点。能够帮助合并DFS上的最小文件。这有助于解决HDFS和云存储上的小文件问题,显著提高查询性能。Hudi增加了非常需要的原子提交新…
-
Hudi关键术语及其概述
Apache Hudi基于hadoop兼容存储提供如下流原型 更新/删除记录 修改流 关键概念 Timeline(时间轴) 在其核心,Hudi维护了在不同时刻对表执行的所有操作的时…
-
Hudi:Apache Hadoop上的增量处理框架
温馨提示本文部分翻译自2017.3.12 Uber Engineering发布文章《Hudi: Uber Engineering’s Incremental Processing …
-
Apache Hive 与 Apache Tez – 内存管理与调优
Apache Tez is an extensible framework for building high performance batch and interactive …
-
Hbase表操作
hbase创建数据表 hbase创建表不使用压缩格式: create 'Student','StuInfo','Grades�…
-
hbase数据同步工具—HashTable/SyncTable
HashTable/SyncTable是一个同步hbase表数据的工具,其通过过程分为两步,这两步都是mapreduce job。和CopyTable工具一样,他也可以用来在同一个…
-
hbase基本介绍
概览 Apache HBase™是Hadoop数据库,一个分布式、可扩展的大数据存储。 当您需要对大数据进行随机、实时的读写访问时,请使用Apache HBase™。这个项目的目标…
-
Flink问题汇总
flink-1.13.1+hadoop-3.2.1关于guava包冲突问题 相关报错 Caused by: java.lang.NoSuchMethodError: com.goo…
-
Flink cdc自定义format格式数据源
总览 变更数据捕获 (CDC) 已成为一种流行的模式,用于从数据库捕获已提交的变更并将这些变更传播给下游消费者,例如保持多个数据存储同步并避免常见的陷阱,例如双重写入。 能够轻松地…
-
Flink的类加载器
概览 在运行 Flink 应用程序时,JVM 会随着时间的推移加载各种类。 这些类可以根据它们的来源分为三组: Java Classpath:这是Java的通用类路径,它包括JDK…
-
使用FLINK SQL从savepoint恢复hudi作业 (flink 1.13)
Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。flink-savepoint介绍 接下来我们从Flink SQL Client构建一个mysq…