bigdata

后端

ubuntu 18.04安装hdp 3.1.0完整版（含安装包下载）

节点准备 hostname ip 角色 ubuntu-1804-1 172.21.73.53 从节点 ubuntu-1804-2 172.21.73.54 主节点 ubuntu-1…

xiaozhch5
2021-12-02
01.1K00
Uber如何构建经济高效的开源大数据平台

随着 Uber 业务的扩张，为其提供支持的基础数据池呈指数级增长，因此处理成本也越来越高。当大数据成为我们最大的运营支出之一时，我们开始了一项降低数据平台成本的举措，该计划将挑战…

xiaozhch5
2021-11-21 • 其他
029700
Zeppelin安装与配置

zeppelin安装包下载 mkdir /data && cd /data wget https://dlcdn.apache.org/zeppelin/zeppe…

xiaozhch5
2021-11-13 • Zeppelin
055110
Zeppelin

zeppelin高可用部署

这边所说的zeppelin高可用不是传统意义上的HA模式，而是利用统一的配置文件，在一个zeppelin server挂掉之后，在另一个zeppelin server从统一配置文件…

xiaozhch5
2021-11-12
01.2K00
Hudi

flink写入数据到hudi的四种方式

总览 bulk_insert 用于快速导入快照数据到hudi。基本特性 bulk_insert可以减少数据序列化以及合并操作，于此同时，该数据写入方式会跳过数据去重，所以用户需要…

xiaozhch5
2021-11-12
01.9K10
Hudi

使用Flink对hudi MOR表进行离线压缩

默认情况下，MERGE_ON_READ表的压缩是启用的。触发器策略是在完成五次提交后执行压缩。因为压缩会消耗大量内存，并且与写操作处于相同的管道中，所以当数据量很大(> …

xiaozhch5
2021-11-12
01.5K00
Hudi

hudi中的写操作

在本节中，我们将介绍如何使用DeltaStreamer工具从外部数据源甚至其他Hudi表中获取新的更改，以及如何使用Hudi数据源通过upserts加速大型Spark作业。然后可…

xiaozhch5
2021-11-12
01.1K00
Hudi

hudi 模式演化

模式演化是数据管理的一个非常重要的方面。 Hudi支持常见的模式演变场景，比如添加一个空字段或提升一个字段的数据类型，开箱即用。此外，该模式可以跨引擎查询，如Presto、Hiv…

xiaozhch5
2021-11-12
081000
Hudi

Hudi使用场景

近实时摄取 Hudi对各种数据的摄取都有很多的优点。能够帮助合并DFS上的最小文件。这有助于解决HDFS和云存储上的小文件问题，显著提高查询性能。Hudi增加了非常需要的原子提交新…

xiaozhch5
2021-11-12
050310
Hudi关键术语及其概述

Apache Hudi基于hadoop兼容存储提供如下流原型更新/删除记录修改流关键概念 Timeline（时间轴）在其核心，Hudi维护了在不同时刻对表执行的所有操作的时…

xiaozhch5
2021-11-11 • Hudi
067000
Hudi：Apache Hadoop上的增量处理框架

温馨提示本文部分翻译自2017.3.12 Uber Engineering发布文章《Hudi: Uber Engineering’s Incremental Processing …

xiaozhch5
2021-11-11 • Hudi
068700
Apache Hive 与 Apache Tez – 内存管理与调优

Apache Tez is an extensible framework for building high performance batch and interactive …

xiaozhch5
2021-11-09 • Hive
01.4K00
Hbase

Hbase表操作

hbase创建数据表 hbase创建表不使用压缩格式: create 'Student','StuInfo','Grades&#0…

xiaozhch5
2021-11-09
034910
Hbase

hbase数据同步工具—HashTable/SyncTable

HashTable/SyncTable是一个同步hbase表数据的工具，其通过过程分为两步，这两步都是mapreduce job。和CopyTable工具一样，他也可以用来在同一个…

xiaozhch5
2021-11-09
042300
Hbase

hbase基本介绍

概览 Apache HBase™是Hadoop数据库，一个分布式、可扩展的大数据存储。当您需要对大数据进行随机、实时的读写访问时，请使用Apache HBase™。这个项目的目标…

xiaozhch5
2021-11-09
038400
Flink

Flink问题汇总

flink-1.13.1+hadoop-3.2.1关于guava包冲突问题相关报错 Caused by: java.lang.NoSuchMethodError: com.goo…

xiaozhch5
2021-11-09
01.2K00
Flink

Flink CDC详解

xiaozhch5
2021-11-09
040700
Flink

Flink cdc自定义format格式数据源

总览变更数据捕获 (CDC) 已成为一种流行的模式，用于从数据库捕获已提交的变更并将这些变更传播给下游消费者，例如保持多个数据存储同步并避免常见的陷阱，例如双重写入。能够轻松地…

xiaozhch5
2021-11-09
087010
Flink

Flink的类加载器

概览在运行 Flink 应用程序时，JVM 会随着时间的推移加载各种类。这些类可以根据它们的来源分为三组： Java Classpath：这是Java的通用类路径，它包括JDK…

xiaozhch5
2021-11-09
087610
Flink

使用FLINK SQL从savepoint恢复hudi作业（flink 1.13）

Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。flink-savepoint介绍接下来我们从Flink SQL Client构建一个mysq…

xiaozhch5
2021-11-09
22.1K20

1 / 2
1
2
下一页