大数据

Hudi关键术语及其概述

Apache Hudi基于hadoop兼容存储提供如下流原型更新/删除记录修改流关键概念 Timeline（时间轴）在其核心，Hudi维护了在不同时刻对表执行的所有操作的时…

xiaozhch5
2021-11-11 • Hudi
066700
Hudi：Apache Hadoop上的增量处理框架

温馨提示本文部分翻译自2017.3.12 Uber Engineering发布文章《Hudi: Uber Engineering’s Incremental Processing …

xiaozhch5
2021-11-11 • Hudi
068300
Hadoop

hdfs配额管理

创建测试目录 hdfs dfs -mkdir /data/user_test 设置创建的目录的名称配额 hdfs dfsadmin setQuota 2 /data/user_te…

xiaozhch5
2021-11-09
050100
Apache Hive 与 Apache Tez – 内存管理与调优

Apache Tez is an extensible framework for building high performance batch and interactive …

xiaozhch5
2021-11-09 • Hive
01.4K00
Hbase

Hbase表操作

hbase创建数据表 hbase创建表不使用压缩格式: create 'Student','StuInfo','Grades&#0…

xiaozhch5
2021-11-09
034810
Hbase

hbase数据同步工具—HashTable/SyncTable

HashTable/SyncTable是一个同步hbase表数据的工具，其通过过程分为两步，这两步都是mapreduce job。和CopyTable工具一样，他也可以用来在同一个…

xiaozhch5
2021-11-09
041900
Hbase

hbase基本介绍

概览 Apache HBase™是Hadoop数据库，一个分布式、可扩展的大数据存储。当您需要对大数据进行随机、实时的读写访问时，请使用Apache HBase™。这个项目的目标…

xiaozhch5
2021-11-09
038000
Flink

Flink问题汇总

flink-1.13.1+hadoop-3.2.1关于guava包冲突问题相关报错 Caused by: java.lang.NoSuchMethodError: com.goo…

xiaozhch5
2021-11-09
01.2K00
Flink

Flink CDC详解

xiaozhch5
2021-11-09
040700
Flink

Flink cdc自定义format格式数据源

总览变更数据捕获 (CDC) 已成为一种流行的模式，用于从数据库捕获已提交的变更并将这些变更传播给下游消费者，例如保持多个数据存储同步并避免常见的陷阱，例如双重写入。能够轻松地…

xiaozhch5
2021-11-09
086410
Flink

Flink的类加载器

概览在运行 Flink 应用程序时，JVM 会随着时间的推移加载各种类。这些类可以根据它们的来源分为三组： Java Classpath：这是Java的通用类路径，它包括JDK…

xiaozhch5
2021-11-09
086910
Flink

使用FLINK SQL从savepoint恢复hudi作业（flink 1.13）

Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。flink-savepoint介绍接下来我们从Flink SQL Client构建一个mysq…

xiaozhch5
2021-11-09
22.1K20
Calcite

Calcite基础入门（一）

这是一个循序渐进的教程，展示了如何构建和连接Calcite。它使用一个简单的适配器，使CSV文件的目录看起来是一个包含表的模式。Calcite完成了其余的工作，并提供了完整的SQL…

xiaozhch5
2021-11-09
090000
Calcite

Calcite 背景介绍

Apache Calcite是一个动态数据管理框架。它包含了组成典型数据库管理系统的许多部分，但省略了一些关键功能:数据存储、处理数据的算法和存储元数据的存储库。 Calcite…

xiaozhch5
2021-11-09
01.1K00
Hadoop

YARN基本架构

YARN 的基本思想是将资源管理和作业调度/监控的功能拆分为单独的守护进程。这个想法是有一个全局 ResourceManager ( RM ) 和每个应用程序 Applicatio…

xiaozhch5
2021-11-09
052300
Hadoop

hadoop yarn安装

上篇文章讲到如何安装hdfs，那本文继续安装yarn。修改mapred-site.xml，如下所示 <?xml version="1.0"?> &…

xiaozhch5
2021-11-09
11.0K00
Hadoop

hdfs命令行基本操作指南

Hadoop包括各种shell类命令，它们直接与HDFS和Hadoop支持的其他文件系统交互。 bin/hdfs dfs -help列出了Hadoop shell支持的命令。此外…

xiaozhch5
2021-11-09
061400
hdfs集群安装（单namenode和HA模式）

单namenode节点准备文件下载： jdk-8u241-linux-x64.tar.gz hadoop-3.2.0.tar.gz 节点安排： hadoop1 → 从节点 ha…

xiaozhch5
2021-11-09 • Hadoop
187200
Hadoop

hadoop基本介绍

概览 Apache™Hadoop®项目开发可靠、可扩展的分布式计算的开源软件。 Apache Hadoop软件库是一个框架，允许使用简单的编程模型跨计算机集群进行分布式处理大型数据…

xiaozhch5
2021-11-08
039000
Hadoop

Hadoop YARN权威指南

高速下载链接

xiaozhch5
2021-11-07
053600