大数据
-
Hudi关键术语及其概述
Apache Hudi基于hadoop兼容存储提供如下流原型 更新/删除记录 修改流 关键概念 Timeline(时间轴) 在其核心,Hudi维护了在不同时刻对表执行的所有操作的时…
-
Hudi:Apache Hadoop上的增量处理框架
温馨提示本文部分翻译自2017.3.12 Uber Engineering发布文章《Hudi: Uber Engineering’s Incremental Processing …
-
hdfs配额管理
创建测试目录 hdfs dfs -mkdir /data/user_test 设置创建的目录的名称配额 hdfs dfsadmin setQuota 2 /data/user_te…
-
Apache Hive 与 Apache Tez – 内存管理与调优
Apache Tez is an extensible framework for building high performance batch and interactive …
-
Hbase表操作
hbase创建数据表 hbase创建表不使用压缩格式: create 'Student','StuInfo','Grades�…
-
hbase数据同步工具—HashTable/SyncTable
HashTable/SyncTable是一个同步hbase表数据的工具,其通过过程分为两步,这两步都是mapreduce job。和CopyTable工具一样,他也可以用来在同一个…
-
hbase基本介绍
概览 Apache HBase™是Hadoop数据库,一个分布式、可扩展的大数据存储。 当您需要对大数据进行随机、实时的读写访问时,请使用Apache HBase™。这个项目的目标…
-
Flink问题汇总
flink-1.13.1+hadoop-3.2.1关于guava包冲突问题 相关报错 Caused by: java.lang.NoSuchMethodError: com.goo…
-
Flink cdc自定义format格式数据源
总览 变更数据捕获 (CDC) 已成为一种流行的模式,用于从数据库捕获已提交的变更并将这些变更传播给下游消费者,例如保持多个数据存储同步并避免常见的陷阱,例如双重写入。 能够轻松地…
-
Flink的类加载器
概览 在运行 Flink 应用程序时,JVM 会随着时间的推移加载各种类。 这些类可以根据它们的来源分为三组: Java Classpath:这是Java的通用类路径,它包括JDK…
-
使用FLINK SQL从savepoint恢复hudi作业 (flink 1.13)
Flink从1.13版本开始支持在SQL Client从savepoint恢复作业。flink-savepoint介绍 接下来我们从Flink SQL Client构建一个mysq…
-
Calcite基础入门(一)
这是一个循序渐进的教程,展示了如何构建和连接Calcite。它使用一个简单的适配器,使CSV文件的目录看起来是一个包含表的模式。Calcite完成了其余的工作,并提供了完整的SQL…
-
Calcite 背景介绍
Apache Calcite是一个动态数据管理框架。 它包含了组成典型数据库管理系统的许多部分,但省略了一些关键功能:数据存储、处理数据的算法和存储元数据的存储库。 Calcite…
-
YARN基本架构
YARN 的基本思想是将资源管理和作业调度/监控的功能拆分为单独的守护进程。这个想法是有一个全局 ResourceManager ( RM ) 和每个应用程序 Applicatio…
-
hadoop yarn安装
上篇文章讲到如何安装hdfs,那本文继续安装yarn。 修改mapred-site.xml,如下所示 <?xml version="1.0"?> &…
-
hdfs命令行基本操作指南
Hadoop包括各种shell类命令,它们直接与HDFS和Hadoop支持的其他文件系统交互。 bin/hdfs dfs -help列出了Hadoop shell支持的命令。 此外…
-
hdfs集群安装(单namenode和HA模式)
单namenode节点 准备 文件下载: jdk-8u241-linux-x64.tar.gz hadoop-3.2.0.tar.gz 节点安排: hadoop1 → 从节点 ha…
-
hadoop基本介绍
概览 Apache™Hadoop®项目开发可靠、可扩展的分布式计算的开源软件。 Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群进行分布式处理大型数据…
-
Hadoop YARN权威指南
高速下载链接