大数据
-
kafka集群硬件与操作系统部署建议
内存估算 您需要足够的内存来缓冲活动的读取器和写入器。 您可以通过假设您希望能够缓冲 30 秒并将您的内存需求计算为 write_throughput*30 来对内存需求进行粗略估…
-
kafka集群管理指南
本指南使用的工具为kafka/bin目录下相关脚本。 添加/删除topics 可以使用如下命令进行新增topics: > bin/kafka-topics.sh –boot…
-
Kafka使用场景
消息队列 Kafka作为一个传统的消息代理的替代品表现得非常出色。使用消息代理有各种各样的原因(将处理与数据生成器解耦,缓冲未处理的消息,等等)。与大多数消息传递系统相比,Kafk…
-
kafka基础入门
Apache Kafka是一个事件流平台,其结合了三个关键的功能,使你可以完成端到端的事件流解决方案。 发布(写)和订阅(读)事件流,包括从其他系统连续导入/导出数据。 事件流存储…
-
kafka单节点安装与启动
主机环境与依赖 操作系统:centos7 CPU架构:x86_64 软件依赖:jdk1.8以及zookeeper3.6.3 kafka下载与解压 配置文件修改 kafka启动 ka…
-
hudi问题汇总
关于流读changelog问题 我们知道hudi可以开启changelog模式,保留消息变更信息(I/+U/-U/D),但是我们在查询变更消息时,需要注意的是需要在sql-clie…
-
Uber如何构建经济高效的开源大数据平台
随着 Uber 业务的扩张,为其提供支持的基础数据池呈指数级增长,因此处理成本也越来越高。 当大数据成为我们最大的运营支出之一时,我们开始了一项降低数据平台成本的举措,该计划将挑战…
-
Uber是如何在大规模集群中有效提高HDFS I/O利用率
以更低的硬件成本扩展我们的数据基础设施,同时保持高性能和服务可靠性并非易事。为了适应Uber数据存储和分析计算的指数级增长,数据基础设施团队通过重新架构软件层和硬件重新设计,对Ap…
-
深度对比 Delta、Iceberg 和 Hudi 三大开源数据湖方案
目前市面上流行的三大开源数据湖方案分别为:Delta、Apache Iceberg 和 Apache Hudi。其中,由于 Apache Spark 在商业化上取得巨大成功,所以由…
-
hudi 0.10.0-SNAPSHOT适配hdp 3.1.5编译
新增hdp仓库 在项目根目录下的pom文件中新增: <repository> <id>hdp</id> <url>https://r…
-
hive-3.1.2安装以及使用tez作为执行引擎指南
hive是构建于hadoop之上的、基于SQL的分布式关系型数据库。 为了成功安装好hive,首先确保 hdfs集群安装(单namenode和HA模式) hadoop yarn安装…
-
Zeppelin源码编译指南
依赖安装及配置 操作系统:ubuntu 20.04 CPU架构:x86_64 安装依赖: sudo apt-get update sudo apt-get install git …
-
Zeppelin Interpreter全面解析
概览 在本节中,我们将解释 解释器(Interpreter)、解释器组和解释器设置在 Zeppelin 中的作用。 Zeppelin 解释器的概念允许将任何语言或数据处理后端插入 …
-
zeppelin高可用部署
这边所说的zeppelin高可用不是传统意义上的HA模式,而是利用统一的配置文件,在一个zeppelin server挂掉之后,在另一个zeppelin server从统一配置文件…
-
zookeeper-3.6.3单节点安装与启动
主机环境与依赖 操作系统:centos7 CPU架构:x86_64 软件依赖:jdk1.8 安装包下载与解压 mkdir /data && cd /data wge…
-
apache tez 编译安装与验证
基本介绍 Apache Tez是构建于Apache Hadoop YARN上,基于有向无环图进行数据处理的框架。 主要设计主题: 授权终端用户 表达性数据流定义API 灵活的输入处…
-
tez基础入门
概览 Apache Tez是构建于Apache Hadoop YARN上,基于有向无环图进行数据处理的框架。 主要设计主题: 授权终端用户 表达性数据流定义API 灵活的输入处理输…
-
使用hive查询从hudi同步的表需要注意的问题
设置 hive.input.format 在hive cli或者beeline执行查询任务时,需要做如下指定: set hive.input.format = org.apache…
-
Apache Hudi 在 B 站构建实时数据湖的实践
温馨提示本文摘自阿里云社区,仅为整理分享.参考链接:https://developer.aliyun.com/article/789774?spm=a2c6h.13148508.0…