Hadoop
-
HDFS EC 在知乎的应用
分享嘉宾: 胡梦宇 知乎大数据基础架构开发工程师 贾承昆 知乎大数据基础架构负责人 陈 曦 知乎大数据基础架构开发工程师 内容来源:作者投稿 出品社区:DataFun 1. 前言…
-
如何编写一个YARN应用
本文档在高层次上描述了为 YARN 实现新应用程序的方法。 相关概念和流程 在应用的提交流程中,是应用客户端将应用提交到 YARN ResourceManager。这可以通过设置Y…
-
万字长文 | 理想汽车从 Hadoop 到云原生的演进与思考
?云原生架构下,基于 Hadoop 技术栈搭建数据平台应该如何改造? 理想汽车大数据平台涉及的组件多, 在从 Hadoop 到云原生演进的过程中边探索,边实践,积累了不少一手经验;…
-
一面数据: Hadoop 迁移云上架构设计与实践
? 作者简介: 刘畅,一面数据运维负责人,十五年程序老兵,计算机原理、算法、编程爱好者。 李阳良,一面数据大数据部门负责人,九年互联网工作经验,对后台开发、大数据技术接触比较多。 …
-
大规模 Hadoop 升级在 Pinterest 的实践
Monarch 是 Pinterest 的批处理平台,由30多个 Hadoop YARN 集群组成,其中17k+节点完全建立在 AWS EC2 之上。2021年初,Monarch …
-
如何对HDFS进行节点内(磁盘间)数据平衡
1.文档编写目的 当HDFS的DataNode节点挂载多个磁盘时,往往会出现两种数据不均衡的情况: 1.不同DataNode节点间数据不均衡; 2.挂载数据盘的磁盘间数据不均衡。 …
-
YARN—容量调度器
了解 YARN的容量调度器的基本功能通常是在各种部署中需要处理的一个概念。虽然容量管理涉及共享、扣款和预测等许多方面,但本博客的重点将放在可供平台操作使用的主要功能上。除了基本功能…
-
HDFS在B站的探索和实践
上周我们介绍了大数据调度YARN在B站的落地实践(←点击回顾前文),本周哔哩哔哩技术给大家带来的是HDFS在B站的应用与展望。 一、 HDFS 架构介绍 HDFS离线存储平台是Ha…
-
B站调度优化实践
1. 背景 B站的YARN以社区的2.8.4分支构建,采用CapacityScheduler作为调度器, 期间进行过多次核心功能改造,目前支撑了B站的离线业务、实时业务以及部分AI…
-
尚硅谷大数据技术之集群迁移(Apache和CDH)
1)准备两套集群,我这使用apache集群和CDH集群。 2)启动集群 3)启动完毕后,将apache集群中,hive库里dwd,dws,ads三个库的数据迁移到CDH集群 4)在…
-
尚硅谷大数据技术之Hadoop生产调优手册
(作者:尚硅谷大数据研发部) 版本:V3.3 电脑端阅读地址:https://lrting.top/backend/4245/ 第1章 HDFS—核心参数 1.1 NameNode…
-
如何在100个节点集群上模拟10000个节点的集群?让DynoYARN来模拟吧
DynoYARN 是一种用于按需启动 YARN 集群并运行模拟 YARN 工作负载以进行规模测试的工具。由Linkedin开源。它可以在 100 个节点的 Hadoop 集群上模拟…
-
LinkedIn 如何将 Hadoop YARN 集群扩展到超过 10,000 个节点
在 LinkedIn,我们使用 Hadoop 作为大数据分析和机器学习的支柱。 随着数据量呈指数级增长,并且公司在机器学习和数据科学方面进行了大量投资,我们的集群规模逐年翻了一番,…
-
Uber是如何在大规模集群中有效提高HDFS I/O利用率
以更低的硬件成本扩展我们的数据基础设施,同时保持高性能和服务可靠性并非易事。为了适应Uber数据存储和分析计算的指数级增长,数据基础设施团队通过重新架构软件层和硬件重新设计,对Ap…
-
hdfs配额管理
创建测试目录 hdfs dfs -mkdir /data/user_test 设置创建的目录的名称配额 hdfs dfsadmin setQuota 2 /data/user_te…
-
YARN基本架构
YARN 的基本思想是将资源管理和作业调度/监控的功能拆分为单独的守护进程。这个想法是有一个全局 ResourceManager ( RM ) 和每个应用程序 Applicatio…
-
hadoop yarn安装
上篇文章讲到如何安装hdfs,那本文继续安装yarn。 修改mapred-site.xml,如下所示 <?xml version="1.0"?> &…
-
hdfs命令行基本操作指南
Hadoop包括各种shell类命令,它们直接与HDFS和Hadoop支持的其他文件系统交互。 bin/hdfs dfs -help列出了Hadoop shell支持的命令。 此外…
-
hdfs集群安装(单namenode和HA模式)
单namenode节点 准备 文件下载: jdk-8u241-linux-x64.tar.gz hadoop-3.2.0.tar.gz 节点安排: hadoop1 → 从节点 ha…
-
hadoop基本介绍
概览 Apache™Hadoop®项目开发可靠、可扩展的分布式计算的开源软件。 Apache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群进行分布式处理大型数据…