Yarn 混合部署方案在好未来的实现

背景：Kubernetes(k8s)/ack是一个开源的容器集群管理系统。在Docker技术的基础上，为容器化的应用提供部署运行、资源调度、服务发现和动态伸缩等一系列完整功能，提高了大规模容器集群管理的便捷性。

由于大数据集群资源使用庞大，成本高。资源使用存在潮汐现象，同样公司的业务体系也存在潮汐现象，并且对比资源使用情况，大数据集群和业务体系服务器正好形成错峰资源使用状态。线上业务只有白天会吃资源比较多，晚上所占的服务器资源比较空闲，这样可以让资源紧张的大数据生态去充分利用业务体系的空闲资源。结合k8s动态伸缩特性可以支持晚上大数据生态弹性错峰调度业务体系资源，达到资源共享目的，有效的节省成本，提高服务器资源利用率。

在离线混部实现方案

1、目标

资源共享，缓解“潮汐现象”；
推进云原生方案快速落地；
集群快速的弹性伸缩。

2、在离线混部方案

通过k8s的弹性扩缩能力，实现nodemanager的弹性扩缩容。具体方案图如下：

在离线混部方案实现过程

改造RM支持pod-NM的注册，主要解决了node_allow、nm address地址识别、网络、keytab自动生成等问题。完成RM的改造，k8s启动的pod-NM在RM中可以识别到并可以通过RM调度。

Pod镜像的适配由CDH安装部署方式调整为由pod中脚本拉起方式，主要解决了目录适配、权限适配、ldap适配、kerberos适配等。

Yarn node lable的实现，在FSAppAttempt assign container里面实现，添加检查：如果是k8s队列，判断当前节点是否是k8s节点，如果是分配container。

3、错峰调度方案

错峰调度方案是在离线混部方案的升级版本，主要实现了和业务错峰使用资源，具体方案如下：

错峰调度方案是在离线混部方案的基础上增加了定时拉起pod-NM功能和定时驱离pod-NM功能。

Yarn和k8s压测对比数据

考虑到yarn集群和k8s的集群的特性，是否对job执行效率有影响，这次主要针对做的是hive和spark。
为了让业务稳定且不影响效率的前提下，任务运行到k8s上，需要科学的压测。经调研，业界有代表性的压测工具是TPC-DS和Terasort，这两个压测工具可以准确的压测反馈出集群的性能。

1、TPC-DS测试

1.hive组件压测

说明：分别用52个有效sql进行1TB、3TB、10TB的压测数据统计汇总对比，其中每个sql都会用到sum、avg、group by、order by、子查询、join等语法

a)1TB数据测试

总时长，yarn:5时35分58秒，k8s: 5时35分29秒，k8s快29秒，如下图

52个sql执行时间对比图如下：
Yarn 混合部署方案在好未来的实现
b)3TB数据压测

总时长，yarn: 7时42分31秒，k8s: 7时46分41秒，yarn快4分10秒，如下图

52个sql执行时间对比图如下
Yarn 混合部署方案在好未来的实现
c)10TB数据压测

总时长，yarn: 12时42分24秒，k8s: 12时51分52秒，yarn快9分28秒，如下图

52个sql执行时间对比图如下
Yarn 混合部署方案在好未来的实现
小结：tpc-ds分别在yarn和k8s计算节点上压测hive 52个sql的1TB、3TB、10TB数据，从分析统计数据和如上图看出，1TB数量的情况k8s有明显的优势，3TB和10TB的数据yarn具备优势，但是总体yarn和k8s节点环境hive作业执行效率差距不大，10TB以内的数据相差范围在1.5%以内，如下图：
Yarn 混合部署方案在好未来的实现
2.spark组件压测

说明：程序分别进行1TB、3TB、10TB数据的压测数据汇总分析。

yarn执行时间分别是：1时8分30秒、2时50分27秒、8时51分49秒，k8s执行时间分别是：1时7分59秒、2时48分59秒、8时47分26秒，k8s分别快了31秒、88秒、263秒。

yarn和k8s压测1TB、3TB、10TB数据对比图如下：
Yarn 混合部署方案在好未来的实现

小结：tpc-ds压测spark 程序运行1TB、3TB、10TB数据，从分析统计数据和如上图看出，由于spark是内存计算型，因此yarn和k8s节点上spark程序执行效率相差不大，10TB以内的数据相差百分比范围在1%以内，如下图：
Yarn 混合部署方案在好未来的实现
2、Terasort压测

说明：terasort按照10TB数据进行压测

hadoop组件压测，计算使用了90000map数和10000reduce数，执行平均时间yarn: 4时2分11秒，k8s: 5时19分9秒，10TB数据平均相差了1时26分10秒，两环境压测对比图如下：
Yarn 混合部署方案在好未来的实现
小结：terasort 10TB数据压测hadoop组件，由于在yarn上执行存在短路读现象，因此yarn要比k8s快了一个半小时.