mr on yarn架构-柠檬ai自媒体

奥尼扬建筑

提交作业

(1)将程序打包成jar包，在客户端运行hadoop jar命令，将作业提交给集群进行操作。

job.waitForCompletion(true)中调用Job的submit()方法，该方法中调用JobSubmitter的submitJobInternal()方法；

submitClient.getNewJobid()向resourcemanager请求一个MR作业id。

检查输出目录：如果未指定输出目录或目录已经存在，将报告错误。

计算作业碎片；如果无法计算碎片，也会报告错误。

与运行作业相关的资源，如jar包、配置文件和作业的输入片段，上传到HDFS上以作业ID命名的目录中(jar包的副本默认为10个，运行作业时可以从这10个副本中读取jar包，如映射任务和减少任务)

调用resourcemanager的submitApplication()提交作业。

客户端每秒查询作业进度(映射50%减少0%)，如果进度有任何变化，会在控制台上打印进度报告；

如果作业成功执行，将打印相关的计数器。

但是如果失败，请在控制台上打印作业失败的原因。

初始化作业

当ResourceManager(简称RM)收到submitApplication()方法的调用通知时，请求会传递给RM的调度程序。调度程序分配容器。

远程管理器与指定的节点管理器通信，通知节点管理器启动容器；收到通知后，节点管理器创建一个容器；占用特定资源；

然后在容器中运行MRAppMaster进程

MRAppMaster需要接收任务的进度和完成情况报告(每个映射任务和缩减任务)，因此AppMaster需要创建多个记账对象来记录这些信息。

从HDFS获取客户端计算的输入切片分割。

为每个切片分割创建一个地图任务

通过MapReduce . job . reduce的属性值(编程时由jog.setNumReduceTasks()指定)，我们知道MR目前会创建多少个reduce任务。

每个任务(映射、缩减)都有一个任务id。

Task 任务分配

在小作业的情况下，appMaster会以==Uber化===的方式运行这个MR作业；appMaster将决定在其JVM中顺序执行该MR的任务；

"md-list-item">

原因是，若每个任务运行在一个单独的JVM时，都需要单独启动JVM，分配资源（内存、CPU），需要时间；多个JVM中的任务再在各自的JVM中并行运行

若将所有任务在appMaster的JVM中==顺序执行==的话，更高效，那么appMaster就会这么做，任务作为uber任务运行

小作业判断依据：①小于10个map任务；②只有一个reduce任务；③MR输入大小小于一个HDFS块大小

如何开启uber设置属性 mapreduce.job.ubertask.enable 值为true

在运行任何task之前，appMaster调用setupJob()方法，创建OutputCommitter，创建作业的最终输出目录（一般为HDFS上的目录）及任务输出的临时目录（如map任务的中间结果输出目录）

⑧若作业不以uber任务方式运行，那么appMaster会为作业中的每一个任务（map任务、reduce任务）向RM请求container

由于reduce任务在进入排序阶段之前，所有的map任务必须执行完成；所以，为map任务申请容器要优先于为reduce任务申请容器
5%的map任务执行完成后，才开始为reduce任务申请容器
为map任务申请容器时，遵循==数据本地化==，调度器尽量将容器调度在map任务的输入分片所在的节点上（==移动计算，不移动数据==）
reduce任务能在集群任意计算节点运行
默认情况下，为每个map任务、reduce任务分配1G内存、1个虚拟内核，由属性决定mapreduce.map.memory.mb、mapreduce.reduce.memory.mb、mapreduce.map.cpu.vcores、mapreduce.reduce.reduce.cpu.vcores

Task 任务执行

当调度器为当前任务分配了一个NodeManager（暂且称之为NM01）的容器，并将此信息传递给appMaster后；appMaster与NM01通信，告知NM01启动一个容器，并此容器占据特定的资源量（内存、CPU）
NM01收到消息后，启动容器，此容器占据指定的资源量
容器中运行YarnChild，由YarnChild运行当前任务（map、reduce）
⑩在容器中运行任务之前，先将运行任务需要的资源拉取到本地，如作业的JAR文件、配置文件、分布式缓存中的文件

作业运行进度与状态更新

完成作业

内容来源网络，如有侵权，联系删除，本文地址：https://www.230890.com/zhan/132070.html

mr on yarn架构