本文将详细说明如何分析Spark的运营模式。这篇文章的内容质量很高,所以边肖会分享给大家作为参考。希望你看完这篇文章后有所了解。
Spark运行模式
1 Spark的两个重要角色
1.1 简介
Spark是一个基于内存的快速、通用、可扩展的大数据分析引擎。
1.2 spark内置模块:
1.3 Spark的两个重要角色:
Driver(驱动器)负责管理调度任务。
::负责具体任务。
2 Spark运行模式
本地模式:它在机器上运行,通常在动手或测试环境中运行。
Standalone:基于Mster从机构建资源调度集群,将Spark任务提交给Master运行。Executor(执行器)是 .
Spark :星火客户端直接连接纱线和自身的一个调度系统,不依赖Yarn等其他框架,Yarn,不需要额外构建 .有两种模式,纱线客户端和纱线集群。主要区别是:Spark .
纱线客户端:驱动程序运行在客户端,适合交互和调试。希望马上看到app的输出。
纱簇:驱动程序运行在由资源管理器启动的应用程序中,适用于生产环境。
Mesos:家庭环境很少使用。
几种模式的比较:
3 Local模式(下的WordCount)
集群
Driver 程序的运行节点加载文件
3.1 Spark-Wordcount基本思路:把句子一个接一个地分成单词;
文件加载load::把同样的单词放在一组中;
扁平化:计算每个小组的成员人数;
(以上过程是左图的简化过程,不太准确。按照以下步骤记住它;正确的图片是准确的过程)
分组
聚合
3.2 Wordcount代码实现:曾经加载文件;
相关方法说明::用于扁平化和分词;
TextFile:把每个单词映射到一个祖先;
根据关键字进行FlatMap:分组和聚合;
Map
4 Yarn模式(重点)
ReduceByKey
Spark客户端直接连接到Yarn,不需要额外构建Spark集群。有两种模式,纱线客户端和纱线集群。主要区别在于驱动程序的运行节点。
纱线客户端:驱动程序运行在客户端,适合交互和调试。希望马上看到app的输出。
纱簇:驱动程序运行在由资源管理器启动的应用程序中,适用于生产环境。
3.3 Wordcount过程图示
4.1 概述
一起看两张图片。
5 Standalone模式(独立部署模式)
4.2 Yarn运行模式(重点)
要清晰知道每一步的过程。
构建一个由主从节点组成的Spark集群,Spark在集群中运行。
就是只用spark自己的东西,不用Yarn等其他的框架。
Master相当于纱线中的RM;
工人相当于纱线中的纳米;
如何分析Spark的运营模式就分享到这里了,希望。
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/149258.html