简述spark的运行架构(spark可以运行在哪些模式下)-柠檬ai自媒体

本文将详细说明如何分析Spark的运营模式。这篇文章的内容质量很高，所以边肖会分享给大家作为参考。希望你看完这篇文章后有所了解。

Spark运行模式

1 Spark的两个重要角色

1.1 简介

Spark是一个基于内存的快速、通用、可扩展的大数据分析引擎。

1.2 spark内置模块：

如何解析Spark运行模式

1.3 Spark的两个重要角色：

Driver（驱动器）负责管理调度任务。

：:负责具体任务。

2 Spark运行模式
本地模式：它在机器上运行，通常在动手或测试环境中运行。

Standalone:基于Mster从机构建资源调度集群，将Spark任务提交给Master运行。Executor（执行器）是 .

Spark :星火客户端直接连接纱线和自身的一个调度系统，不依赖Yarn等其他框架,Yarn,不需要额外构建 .有两种模式，纱线客户端和纱线集群。主要区别是：Spark .

纱线客户端：驱动程序运行在客户端，适合交互和调试。希望马上看到app的输出。

纱簇：驱动程序运行在由资源管理器启动的应用程序中，适用于生产环境。

Mesos:家庭环境很少使用。

几种模式的比较：

3 Local模式（下的WordCount）
集群

Driver 程序的运行节点加载文件

3.1 Spark-Wordcount基本思路:把句子一个接一个地分成单词；

文件加载load：:把同样的单词放在一组中；

扁平化:计算每个小组的成员人数；

(以上过程是左图的简化过程，不太准确。按照以下步骤记住它；正确的图片是准确的过程)

分组

聚合

3.2 Wordcount代码实现:曾经加载文件；

相关方法说明：:用于扁平化和分词；

TextFile:把每个单词映射到一个祖先；

根据关键字进行FlatMap:分组和聚合；

Map

4 Yarn模式（重点）
ReduceByKey

Spark客户端直接连接到Yarn，不需要额外构建Spark集群。有两种模式，纱线客户端和纱线集群。主要区别在于驱动程序的运行节点。

纱线客户端：驱动程序运行在客户端，适合交互和调试。希望马上看到app的输出。

纱簇：驱动程序运行在由资源管理器启动的应用程序中，适用于生产环境。

3.3 Wordcount过程图示

4.1 概述

一起看两张图片。

5 Standalone模式（独立部署模式）
4.2 Yarn运行模式（重点）

要清晰知道每一步的过程。

构建一个由主从节点组成的Spark集群，Spark在集群中运行。

就是只用spark自己的东西，不用Yarn等其他的框架。

Master相当于纱线中的RM；

工人相当于纱线中的纳米；

如何分析Spark的运营模式就分享到这里了，希望。

内容来源网络，如有侵权，联系删除，本文地址：https://www.230890.com/zhan/149258.html