本文主要讲解“Storm的基本架构是什么”。感兴趣的朋友不妨看看。本文介绍的方法简单、快速、实用。让边肖带你学习“风暴的基本架构是什么”!
目前常用的流式实时计算引擎分为面向行和面向微批量两类。面向行的流式实时计算引擎的代表是Apache Storm,其特点是低延迟但低吞吐量。面向微批量的流式实时计算引擎的代表是Spark Streaming,其特点是高延迟但高吞吐量。
主流流数据线路分为四个阶段:
1.数据采集:负责实时采集不同数据源的数据,可选包括Flume和自定义的Kafka Producer。
2.数据缓冲:为了平衡不相等的数据采集速率和数据处理速率。卡夫卡
3.实时分析:以流式方式从数据缓冲区获取数据,快速完成数据处理。示例:风暴和火花流
4.结果存储:将计算结果存储在外部系统中,如:大量可以存储在Hbase中的实时查询系统,少量可以存储在Redis中的高并发查询系统。
风暴:
基本概念:
1.Tuple:由一组可序列化的元素组成。
2.流:无限元组形成一个流。
3.拓扑:类似于MapReduce的工作,DAG由一系列的Spout和Blot组成。
4.喷口:数据源喷口:流
5.螺栓:消息处理逻辑
基本架构:
1.Nimbus:集群的管理和调度组件
2.主管:计算组件
3.动物园管理员:邻避和主管之前的协调部分。
火花流:
基本概念:核心思想是将流处理转化为微批量处理,即按时间划分数据流,每个切片中的数据对应一个RDD,然后使用Spark引擎进行快速计算。正是因为Spark Streaming采用了微批量处理,所以只能算是一个接近实时的处理系统,而不是严格意义上的实时流处理。
Spark Streaming进一步抽象了流数据。它对流式数据进行批处理,并将每一批数据抽象成RDD,这样流式数据就变成了流式RDD序列,这就是Dstream。Spark Streaming定义了在Dstream上的一系列操作,主要分为两类:转换和输出。一个转换操作可以将一个数据流转换成另一个数据流,而输出操作可以产生一个或一组结果,这些结果将被输出到指定的外部系统。
Spark组件的抽象和操作比较;
1.星火代码数据抽象RDD数据运算转换
2.火花SQL数据抽象:数据框架,数据集,操作:转换
3.火花流:数据抽象:数据流,操作:转换
至此,相信大家对“Storm的基本架构是什么”有了更深的理解,让我们在实践中去做吧!这是网站。更多相关内容,可以去相关渠道查询,关注我们,继续学习!
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/156280.html