Hadoop简介
Hadoop 是什么
Hadoop是一个开源软件框架,提供分布式存储和计算。它具有不共享、高可用性(HA)、灵活性和可扩展性的特点,非常适合处理海量。
Hadoop是一个开源软件框架。
Hadoop适合处理大规模数据。
Hadoop部署在可扩展的集群服务器上。
Hadoop 三大核心组件
HDFS(分布式文件系统)-——实现了文件在集群服务器上的分布式存储。
MAPREDUCE(分布式计算编程框架)——在集群服务器上实现分布式并行计算。
YARN(分布式资源调度系统)——帮助用户调度大量MapReduce程序,合理分配计算资源(CPU和内存)。
Hadoop 优点
高可靠性
Hadoop维护和存储多个数据副本,以增加数据冗余并避免数据丢失。
高扩展性
Hadoop集群可以轻松扩展更多的集群节点。
高效性
Hadoop可以在集群节点之间动态移动数据,并保证各节点数据的动态平衡,并行工作,处理速度非常快。
高容错性
Hadoop维护和存储多个数据副本,并可以自动重新分发失败的任务。
低成本
Hadoop是开源框架,项目的软件成本会大大降低。Hadoop是用Java语言编写的,可以跨平台运行。
Hadoop 生态圈
Hadoop生态系统是指越来越多的围绕Hadoop软件框架的相关软件框架,它们与Hadoop框架共同构成了一个生机勃勃的Hadoop生态系统。在某些场景中,Hadoop有时指的是Hadoop生态系统。
Hadoop生态系统架构图
Hadoop:最低的Hadoop共性:Hadoop系统是其他模块的基础设施。
HDFS:Hadoop分布式文件系统是Hadoop的基石。
另一个资源协调器是统一的资源管理和调度平台。
MapReduce:是一个编程模型,非常适合分布式计算。
Spark:新一代计算框架,相比MapReduce性能大幅提升。
这是一个分布式的、面向列的数据库(底层依赖于HDFS)。
是一个基于Hadoop的数据仓库工具(SQL语句)
Pig:与Hive类似,它也是分析和评估大型数据集的工具。
Impala:与Hive类似,它是一个可以向存储在HDFS和HBase中的海量数据提交交互式SQL查询的工具。
Mahout:是一个机器学习和数据挖掘库,可以实现经典的机器学习算法。
Flume:是一个高可用、高可靠、分布式的海量日志收集框架。
Sqoop:是关系数据库和Hadoop之间进行数据转换的工具。
卡夫卡:这是一个高吞吐量的分布式发布/订阅消息系统。
大数据处理平台及核心技术
Hadoop 与云计算
什么是云计算
云计算是一种可以通过网络轻松访问共享资源池,获取计算资源(如网络、服务器、存储、应用、服务等)的服务模式。)根据需要。
之所以称之为“云”,是因为在某些地方,云计算与真正的云非常一致。云的尺度可以动态缩放,边界模糊飘忽不定,具体位置无法确定,但确实存在于某处。
云计算的特点
根据需要提供服务(如租用云服务器,用户可根据需要申请配置,如CPU内核、内存大小等。)
宽带网络接入(用户可以随时随地使用各种终端设备通过互联网接入云计算服务)
资源池(通过共享资源池以统一的方式管理资源,通过使用虚拟化技术将资源共享给不同的用户)
高可扩展性(服务的规模可以快速扩展,例如云盘扩展)
可量化的服务(用户的使用情况可以通过监控软件进行监控,服务可以根据资源使用情况进行收费,如云盘流量)
大规模(例如,谷歌云计算中心有超过100万台服务器)
云计算的类型
根据云计算服务的类型,大致可以分为三类。
基础设施即服务(IaaS):为用户提供硬件设备(云服务器)
PaaS:提供用户应用的应用环境(无需维护服务器,只需上传应用即可)
SaaS:提供用户应用(云盘、云笔记)
华为、阿里巴巴集团、百度等。都是国内领先的云计算技术,主要是互联网巨头和系统集成提供商。
Hadoop 仅是云计算技术的一种实现,但云计算的概念则更为广阔,并不局限于某种技术。
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/112511.html