本文主要讲解“什么是HADOOP概念”,感兴趣的朋友不妨看看。本文介绍的方法简单、快速、实用。让边肖带你学习“什么是HADOOP概念”!
大数据:指常规软件工具在一定时间范围内无法捕捉、管理和处理的数据集合。它是一种海量、高增长、多样化的信息资产,需要新的模型具有更强的决策力、洞察力和发现力以及流程优化能力。
的最小基本单位是位,所有单位按顺序给出:位、字节、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
1字节=8位
1 KB=1,024字节=8192位
1 MB=1,024 KB=1,048,576字节
1 GB=1,024 MB=1,048,576 KB
1 TB=1,024 GB=1,048,576 MB
1 PB=1,024 TB=1,048,576 GB
1 EB=1,024 PB=1,048,576 TB
1 ZB=1,024 EB=1,048,576 PB
1 YB=1,024 ZB=1,048,576 EB
1 BB=1,024 YB=1,048,576 ZB
1 NB=1,024 BB=1,048,576 YB
1 DB=1,024 NB=1,048,576 BB
主要解决海量数据存储和海量数据分析计算问题。
大数据的2个特征
1.大量的。大数据的特点,一开始是“大”。从Map3的第一个时代开始,一个小小的MB Map3就能满足很多人的需求。但是随着时间的推移,存储单元从过去的GB变成了TB,现在变成了PB和EB。随着信息技术的快速发展,数据开始爆炸。社交网络(微博、推特、脸书)——移动网络、各种智能工具、服务工具等。都变成了数据源。淘宝近4亿会员产生20TB左右;每天的商品交易数据;大约10亿脸书用户每天生成超过300TB的日志数据。实时统计、分析、预测和处理这样的大规模数据,迫切需要智能算法、强大的数据处理平台和新的数据处理技术。
2.多样性。广泛的数据源决定了大数据形式的多样性。任何形式的数据都可以发挥作用。目前使用最广泛的推荐系统有淘宝、网易云音乐、今日头条等。这些平台将通过分析用户的日志数据,进一步推荐用户喜欢什么。日志数据是结构良好的数据,有些数据结构不太好,比如图片、音频、视频等。这些数据的因果关系较弱,需要手工标注。
3.高速。大数据的产生非常迅速,主要通过互联网传输。每个人都离不开互联网,也就是说,每一天,每个人都在向大数据提供大量的信息。而且,这些数据需要及时处理,因为花费大量资金存储历史数据,收效甚微,是非常不经济的。对于一个平台来说,可能存储的数据只是过去几天或者一个月内的数据,进一步的数据要及时清理,否则成本太高。基于这种情况,大数据的处理速度非常严格。服务器中的大量资源用于处理和计算数据,许多平台需要实时分析。数据无时无刻不在产生,谁快谁就有优势。
4.价值。这也是大数据的核心特征。在现实世界产生的数据中,有价值的数据占很小的比例。与传统的小数据相比,大数据最大的价值在于从大量各种类型的无关数据中挖掘出对未来趋势和模式进行预测和分析的有价值的数据,通过对机器学习方法、人工智能方法或数据挖掘方法的深入分析,发现新的规律和新的知识,并将其应用于农业、金融、医疗等各个领域。从而最终达到改善社会治理、提高生产效率、促进科学研究的效果。
HADOOP背景介绍
1.1
什么是HADOOP?
介绍hadoop.apache.com,官网-不懂可以用百度翻译。
Apache Hadoop为可靠且可扩展的分布式计算开发开源软件。Apache软件库是一个框架,允许使用简单的编程模型跨计算机集群对大型数据集(海量数据)进行分布式处理。包括这些模块:
Hadoop:支持其他Hadoop模块的常用工具。
Hadoop分布式文件系统(HDFS):一种分布式文件系统,提供对应用程序数据的高吞吐量访问。
Hadoop纱线:作业调度和集群资源管理的框架。
Hadoop MapReduce:一个基于纱的大数据集并行处理系统。
以上每个模块都有自己独立的功能,模块之间相互关联。
广义而言,HADOOP通常指更广泛的概念——HADOOP生态系统。
1.2 HADOOP背景
原型始于2002年的Apache Nutch,这是一个开源的Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的所有工具。包括全文搜索和网络爬虫。Nutch的设计目标是构建一个大规模的全网搜索引擎,包括网页抓取、索引、查询等功能。然而,随着抓取网页数量的增加,遇到了严重的可扩展性问题——“如何解决数十亿网页的存储和索引问题”。
2003年,谷歌发表了一篇技术学术论文《谷歌文件系统》(GFS)。GFS也被称为谷歌文件系统,谷歌公司想保存
储海量搜索数据而设计的专用文件系统。
• 2004年Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。
ps:2003-2004年,Google公开了部分GFS和Mapreduce思想的细节,以此为基础Doug Cutting等人用了2年业余时间实现了DFS和Mapreduce机制,一个微缩版:Nutch
• 2004年Google又发表了一篇技术学术论文MapReduce。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行分析运算。
• 2005年Doug Cutting又基于MapReduce,在Nutch搜索引擎实现了该功能。
•
国内外HADOOP应用案例介绍
• 大型网站Web服务器的日志分析:一个大型网站的Web服务器集群,每5分钟收录的点击日志高达800GB左右,峰值点击每秒达到900万次。每隔5分钟将数据装载到内存中,高速计算网站的热点URL,并将这些信息反馈给前端缓存服务器,以提高缓存命中率。
• 运营商流量经营分析:每天的流量数据在2TB~5TB左右,拷贝到HDFS上,通过交互式分析引擎框架,能运行几百个复杂的数据清洗和报表业务,总时间比类似硬件配置的小型机集群和DB2快2~3倍。
1.5 国内HADOOP的就业情况分析
可以联网查智联
大数据方面的就业主要有三大方向:
• 数据分析类大数据人才 对应岗位 大数据系统研发工程师
• 系统研发类大数据人才 对应岗位 大数据应用开发工程师
• 应用开发类大数据人才 对应岗位 大数据分析师
大数据技术生态体系
上图中涉及到的技术名词解释如下:
1)Sqoop:sqoop 是一款开源的工具,主要用于在 Hadoop(Hive)与传统的数据库(mysql)间进 行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库中。
2)Flume:Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚 合和传输的系统,Flume 支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume 提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。
3)Kafka:Kafka 是一种高吞吐量的分布式发布订阅消息系统,有如下特性:
(1)通过 O(1)的磁盘数据结构提供消息的持久化,这种结构对于即使数以 TB 的消息 存储也能够保持长时间的稳定性能。 (2)高吞吐量:即使是非常普通的硬件 Kafka 也可以支持每秒数百万的消息 (3)支持通过 Kafka 服务器和消费机集群来分区消息。
(4)支持 Hadoop 并行数据加载。
4)Storm:Storm 为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时
处理消息并更新数据库。这是管理队列及工作者集群的另一种方式。 Storm 也可被用于“连
续计算”(continuous computation),对数据流做连续查询,在计算时就将结果以流的形式
输出给用户。
5)Spark:Spark 是当前最流行的开源大数据内存计算框架。可以基于 Hadoop 上存储的大数据进行计算。
6)Oozie:Oozie 是一个管理 Hdoop 作业(job)的工作流程调度管理系统。Oozie 协调作业 就是通过时间(频率)和有效数据触发当前的 Oozie 工作流程。
7)Hbase:HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库, 它是一个适合于非结构化数据存储的数据库。
8)Hive:hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张 数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。 其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专 门的 MapReduce 应用,十分适合数据仓库的统计分析。
9)Mahout:
Apache Mahout是个可扩展的机器学习和数据挖掘库,当前Mahout支持主要的4个用 例: 推荐挖掘:搜集用户动作并以此给用户推荐可能喜欢的事物。 聚集:收集文件并进行相关文件分组。 分类:从现有的分类文档中学习,寻找文档中的相似特征,并为无标签的文档进行正确 的归类。
频繁项集挖掘:将一组项分组,并识别哪些个别项会经常一起出现。
10)ZooKeeper:Zookeeper 是 Google 的 Chubby 一个开源的实现。它是一个针对大型分布 式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、 分布式同步、组服务等。 ZooKeeper 的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能 稳定的系统提供给用户。
到此,相信大家对“HADOOP概念是什么”有了更深的了解,不妨来实际操作一番吧!这里是网站,更多相关内容可以进入相关频道进行查询,关注我们,继续学习!
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/155428.html