hadoop学习笔记之-hbase完全分布模式安装-5

技术hadoop学习笔记之-hbase完全分布模式安装-5 hadoop学习笔记之-hbase完全分布模式安装-5http://blog.csdn.net/lichangzai/article/deta

Hadoop研究笔记-hbase全分布式模式安装-5

http://blog.csdn.net/lichangzai/article/details/8441975

http://blog.csdn.net/jpiverson/article/details/9130447

http://linux.it.net.cn/m/view.phpaid=11973-The的解释很详细。

hadoop+zookeeper+hbase集群配置(二)

时间:2015-01-14 14:30来源:linux.it.net.cn 作者:IT

1.快速单机安装:

单机安装Hbase的方法。将引导您通过shell创建一个表,插入一行,删除它,最后停止Hbase。以下操作只需10分钟即可完成。

1.1下载解压最新版本

选择一个Apache 下载镜像:http://www.apache.org/dyn/closer.cgi/hbase/,下载一个releases版本的,目前是0.94.8.然后下载后缀为.tar.gz的文件; 例如hbase-0.94.8.tar.gz.

$ tar xfz hbase-0.94.8.tar.gz

$ cd hbase-0.94.8

现在可以开始Hbase了。但是您可能需要编辑conf/Hbase-site.xml来配置hbase.rootdir,以选择Hbase将数据写入哪个目录。

xmlversion='1.0 '

XML-style sheet type=' text/xsl ' href=' configuration . xsl '

配置

财产

namehbase.rootdir/name

value file :///DIrectory/hbase/value

/property

/配置

将DIRECTORY替换为要写入文件的目录。默认情况下,hbase.rootdir指的是/tmp/hbase-${user.name},这意味着重启后会丢失数据(重启时操作系统会清理/tmp目录)

1.2.启动 HBase

立即启动Hbase:

$ ./bin/start-hbase.sh

启动Master,登录到log/hbase-user-Master-example . org . out

现在您正在独立模式下运行Hbaes。所有服务都在一个JVM上运行,包括Hbase和Zookeeper。Hbase的日志放在日志目录中,当你的启动出现问题时,你可以查看这个日志。

1.3.Hbase Shell 练习

用外壳连接您的Hbase

$ ./bin/hbase外壳

糖化血红蛋白外壳;输入“helpRETURN”查看支持的命令列表。

键入“exitRETURN”以离开HBase外壳

版本: 0.90.0,r1001068,Fri 2010年9月24日13:55:42

hbase(主):001:0

输入帮助,然后按RETURN查看外壳命令列表。这里的帮助非常详细。需要注意的是,表名、行和列都需要引号。

创建一个名为test的表,它只有一个列族作为cf。您可以列出所有的表来检查创建情况,然后插入一些值。

hbase(main):003:0创建“测试”,“cf”

0

row(s) in 1.2200 seconds

hbase(main):003:0 list 'table'
test
1 row(s) in 0.0550 seconds
hbase(main):004:0 put 'test', 'row1', 'cf:a', 'value1'
0 row(s) in 0.0560 seconds
hbase(main):005:0 put 'test', 'row2', 'cf:b', 'value2'
0 row(s) in 0.0370 seconds
hbase(main):006:0 put 'test', 'row3', 'cf:c', 'value3'
0 row(s) in 0.0450 seconds

以上我们分别插入了3行。第一个行key为row1, 列为cf:a, 值是value1。Hbase中的列是由 column family前缀和列的名字组成的,以冒号间隔。例如这一行的列名就是a.

检查插入情况.

Scan这个表,操作如下

hbase(main):007:0 scan 'test'
ROW COLUMN+CELL
row1 column=cf:a, timestamp=1288380727188, value=value1
row2 column=cf:b, timestamp=1288380738440, value=value2
row3 column=cf:c, timestamp=1288380747365, value=value3
3 row(s) in 0.0590 seconds

Get一行,操作如下

hbase(main):008:0 get 'test', 'row1'
COLUMN CELL
cf:a timestamp=1288380727188, value=value1
1 row(s) in 0.0400 seconds

disable 再 drop 这张表,可以清除你刚刚的操作

hbase(main):012:0 disable 'test'
0 row(s) in 1.0930 seconds
hbase(main):013:0 drop 'test'
0 row(s) in 0.0770 seconds 

关闭shell

hbase(main):014:0 exit

1.4.停止 HBase

运行停止脚本来停止HBase.

$ ./bin/stop-hbase.sh
stopping hbase...............

2 Hbase集群安装前注意

1)Java:(hadoop已经安装了)

2)Hadoop1.2.0已经正确安装,并且可以启动 HDFS 系统, 可参考的Hadoop安装文档:hadoop+zookeeper+hbase集群配置(一)http://blog.csdn.net/jpiverson/article/details/9130447

3)NTP:集群的时钟要保证基本的一致。稍有不一致是可以容忍的,但是很大的不一致会 造成奇怪的行为。 运行NTP或者其他什么东西来同步你的时间.

如果你查询的时候或者是遇到奇怪的故障,可以检查一下系统时间是否正确!

设置集群各个节点时钟:date -s“2012-02-13 14:00:00”

4)ulimitnproc:

Base是数据库,会在同一时间使用很多的文件句柄。大多数linux系统使用的默认值1024是不能满足的,会导致FAQ: Why do I see "java.io.IOException...(Too manyopen files)" in my logs异常。还可能会发生这样的异常

2010-04-06 03:04:37,542 INFO org.apache.hadoop.hdfs.DFSClient: ExceptionincreateBlockOutputStream java.io.EOFException

2010-04-06 03:04:37,542 INFO org.apache.hadoop.hdfs.DFSClient:Abandoning block blk_-6935524980745310745_1391901

所以你需要修改你的最大文件句柄限制。可以设置到10k. 你还需要修改 hbase 用户的 nproc,如果过低会造成 OutOfMemoryError异常。 [2] [3].

需要澄清的,这两个设置是针对操作系统的,不是Hbase本身的。有一个常见的错误是Hbase运行的用户,和设置最大值的用户不是一个用户。在Hbase启动的时候,第一行日志会现在ulimit信息,所以你最好检查一下。

设置ulimit:

如果你使用的是Ubuntu,你可以这样设置:

在文件/etc/security/limits.conf添加一行,如:

hadoop - nofile32768

可以把hadoop替换成你运行Hbase和Hadoop的用户。如果你用两个用户,你就需要配两个。还有配nproc hard 和 softlimits. 如:

hadoop soft/hard nproc 32000

在/etc/pam.d/common-session加上这一行:

session requiredpam_limits.so

否则在/etc/security/limits.conf上的配置不会生效.

还有注销再登录,这些配置才能生效!

7 )修改Hadoop HDFS Datanode同时处理文件的上限:dfs.datanode.max.xcievers

一个 Hadoop HDFS Datanode 有一个同时处理文件的上限. 这个参数叫xcievers(Hadoop的作者把这个单词拼错了). 在你加载之前,先确认下你有没有配置这个文件conf/hdfs-site.xml里面的xceivers参数,至少要有4096:

property

namedfs.datanode.max.xcievers/name

value4096/value

/property

对于HDFS修改配置要记得重启.

如果没有这一项配置,你可能会遇到奇怪的失败。你会在Datanode的日志中看到xcievers exceeded,但是运行起来会报 missing blocks错误。例如:02/12/1220:10:31 INFO hdfs.DFSClient: Could not obtain blockblk_XXXXXXXXXXXXXXXXXXXXXX_YYYYYYYY from any node: java.io.IOException: No livenodes contain current block. Will get new block locations from namenode andretry...

8)继承hadoop安装的说明:

每个机子/etc/hosts

192.168.10.203 node1 (master)

192.168.10.204 node2 (slave)

192.168.10.205 node3 (slave)

9) 继续使用hadoop用户安装

Chown –R hadoop /usr/local/hbase

3 分布式模式配置

3.1配置conf/hbase-env.sh

exportJAVA_HOME=/usr/local/java/jdk1.6.0_45/

export HBASE_MANAGES_ZK=true

不管是什么模式,你都需要编辑conf/hbase-env.sh来告知Hbasejava的安装路径.在这个文件里你还可以设置Hbase的运行环境,诸如 heapsize和其他JVM有关的选项, 还有Log文件地址,等等. 设置JAVA_HOME指向java安装的路径.

一个分布式运行的Hbase依赖一个zookeeper集群。所有的节点和客户端都必须能够访问zookeeper。默认的情况下Hbase会管理一个zookeep集群。这个集群会随着Hbase的启动而启动。当然,你也可以自己管理一个zookeeper集群,但需要配置Hbase。你需要修改conf/hbase-env.sh里面的HBASE_MANAGES_ZK来切换。这个值默认是true的,作用是让Hbase启动的时候同时也启动zookeeper.

让Hbase使用一个现有的不被Hbase托管的Zookeep集群,需要设置conf/hbase-env.sh文件中的HBASE_MANAGES_ZK属性为 false

# Tell HBase whether it should manage it's own instanceof Zookeeper or not.

exportHBASE_MANAGES_ZK=false

3.2 配置conf/hbase-site.xml

  1. configuration
  2. property
  3. namehbase.rootdir/name
  4. valuehdfs://node1:49002/hbase/value
  5. descriptionThedirectorysharedbyRegionServers.
  6. /description
  7. /property
  8. property
  9. namehbase.cluster.distributed/name
  10. valuetrue/value
  11. descriptionThemodetheclusterwillbein.Possiblevaluesare
  12. false:standaloneandpseudo-distributedsetupswithmanagedZookeeper
  13. true:fully-distributedwithunmanagedZookeeperQuorum(seehbase-env.sh)
  14. /description
  15. /property
  16. property
  17. namehbase.zookeeper.property.clientPort/name
  18. value2181/value
  19. descriptionPropertyfromZooKeeper'sconfigzoo.cfg.
  20. Theportatwhichtheclientswillconnect.
  21. /description
  22. /property
  23. property
  24. namehbase.zookeeper.quorum/name
  25. valuenode1,node2,node3/value
  26. descriptionCommaseparatedlistofserversintheZooKeeperQuorum.
  27. Forexample,"host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".
  28. Bydefaultthisissettolocalhostforlocalandpseudo-distributedmodes
  29. ofoperation.Forafully-distributedsetup,thisshouldbesettoafull
  30. listofZooKeeperquorumservers.IfHBASE_MANAGES_ZKissetinhbase-env.sh
  31. thisisthelistofserverswhichwewillstart/stopZooKeeperon.
  32. /description
  33. /property
  34. property
  35. namehbase.zookeeper.property.dataDir/name
  36. value/home/hadoop/zookeeper/value
  37. descriptionPropertyfromZooKeeper'sconfigzoo.cfg.
  38. Thedirectorywherethesnapshotisstored.
  39. /description
  40. /property
  41. /configuration

要想运行完全分布式模式,加一个属性hbase.cluster.distributed设置为true然后把hbase.rootdir设置为HDFS的NameNode的位置。 例如,你的namenode运行在node1,端口是49002 你期望的目录是/hbase,使用如下的配置:hdfs://node1:49002/hbase

hbase.rootdir:这个目录是region server的共享目录,用来持久化Hbase。URL需要是'完全正确'的,还要包含文件系统的scheme。例如,要表示hdfs中的'/hbase'目录,namenode 运行在node1的9090端口。则需要设置为hdfs://node1:49002/hbase。默认情况下Hbase是写到/tmp的。不改这个配置,数据会在重启的时候丢失。默认:file:///tmp/hbase-${user.name}/hbase

hbase.cluster.distributed:Hbase的运行模式。false是单机模式,true是分布式模式。若为false,Hbase和Zookeeper会运行在同一个JVM里面。

默认:false

在hbase-site.xml配置zookeeper:

当Hbase管理zookeeper的时候,你可以通过修改zoo.cfg来配置zookeeper,

一个更加简单的方法是在conf/hbase-site.xml里面修改zookeeper的配置。Zookeeer的配置是作为property写在hbase-site.xml里面的。

对于zookeepr的配置,你至少要在hbase-site.xml中列出zookeepr的ensemble servers,具体的字段是hbase.zookeeper.quorum. 该这个字段的默认值是localhost,这个值对于分布式应用显然是不可以的. (远程连接无法使用)。

hbase.zookeeper.property.clientPort:ZooKeeper的zoo.conf中的配置。 客户端连接的端口。

hbase.zookeeper.quorum:Zookeeper集群的地址列表,用逗号分割。例如:"host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".默认是localhost,是给伪分布式用的。要修改才能在完全分布式的情况下使用。如果在hbase-env.sh设置了HBASE_MANAGES_ZK,这些ZooKeeper节点就会和Hbase一起启动。

默认:localhost

运行一个zookeeper也是可以的,但是在生产环境中,你最好部署3,5,7个节点。部署的越多,可靠性就越高,当然只能部署奇数个,偶数个是不可以的。你需要给每个zookeeper 1G左右的内存,如果可能的话,最好有独立的磁盘。 (独立磁盘可以确保zookeeper是高性能的。).如果你的集群负载很重,不要把Zookeeper和RegionServer运行在同一台机器上面。就像DataNodes 和 TaskTrackers一样

hbase.zookeeper.property.dataDir:ZooKeeper的zoo.conf中的配置。 快照的存储位置

把ZooKeeper保存数据的目录地址改掉。默认值是/tmp,这里在重启的时候会被操作系统删掉,可以把它修改到/home/hadoop/zookeeper(这个路径hadoop用户拥有操作权限)

对于独立的Zookeeper,要指明Zookeeper的host和端口。可以在hbase-site.xml中设置, 也可以在Hbase的CLASSPATH下面加一个zoo.cfg配置文件。 HBase 会优先加载zoo.cfg里面的配置,把hbase-site.xml里面的覆盖掉.

参见http://www.yankay.com/wp-content/hbase/book.html#hbase_default_configurations可以查找hbase.zookeeper.property前缀,找到关于zookeeper的配置。

3.3 配置conf/regionservers

Node1

Node2

完全分布式模式的还需要修改conf/regionservers.在这里列出了你希望运行的全部HRegionServer,一行写一个host (就像Hadoop里面的slaves一样). 列在这里的server会随着集群的启动而启动,集群的停止而停止.

4 运行和确认你的安装

4.1当Hbase托管ZooKeeper的时候

当Hbase托管ZooKeeper的时候Zookeeper集群的启动是Hbase启动脚本的一部分

首先确认你的HDFS是运行着的。你可以运行HADOOP_HOME中的bin/start-hdfs.sh来启动HDFS.你可以通过put命令来测试放一个文件,然后有get命令来读这个文件。通常情况下Hbase是不会运行mapreduce的。所以比不需要检查这些。

用如下命令启动Hbase:

bin/start-hbase.sh

这个脚本在HBASE_HOME目录里面。

你现在已经启动Hbase了。Hbase把log记在logs子目录里面. 当Hbase启动出问题的时候,可以看看Log.

Hbase也有一个界面,上面会列出重要的属性。默认是在Master的60010端口上H (HBase RegionServers 会默认绑定 60020端口,在端口60030上有一个展示信息的界面 ).如果Master运行在node1,端口是默认的话,你可以用浏览器在http://node:60010看到主界面. .

一旦Hbase启动,可以看到如何建表,插入数据,scan你的表,还有disable这个表,最后把它删掉。

可以在Hbase Shell停止Hbase

$./bin/stop-hbase.sh

stoppinghbase...............

停止操作需要一些时间,你的集群越大,停的时间可能会越长。如果你正在运行一个分布式的操作,要确认在Hbase彻底停止之前,Hadoop不能停.

4.2独立的zookeeper启动,

除了启动habse,

执行:bin/start-hbase.sh启动habse

你需要自己去运行zookeeper:

${HBASE_HOME}/bin/hbase-daemons.sh {start,stop} zookeeper

你可以用这条命令启动ZooKeeper而不启动Hbase.HBASE_MANAGES_ZK的值是false, 如果你想在Hbase重启的时候不重启ZooKeeper,你可以这样。

5.测试:

可以使用jps查看进程:在master上:

在node2,node3(slave节点)上

通过浏览器查看60010端口:

6 在安装中出现的问题:

1 )

用./start-hbase.sh启动HBase后,执行hbase shell
# bin/hbase shell
HBase Shell; enter 'helpRETURN' for list of supported commands.
Version: 0.20.6, rUnknown, Thu Oct 28 19:02:04 CST 2010
接着创建表时候出现如下情况:hbase(main):001:0 create 'test',''c
NativeException: org.apache.hadoop.hbase.MasterNotRunningException: null

jps下,发现主节点上HMaster没有启动,查理HBase log(logs/hbase-hadoop-master-ubuntu.log)里有下面异常:
FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.
java.io.IOException: Call to node1/10.64.56.76:49002 failed on local exception: java.io.EOFException

解决:

从hadoop_home/下面cp一个hadoop/hadoop-core-1.2.0.jar到hbase_home/lib下。

因为Hbase建立在Hadoop之上,所以他用到了hadoop.jar,这个Jar在 lib 里面。这个jar是hbase自己打了branch-0.20-append 补丁的hadoop.jar. Hadoop使用的hadoop.jar和Hbase使用的 必须 一致。所以你需要将 Hbaselib 目录下的hadoop.jar替换成Hadoop里面的那个,防止版本冲突。比方说CDH的版本没有HDFS-724而branch-0.20-append里面有,这个HDFS-724补丁修改了RPC协议。如果不替换,就会有版本冲突,继而造成严重的出错,Hadoop会看起来挂了。

再用./start-hbase.sh启动HBase后,jps下,发现主节点上HMaster还是没有启动,在HBase log里有下面异常:
FATAL org.apache.hadoop.hbase.master.HMaster: Unhandled exception. Starting shutdown.
java.lang.NoClassDefFoundError: org/apache/commons/configuration/Configuration
解决:
在NoClassDefFoundError,缺少 org/apache/commons/configuration/Configuration
果断给他加一个commons-configuration包,
从hadoop_home/lib下面cp一个hadoop/lib/commons-configuration-1.6.jar到hbase_home/lib下。

(集群上所有机子的hbase配置都需要一样)

2 注意事项:

1)、先启动hadoop后,再开启hbase
2)、去掉hadoop的安全模式:hadoop dfsadmin -safemode leave
3)、把/etc/hosts里的ubuntu的IP改为服务器当前的IP
4) 、确认hbase的hbase-site.xml中
namehbase.rootdir/name
valuehdfs://node:49002/hbase/value
与hadoop的core-site.xml中
namefs.default.name/name
valuehdfs://node:49002/hbase/value
红字部分保持一致
valuehdfs://localhost:8020/hbase/value
6)、重新执行./start-hbase.sh之前,先kill掉当前的hbase和zookeeper进程

PS:遇到问题时,先查看logs,很有帮助。

HBase 官方文档,全面介绍hbase安装配置:

内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/154980.html

(0)

相关推荐

  • Oracle的PGA与数据库连接建立的过程是什么

    技术Oracle的PGA与数据库连接建立的过程是什么本篇内容介绍了“Oracle的PGA与数据库连接建立的过程是什么”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这

    攻略 2021年11月4日
  • poj 1111,注意临时变量的选取不要重复)

    技术poj 1111,注意临时变量的选取不要重复) poj 1111(注意临时变量的选取不要重复)#includeiostream
    #includequeue
    #includecstring
    using

    礼包 2021年11月26日
  • MySQL 5.7中PREPARE、EXECUTE、DEALLOCATE语句怎么用

    技术MySQL 5.7中PREPARE、EXECUTE、DEALLOCATE语句怎么用小编给大家分享一下MySQL 5.7中PREPARE、EXECUTE、DEALLOCATE语句怎么用,相信大部分人都还不怎么了解,因此

    攻略 2021年10月30日
  • oracle temp表空间相关知识点有哪些

    技术oracle temp表空间相关知识点有哪些本篇内容主要讲解“oracle temp表空间相关知识点有哪些”,感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷,实用性强。下面就让小编来带大家学习“oracle te

    攻略 2021年11月9日
  • 如何理解docker

    技术如何理解docker这篇文章给大家介绍如何理解docker,内容非常详细,感兴趣的小伙伴们可以参考借鉴,希望对大家能有所帮助。 随着用户的需求越来越多样,系统的规模越来越庞大,运行的软件越来越复杂,环境配置问题

    攻略 2021年10月20日
  • apacheflink零基础系列教程(flink脱离hadoop使用)

    技术如何在Apache Flink中使用RocksDB状态后端如何在Apache Flink中使用RocksDB状态后端,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简

    攻略 2021年12月23日