本文主要介绍大数据爬虫安装的实例分析,非常详细,具有一定的参考价值。感兴趣的朋友一定要看完!
爬虫安装前准备:大数据平台安装完成,zookeeper、redis、elasticsearch、mysql等组件安装启动成功。
1.修改爬虫安装配置文件(最好离线修改后再上传到平台)
2.修改crawler \ dkcrw \ jdbc.properties配置文件(默认情况下只能修改图片中的内容)
Hbase.zookeeper.quorum填写的地址应在DKM监控平台上查看:
Redis相关配置见以下界面:
3.将crawler \ dkc rw \ to \ crawler \ dkc rw-Tomcat-7 . 0 . 56 \ web apps \ root \ web-INF \ class下修改后的jdbc.properties配置文件替换为(有一个未更改的直接替换)
修改后,将修改后的爬虫文件按成压缩文件。
4.上传平台主节点并解压(这里我就不介绍怎么上传了。在本例中,它被上传到根目录,安装包可以上传到任何目录以选择根目录)。
拉开…的拉链
解压缩命令。解压唱完之后,还会多一个cuawler的文件夹。
使用cd crawler命令进入crawler文件夹。
使用mysql -uroot -p123456 numysql.sql命令添加numysql.sql数据库。
5.分发爬网程序文件
每个节点都需要有一个dkcrw文件,dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(选举放在从节点上)
命令:
scp -r
{您可以填写多个要分发的文件名,如果不在要分发文件的目录中,请添加一个路径} {服务器的ip或分发名称:的路径}
例如:
cd /opt/dkh
scp -r dkcrw dk2:/opt/dkh/
scp-r dkc rw dkc rw-Tomcat-7 . 0 . 56/dk 2:/opt/dkh/
6.在分发dkcrw-tomcat-7.0.56文件的节点上为文件添加权限。
命令:
chmod-R 755 {需要许可的文件等。}
例如:
cd /opt/dkh
chmod-R 755 dk rwd kcrw-Tomcat-7 . 0 . 56/
7.启动爬虫界面。
命令:
CD/opt/dkh/dkc rw-Tomcat-7 . 0 . 56/bin/。/startup.sh
界面启动后,在浏览器中输入启动界面节点的IP,打开爬虫界面,查看启动是否成功(默认为账号密码)。
8.启动每个节点的dkcrw.jar。
命令:
主节点操作
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar主dkcrw.log 21
从节点运行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar从属dkcrw.log 21
注意:可以先用前台启动爬虫,确保爬虫正确。
前台启动命令Java-jar dk rw . jar主/从
以上就是《大数据爬虫安装实例分析》一文的全部内容,感谢阅读!希望分享的内容对大家有所帮助。更多相关知识,请关注行业资讯频道!
内容来源网络,如有侵权,联系删除,本文地址:https://www.230890.com/zhan/153429.html