大快DKH大数据网络爬虫安装教程(详细图文步骤)
在线爬虫是大快大数据一体化开发框架的重要组成部分,本篇重点分享在线爬虫的安装。
爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。
1、修改爬虫安装配置文件(最好在线下修改好后再上传平台)
2、修改crawler\dkcrw\jdbc.properties配置文件(只修改图片里的内容其他内容默认即可)
Hbase.zookeeper.quorum所填地址应在DKM监控平台查看:
Redis相关配置看如下界面:
3、把已修改的crawler\dkcrw\下的jdbc.properties配置文件替换到\crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes下(这下面有一个没有改好的直接替换)
修改好后把修改好的爬虫文件打压成压缩文件
4、上传平台主节点并解压(这里就不介绍怎么上传了的了,本次例子是上传到root目录下,安装包上传到任何目录下都可以推选root目录)
unzip 解压命令,解压唱功后会多了一个 cuawler 的文件夹
使用cd crawler 命令进入 crawler 文件夹下
使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql数据库
5、分发爬虫文件
每个节点都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(推选放在从节点)
命令:
scp -r {要分发的文件名可填写多个,如果不在要分发文件的目录下请添加路径} {分发到的服务器ip或名称:分发到的路径}
例如:
cd /opt/dkh
scp -r dkcrw dk2:/opt/dkh/
scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/
6、在分发了dkcrw-tomcat-7.0.56文件的节点上给文件添加权限
命令:
chmod -R 755 {需要给权限的文件等}
例如:
cd /opt/dkh
chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/
7、启动爬虫界面
命令:
cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/
./startup.sh
启动界面之后再浏览器中输入启动界面节点的IP,来打开爬虫界面看是否启动成功(账号密码是默认的)
8、启动每个节点的dkcrw.jar
命令:
主节点运行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &
从节点运行
cd /opt/dkh/dkcrw/
nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &
注意:可以先使用前台启动爬虫,确定爬虫没错误。
前台启动命令java -jar dkcrw.jar master/slave
大快DKH大数据网络爬虫安装教程(详细图文步骤)相关推荐
- 快启动u盘pe怎么安装系统详细图文教程
快启动u盘pe怎么安装系统?电脑系统出现问题就会想直接换掉,但是有些小伙伴却不懂如何使用快启动u盘pe安装系统,让人觉得特别遗憾.其实,我们只要制作好一个u盘pe启动盘,就可以进入pe中安装系统了,下 ...
- 快速安装Docker详细图文步骤教程
文章目录 一.Docker的基本组成 1.Docker是什么? 2.我可以使用Docker做什么? 二.Docker在线安装 1.使用uname命令验证-查看即可 2.如果已经安装过Docker,先卸 ...
- mysql安装教程详细教程_mysql压缩包安装教程
就是下一步下一步直接安装.最多装个可视化界面 . 1.先下载安装程序,然后打开Setup.exe文件,开始mysql的安装.2.点击Next开始下一步安装.默认是Typical,选择Custom,因为 ...
- Python网络爬虫简单教程——第一部
Python网络爬虫简单教程--第一部 感谢,如需转载请注明文章出处:https://blog.csdn.net/weixin_44609873/article/details/103384984 P ...
- Python3 Requests+BS4网络爬虫:最详细零基础的获取百度快照链接爬虫教程(思路篇)
Hello,大家好呀,五一劳动节快乐呀!最近在后台接到一个粉丝的私信说怎么爬取百度快照.正好五一有一段时间休息,咱们就来水一篇文章,顺便来巩固巩固基础的知识. 注意注意!这是思路篇,没有代码!只有思路 ...
- python商业爬虫教程_廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程...
廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程 1.JPG (53.51 KB, 下载次数: 1) 2019-8-9 08:15 上传 2.JPG ...
- python网络爬虫系列教程_Python网络爬虫系列教程连载 ----长期更新中,敬请关注!...
感谢大家长期对Python爱好者社区的支持,后期Python爱好者社区推出Python网络爬虫系列教程.欢迎大家关注.以下系列教程大纲,欢迎大家补充.视频长期连载更新中 --------------- ...
- 网络爬虫CSS选择器详细讲解
网络爬虫CSS选择器详细讲解 前言 使用步骤 1.解析的HTML代码 2.逐层选择节点 3.获取文本(string和get_text()) 4.获取节点的属性值 5.选择单个和多个节点 6.通过cla ...
- Node.js安装教程(图文版)
[前端之旅]Web基础与开发工具 [前端之旅]手把手教你安装VS Code并附上超实用插件指南 [前端之旅]HTML大总结 [前端之旅]CSS三万字总结 [前端之旅]JavaScript学习笔记 [前 ...
- 惠普打印机驱动服务器系统安装教程,Hp打印机驱动怎么安装,详细图文版教程...
图一 一.许多惠普打印机是网络共享的,我们把电源线插入我们的计算机. 为了获得更好的办公性能,您可以将网络电缆连接到共享打印机,以便网络上的计算机可以使用打印机. Hp打印机驱动怎么安装,详细图文版教 ...
最新文章
- codevs——2894 Txx考试(背包)
- scanf 接收 空格 输入_你需要知道的scanf函数用法
- 四大数据库的比较(SQL Server、Oracle、Sybase和DB2)
- UIScrollView实现不全屏分页的小技巧
- python垃圾回收 采用方式_python-面向对象-10-__del__析构方法/垃圾回收机制
- EXCEL下载功能在XP系统中运行是好好的,到windows2003系统上,就报错
- IDEA查看Maven路径
- 【报告分享】2021年社区团购研究报告.pdf(附下载链接)
- (C/C++) string / *char / int 基本轉換
- sqlserver查询包含在一个字段里面的某一个元素
- ubuntu下取代ping的好工具tcpping
- HDMI level shifter、接口保护、USB TYPC转HDMI芯片
- SQL2019 用户sa‘登录失败(错误18456)
- java.io.IOException: 远程主机强迫关闭了一个现有的连接。
- 杂项-一张图片和爆破一
- 人工智能也存在偏见?探究人工智能偏见的识别和管理
- 全新雅思模拟考试开启全国高校预热活动
- 使用seq2seq模型进行机器翻译的方法不同
- SQL两表关联查询(两表会了,三表,四表都小意思)
- 奥巴马就职演说的语言艺术
热门文章
- Python+selenium+eclipse执行web自动化(四)控件处理
- 数据结构学习笔记06排序 (快速排序、表排序、基数排序)
- Oracle:ODP.NET Managed 小试牛刀
- sicily 1282. Computer Game
- Codeforces 1039D You Are Given a Tree (看题解)
- JavaScript 获取数组对象中某一值封装为数组
- #pragma的一些用法
- NodeJs和ReactJs单元测试工具——Jest
- [label][paypal] Paypal 支付页面的语言显示问题
- SQL Server置疑数据库解决方法