在线爬虫是大快大数据一体化开发框架的重要组成部分,本篇重点分享在线爬虫的安装。

爬虫安装前准备工作:大快大数据平台安装完成、zookeeper、redis、elasticsearch、mysql等组件安装启动成功。

1、修改爬虫安装配置文件(最好在线下修改好后再上传平台)

2、修改crawler\dkcrw\jdbc.properties配置文件(只修改图片里的内容其他内容默认即可)

Hbase.zookeeper.quorum所填地址应在DKM监控平台查看:

Redis相关配置看如下界面:

3、把已修改的crawler\dkcrw\下的jdbc.properties配置文件替换到\crawler\dkcrw-tomcat-7.0.56\webapps\ROOT\WEB-INF\classes下(这下面有一个没有改好的直接替换)

修改好后把修改好的爬虫文件打压成压缩文件

4、上传平台主节点并解压(这里就不介绍怎么上传了的了,本次例子是上传到root目录下,安装包上传到任何目录下都可以推选root目录)

unzip 解压命令,解压唱功后会多了一个  cuawler  的文件夹

使用cd  crawler  命令进入  crawler 文件夹下

使用mysql -uroot -p123456 < numysql.sql 命令添加numysql.sql数据库

5、分发爬虫文件

每个节点都需要有dkcrw文件, dkcrw-tomcat-7.0.56文件只能放在一个节点上,不能放在主节点上(推选放在从节点)

命令:

scp -r  {要分发的文件名可填写多个,如果不在要分发文件的目录下请添加路径}  {分发到的服务器ip或名称:分发到的路径}

例如:

cd /opt/dkh

scp -r dkcrw dk2:/opt/dkh/

scp -r dkcrw dkcrw-tomcat-7.0.56/ dk2:/opt/dkh/

6、在分发了dkcrw-tomcat-7.0.56文件的节点上给文件添加权限

命令:

chmod -R 755 {需要给权限的文件等}

例如:

cd /opt/dkh

chmod -R 755 dkcrw dkcrw-tomcat-7.0.56/

7、启动爬虫界面

命令:

cd /opt/dkh/dkcrw-tomcat-7.0.56/bin/

./startup.sh

启动界面之后再浏览器中输入启动界面节点的IP,来打开爬虫界面看是否启动成功(账号密码是默认的)

8、启动每个节点的dkcrw.jar

命令:

主节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar master > dkcrw.log 2>&1 &

从节点运行

cd /opt/dkh/dkcrw/

nohup java -jar dkcrw.jar slave > dkcrw.log 2>&1 &

注意:可以先使用前台启动爬虫,确定爬虫没错误。

前台启动命令java -jar dkcrw.jar master/slave

大快DKH大数据网络爬虫安装教程(详细图文步骤)相关推荐

  1. 快启动u盘pe怎么安装系统详细图文教程

    快启动u盘pe怎么安装系统?电脑系统出现问题就会想直接换掉,但是有些小伙伴却不懂如何使用快启动u盘pe安装系统,让人觉得特别遗憾.其实,我们只要制作好一个u盘pe启动盘,就可以进入pe中安装系统了,下 ...

  2. 快速安装Docker详细图文步骤教程

    文章目录 一.Docker的基本组成 1.Docker是什么? 2.我可以使用Docker做什么? 二.Docker在线安装 1.使用uname命令验证-查看即可 2.如果已经安装过Docker,先卸 ...

  3. mysql安装教程详细教程_mysql压缩包安装教程

    就是下一步下一步直接安装.最多装个可视化界面 . 1.先下载安装程序,然后打开Setup.exe文件,开始mysql的安装.2.点击Next开始下一步安装.默认是Typical,选择Custom,因为 ...

  4. Python网络爬虫简单教程——第一部

    Python网络爬虫简单教程--第一部 感谢,如需转载请注明文章出处:https://blog.csdn.net/weixin_44609873/article/details/103384984 P ...

  5. Python3 Requests+BS4网络爬虫:最详细零基础的获取百度快照链接爬虫教程(思路篇)

    Hello,大家好呀,五一劳动节快乐呀!最近在后台接到一个粉丝的私信说怎么爬取百度快照.正好五一有一段时间休息,咱们就来水一篇文章,顺便来巩固巩固基础的知识. 注意注意!这是思路篇,没有代码!只有思路 ...

  6. python商业爬虫教程_廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程...

    廖雪峰老师的Python商业爬虫课程 Python网络爬虫实战教程 体会不一样的Python爬虫课程 1.JPG (53.51 KB, 下载次数: 1) 2019-8-9 08:15 上传 2.JPG ...

  7. python网络爬虫系列教程_Python网络爬虫系列教程连载 ----长期更新中,敬请关注!...

    感谢大家长期对Python爱好者社区的支持,后期Python爱好者社区推出Python网络爬虫系列教程.欢迎大家关注.以下系列教程大纲,欢迎大家补充.视频长期连载更新中 --------------- ...

  8. 网络爬虫CSS选择器详细讲解

    网络爬虫CSS选择器详细讲解 前言 使用步骤 1.解析的HTML代码 2.逐层选择节点 3.获取文本(string和get_text()) 4.获取节点的属性值 5.选择单个和多个节点 6.通过cla ...

  9. Node.js安装教程(图文版)

    [前端之旅]Web基础与开发工具 [前端之旅]手把手教你安装VS Code并附上超实用插件指南 [前端之旅]HTML大总结 [前端之旅]CSS三万字总结 [前端之旅]JavaScript学习笔记 [前 ...

  10. 惠普打印机驱动服务器系统安装教程,Hp打印机驱动怎么安装,详细图文版教程...

    图一 一.许多惠普打印机是网络共享的,我们把电源线插入我们的计算机. 为了获得更好的办公性能,您可以将网络电缆连接到共享打印机,以便网络上的计算机可以使用打印机. Hp打印机驱动怎么安装,详细图文版教 ...

最新文章

  1. codevs——2894 Txx考试(背包)
  2. scanf 接收 空格 输入_你需要知道的scanf函数用法
  3. 四大数据库的比较(SQL Server、Oracle、Sybase和DB2)
  4. UIScrollView实现不全屏分页的小技巧
  5. python垃圾回收 采用方式_python-面向对象-10-__del__析构方法/垃圾回收机制
  6. EXCEL下载功能在XP系统中运行是好好的,到windows2003系统上,就报错
  7. IDEA查看Maven路径
  8. 【报告分享】2021年社区团购研究报告.pdf(附下载链接)
  9. (C/C++) string / *char / int 基本轉換
  10. sqlserver查询包含在一个字段里面的某一个元素
  11. ubuntu下取代ping的好工具tcpping
  12. HDMI level shifter、接口保护、USB TYPC转HDMI芯片
  13. SQL2019 用户sa‘登录失败(错误18456)
  14. java.io.IOException: 远程主机强迫关闭了一个现有的连接。
  15. 杂项-一张图片和爆破一
  16. 人工智能也存在偏见?探究人工智能偏见的识别和管理
  17. 全新雅思模拟考试开启全国高校预热活动
  18. 使用seq2seq模型进行机器翻译的方法不同
  19. SQL两表关联查询(两表会了,三表,四表都小意思)
  20. 奥巴马就职演说的语言艺术

热门文章

  1. Python+selenium+eclipse执行web自动化(四)控件处理
  2. 数据结构学习笔记06排序 (快速排序、表排序、基数排序)
  3. Oracle:ODP.NET Managed 小试牛刀
  4. sicily 1282. Computer Game
  5. Codeforces 1039D You Are Given a Tree (看题解)
  6. JavaScript 获取数组对象中某一值封装为数组
  7. #pragma的一些用法
  8. NodeJs和ReactJs单元测试工具——Jest
  9. [label][paypal] Paypal 支付页面的语言显示问题
  10. SQL Server置疑数据库解决方法