2019独角兽企业重金招聘Python工程师标准>>>

 一,插件开发流程:

1,Nutch开发客户端环境搭建

2,plugin的源代码则保存在/src/java/org/apache/nutch/parse/self/

类实现实例:

public class CustomizedIndexingFilter implements IndexingFilter {

3,在nutch/plugin下创建index-self目录

4,在index-self根目录下创建build.xml和plugin.xml

5,nutch/plugin根目录下变更build.xml

6,nutch工程根目录下变更build.xml

7,修改nutch-default.xml

<name>plugin.includes</name>

<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor|self)|urlnormalizer-(pass|regex|basic)|scoring-opic</value>

二,插件发布流程:

一,      用连接客户端工具Xshell4连接到nutch的linux服务器上

命令:ssh 172.37.0.202   输入用户名,密码建立连接

二,上传新开发的插件到nutch的home目录下的{nutchhome}/src/plugin/下

用rz命令或者直接拖拽进去,注意变更各种配置文件(插件开发流程)

三,配置索引项目到{nutchhome}/conf/schema.xml和solr的发布环境目录的{tomcathome}/webapps/solr/collection1/conf/schema.xml

例:

<!-- fields for self plugin -->

<field name="outlinkkey" type="string" stored="true" indexed="true" required="true"/>

<field name="outlinkvalue" type="string" stored="true" indexed="true" required="true"/>

四,重起tomcat服务

命令:service tomcat6 restart

五,到nutchhome根目录下,重新编译nutch。

>cd /home/apache-nutch-2.2.1/

>ant runtime

六,删除hbase里的webpage及solr服务的data数据源

删除webpage:

>hbase shell

>disable ‘table’

>drop  ‘table’

删除data数据源:

>rm -rf /var/lib/tomcat6/webapps/solr/collection1/data

七,nutch重新抓取数据

命令:

crawl /home/apache-nutch-2.2.1/runtime/local/bin/urls 111 http://172.37.0.202:8080/solr/ 1

八,启动solr服务器端察看

http://172.37.0.202:8080/solr/#/collection1/query

转载于:https://my.oschina.net/junfrank/blog/286409

Nutch插件开发及发布流程相关推荐

  1. Android 应用程序发布流程注意事项(整理)

    一点关于Android应用程序发布过程的东西,用来告诉那些想发布自己的应用程序的朋友们,在发布过程中会遇到哪些的事情. (1)       发布应用程序之前,首先要做的事是为你的应用做数字化签名认证. ...

  2. linux苹果开发者p12,苹果testflight发布流程

    原标题:苹果testflight发布流程 苹果苹果testflight发布流程如下,亥著总结一下testflight上架相关内容: 1.申请iOS发布证书(p12) Appuploader可以辅助在W ...

  3. 读完 Vue 发布源码,小姐姐回答了 leader 的提问,并优化了项目发布流程~

    大家好,我是若川.这是 源码共读 第三期活动,纪年小姐姐的第三次投稿.纪年小姐姐学习完优化了自己的项目发布流程,而且回答了leader对她的提问,来看看她的思考和实践. 第三期是 Vue 3.2 发布 ...

  4. Apache Nutch 1.6 发布

    Apache Nutch 1.6 发布,该版本修复了超过 20 个 bug,新功能包括:新的 HostNormalizer,可通过 MIME-type 和 Indexer API 的功能增强来动态设置 ...

  5. [css] 你知道CSS的标准发布流程吗?

    [css] 你知道CSS的标准发布流程吗? 随着 CSS 3 的广泛应用,很多新的 CSS 属性层出不穷,有很多陌生的 CSS 属性出现,所以经常需要去学习新的 CSS 属性.新的属性往往介绍文章不多 ...

  6. jenkins配置记录(2)--代码发布流程

    在我们的日常运维工作中,使用jenkins来完成业务代码发版上线是至关重要的一环. 前面已经提到在jenkins上添加用户权限的操作,今天重点说下如何在jenkins下构建项目工程进行代码发布? 在此 ...

  7. 敏捷开发系列学习总结(1)——版本管理发布流程

    版本管理是非常重要的,但很多公司或者程序员根本对这个版本管理毫无概念.今天,有渔老师就来讲下我在团队中使用的版本管理发布流程. 一.软件 1.版本命名规范 软件版本号由四部分组成,第一个1为主版本号, ...

  8. 最新的 iOS 申请证书与发布流程

    申请流程. 1. 申请钥匙串文件 进入  (Launchpad),找到   (我的是在其他里面找到的),运行后再左上角 存储在桌面就好了,然后就完成退出钥匙串工具就可以了. 2.申请开发证书,发布证书 ...

  9. AppStore发布流程(从证书创建到app发布一站式)

    简介 iOS-APP发布流程细分一般包含八部分: 有可用的苹果开发者账号(AppID). app相关证书信息配置(开发者发布证书.描述文件). 开发工具(XCode)设置. 打包应用app. itun ...

最新文章

  1. iOS 流式播放音频文件
  2. SAP RETAIL 根据Allocation Rule去创建分配表
  3. JAVA 和.NET在安全功能的比较
  4. active server pages 错误 asp 0126_微信小程序全栈开发课程【视频版】2.1 小程序前端页面初始配置、ESlint格式错误...
  5. php和python哪个用了开发web好-php web与python web哪个好
  6. 2021第六届数维杯大学生数学建模竞赛赛题_B 中小城市地铁运营与建设优化设计
  7. python: glob模块
  8. HTML5如何把圆分成六等分,Photoshop怎么把一个圆64等分?
  9. GAN代码实操(github代码实操)
  10. 用八类网线钳和剥线刀做网线水晶头
  11. 导出虚拟机的OVF 模板
  12. C语言实现设置桌面壁纸
  13. cad lisp 二次抛物线_cad画二次抛物线
  14. linux命令行下载BT种子和磁力链接
  15. 应用于客户端的性能测试指标
  16. Ansj中文分词说明
  17. 新的一天,加油努力!
  18. 设置套接字属性和获取套接字属性,举例子设置套接字端口可重用
  19. javaone_Java SE 9在JavaOne 2017上达到了Atari般的性能
  20. 《塔木德智慧全书》(之三)

热门文章

  1. 给网站管理员的建议:创建可利用的、可抓取的网站
  2. 磁盘配额的wmi版本(C#)
  3. Windows7下配置MinGW+CodeBlocks+OpenCV2.3.1
  4. java中的匿名类方法覆盖_Java技巧:用匿名类来实现简化程序调试
  5. nodejs操作sqlserver数据_pyspark操作MySQL、SQLServer数据库进行数据处理操作
  6. 卡莱特led显示屏调试教程_恒彩光电重庆P3 LED显示屏项目顺利完工
  7. php复选框关联数据库字段,通过php将复选框中的多个值插入数据库
  8. tp3 普通模式url模式_Thinkphp 3.2.3 url 路由访问模式
  9. JavaScript中substr()和substring的区别
  10. .net里鼠标选中的text数据怎么获取_Python数据科学实践 | 爬虫1