Nutch插件开发及发布流程
2019独角兽企业重金招聘Python工程师标准>>>
一,插件开发流程:
1,Nutch开发客户端环境搭建
2,plugin的源代码则保存在/src/java/org/apache/nutch/parse/self/
类实现实例:
public class CustomizedIndexingFilter implements IndexingFilter {
3,在nutch/plugin下创建index-self目录
4,在index-self根目录下创建build.xml和plugin.xml
5,nutch/plugin根目录下变更build.xml
6,nutch工程根目录下变更build.xml
7,修改nutch-default.xml
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor|self)|urlnormalizer-(pass|regex|basic)|scoring-opic</value>
二,插件发布流程:
一, 用连接客户端工具Xshell4连接到nutch的linux服务器上
命令:ssh 172.37.0.202 输入用户名,密码建立连接
二,上传新开发的插件到nutch的home目录下的{nutchhome}/src/plugin/下
用rz命令或者直接拖拽进去,注意变更各种配置文件(插件开发流程)
三,配置索引项目到{nutchhome}/conf/schema.xml和solr的发布环境目录的{tomcathome}/webapps/solr/collection1/conf/schema.xml
例:
<!-- fields for self plugin -->
<field name="outlinkkey" type="string" stored="true" indexed="true" required="true"/>
<field name="outlinkvalue" type="string" stored="true" indexed="true" required="true"/>
四,重起tomcat服务
命令:service tomcat6 restart
五,到nutchhome根目录下,重新编译nutch。
>cd /home/apache-nutch-2.2.1/
>ant runtime
六,删除hbase里的webpage及solr服务的data数据源
删除webpage:
>hbase shell
>disable ‘table’
>drop ‘table’
删除data数据源:
>rm -rf /var/lib/tomcat6/webapps/solr/collection1/data
七,nutch重新抓取数据
命令:
crawl /home/apache-nutch-2.2.1/runtime/local/bin/urls 111 http://172.37.0.202:8080/solr/ 1
八,启动solr服务器端察看
http://172.37.0.202:8080/solr/#/collection1/query
转载于:https://my.oschina.net/junfrank/blog/286409
Nutch插件开发及发布流程相关推荐
- Android 应用程序发布流程注意事项(整理)
一点关于Android应用程序发布过程的东西,用来告诉那些想发布自己的应用程序的朋友们,在发布过程中会遇到哪些的事情. (1) 发布应用程序之前,首先要做的事是为你的应用做数字化签名认证. ...
- linux苹果开发者p12,苹果testflight发布流程
原标题:苹果testflight发布流程 苹果苹果testflight发布流程如下,亥著总结一下testflight上架相关内容: 1.申请iOS发布证书(p12) Appuploader可以辅助在W ...
- 读完 Vue 发布源码,小姐姐回答了 leader 的提问,并优化了项目发布流程~
大家好,我是若川.这是 源码共读 第三期活动,纪年小姐姐的第三次投稿.纪年小姐姐学习完优化了自己的项目发布流程,而且回答了leader对她的提问,来看看她的思考和实践. 第三期是 Vue 3.2 发布 ...
- Apache Nutch 1.6 发布
Apache Nutch 1.6 发布,该版本修复了超过 20 个 bug,新功能包括:新的 HostNormalizer,可通过 MIME-type 和 Indexer API 的功能增强来动态设置 ...
- [css] 你知道CSS的标准发布流程吗?
[css] 你知道CSS的标准发布流程吗? 随着 CSS 3 的广泛应用,很多新的 CSS 属性层出不穷,有很多陌生的 CSS 属性出现,所以经常需要去学习新的 CSS 属性.新的属性往往介绍文章不多 ...
- jenkins配置记录(2)--代码发布流程
在我们的日常运维工作中,使用jenkins来完成业务代码发版上线是至关重要的一环. 前面已经提到在jenkins上添加用户权限的操作,今天重点说下如何在jenkins下构建项目工程进行代码发布? 在此 ...
- 敏捷开发系列学习总结(1)——版本管理发布流程
版本管理是非常重要的,但很多公司或者程序员根本对这个版本管理毫无概念.今天,有渔老师就来讲下我在团队中使用的版本管理发布流程. 一.软件 1.版本命名规范 软件版本号由四部分组成,第一个1为主版本号, ...
- 最新的 iOS 申请证书与发布流程
申请流程. 1. 申请钥匙串文件 进入 (Launchpad),找到 (我的是在其他里面找到的),运行后再左上角 存储在桌面就好了,然后就完成退出钥匙串工具就可以了. 2.申请开发证书,发布证书 ...
- AppStore发布流程(从证书创建到app发布一站式)
简介 iOS-APP发布流程细分一般包含八部分: 有可用的苹果开发者账号(AppID). app相关证书信息配置(开发者发布证书.描述文件). 开发工具(XCode)设置. 打包应用app. itun ...
最新文章
- iOS 流式播放音频文件
- SAP RETAIL 根据Allocation Rule去创建分配表
- JAVA 和.NET在安全功能的比较
- active server pages 错误 asp 0126_微信小程序全栈开发课程【视频版】2.1 小程序前端页面初始配置、ESlint格式错误...
- php和python哪个用了开发web好-php web与python web哪个好
- 2021第六届数维杯大学生数学建模竞赛赛题_B 中小城市地铁运营与建设优化设计
- python: glob模块
- HTML5如何把圆分成六等分,Photoshop怎么把一个圆64等分?
- GAN代码实操(github代码实操)
- 用八类网线钳和剥线刀做网线水晶头
- 导出虚拟机的OVF 模板
- C语言实现设置桌面壁纸
- cad lisp 二次抛物线_cad画二次抛物线
- linux命令行下载BT种子和磁力链接
- 应用于客户端的性能测试指标
- Ansj中文分词说明
- 新的一天,加油努力!
- 设置套接字属性和获取套接字属性,举例子设置套接字端口可重用
- javaone_Java SE 9在JavaOne 2017上达到了Atari般的性能
- 《塔木德智慧全书》(之三)
热门文章
- 给网站管理员的建议:创建可利用的、可抓取的网站
- 磁盘配额的wmi版本(C#)
- Windows7下配置MinGW+CodeBlocks+OpenCV2.3.1
- java中的匿名类方法覆盖_Java技巧:用匿名类来实现简化程序调试
- nodejs操作sqlserver数据_pyspark操作MySQL、SQLServer数据库进行数据处理操作
- 卡莱特led显示屏调试教程_恒彩光电重庆P3 LED显示屏项目顺利完工
- php复选框关联数据库字段,通过php将复选框中的多个值插入数据库
- tp3 普通模式url模式_Thinkphp 3.2.3 url 路由访问模式
- JavaScript中substr()和substring的区别
- .net里鼠标选中的text数据怎么获取_Python数据科学实践 | 爬虫1