nutch2.1在windows平台上使用eclipsedebug 存储在mysql的搭建过程
步骤1:准备好eclipse、eclipse svn插件、mysql准备好,mysql使用utf-8编码
步骤2:mysql建库,建表:
步骤3:从 https://svn.apache.org/repos/asf/nutch/tags/release-2.1 拉下代码,在本地创建java project。本人因为试验过很多次,所以在此取项目名称为test。
步骤4:加src文件
步骤5:加入lib包:
切换到Libaries选项卡,“Add Library"->"IvyDE Managed Dependencies"->"Next",选择“Project”,选择ivy\ivy.xml文件。点 Ok。eclipse会自动下载依赖的jar包。
conf="*->default" />
步骤6:在"Order and Export"选项卡,将 conf top
步骤7:数据库配置以及其他配置信息
gora.sqlstore.jdbc.password=123456
<property><name>http.agent.name</name><value>Your Nutch Spider</value></property><property><name>http.accept.language</name><value>ja-jp, en-us,en-gb,en;q=0.7,*;q=0.3</value><description>Value of the “Accept-Language” request header field.This allows selecting non-English language as default one to retrieve.It is a useful setting for search engines build for certain national group.</description></property><property><name>parser.character.encoding.default</name><value>utf-8</value><description>The character encoding to fall back to when no other informationis available</description></property><property><name>plugin.includes</name><value>protocol-httpclient|protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|urlnormalizer-(pass|regex|basic)|scoring-opic</value><description>Regular expression naming plugin directory names toinclude. Any plugin not matching this expression is excluded.In any case you need at least include the nutch-extensionpoints plugin. Bydefault Nutch includes crawling just HTML and plain text via HTTP,and basic indexing and search plugins. In order to use HTTPS please enableprotocol-httpclient, but be aware of possible intermittent problems with theunderlying commons-httpclient library.</description></property><property><name>storage.data.store.class</name><value>org.apache.gora.sql.store.SqlStore</value><description>The Gora DataStore class for storing and retrieving data.Currently the following stores are available: ….</description></property><property><name>plugin.folders</name><value>./src/plugin</value><description>Directories where nutch plugins are located. Eachelement may be a relative or absolute path. If absolute, it is usedas is. If relative, it is searched for on the classpath.</description></property>在根目录下的build.xml中找到如下代码
- <target name="resolve-default" depends="clean-lib, init" description="--> resolve and retrieve dependencies with ivy">
- <ivy:resolve file="${ivy.file}" conf="default" log="download-only" />
- <ivy:retrieve pattern="${build.lib.dir}/[artifact]-[revision].[ext]" symlink="false" log="quiet" />
- <antcall target="copy-libs" />
- </target>
将pattern="${build.lib.dir}/[artifact]-[revision].[ext]"替换为pattern="${build.lib.dir}/[artifact]-[type]-[revision].[ext]"
步骤8:配置抓取url
步骤9:运行org.apache.nutch.crawl.Crawler
参考资料:
nutch2.1在windows平台上使用eclipsedebug 存储在mysql的搭建过程相关推荐
- x264代码剖析(一):图文详解x264在Windows平台上的搭建
x264代码剖析(一):图文详解x264在Windows平台上的搭建 X264源码下载地址:http://ftp.videolan.org/pub/videolan/x264/ 平台:win7 PC. ...
- 细数 Windows 平台上的 NoSQL 数据库
从可查询的分布式解决方案,如MongoDB,到简单的分布式Key/Value存储解决方案,如Cassandra.此外,还有Riak,Tokyo Cabinet,Voldemort,CouchDB和Re ...
- (转)在Windows平台上安装Node.js及NPM模块管理
本文转载自:http://www.cnblogs.com/seanlv/archive/2011/11/22/2258716.html 之前9月份的时候我写了一篇关于如何在Windows平台上手工管理 ...
- python文件名有空格_python 解决Windows平台上路径有空格的问题
最近在采集windows上中间件的时候,遇到了文件路径有空格的问题. 例如:Aapche的安装路径为D:\Program Files\Apache Software Foundation\Apache ...
- 在Windows平台上安装Node.js及NPM模块管理
1. 下载Node.js官方Windows版程序:http://nodejs.org/#download 从0.6.1开始,Node.js在Windows平台上提供了两种安装方式,一是.MSI ...
- 标准配置的Windows平台上潜在可用屏幕区域
经常在windows开发网站的朋友,在开始设计网站时,最需要知道的就是一个图片的大小和尺寸.我本人也是在windows上玩弄了几年的,虽然没有什么正规的证书之类的,但是自己对windows的东西,一些 ...
- 在Windows平台上安装Dubbox框架
在Windows平台上安装Dubbox框架 一.分布式系统概述 分布式处理方式越来越受到业界的青睐--计算机系统正在经历一场前所未有的从集中式向分布式架构的变革.分布式系统是一个硬件或软件组件分布在不 ...
- Windows平台上安装搭建iPhone/iPad的开发环境
很多朋友希望在体验或学习iphone开发,但是iphone开发环境一般需要 安装在mac计算机下mac os中. 这给许多朋友带来了额外成本投入. 网上已经有各种破解方法,在非苹果电脑上安装iphon ...
- 管家婆 源码 php,在windows平台上构建本身的PHP
这是一篇翻译的文章,原文拜见:https://wiki.php.net/internals/windows/stepbystepbuild 趁便提一句,wiki.php.net有很多出色的内容,想深切 ...
最新文章
- 通过 Jersey Http请求头,Http响应头,客户端 API 调用 REST 风格的 Web 服务
- 网络工程师必懂的专业术语
- knn的python代码_KNN-python代码实现
- 获取一段html的内容简介
- 0083-Nocomachns定理
- 针对JDK 14提议的另外六个JEP
- [css] sass是怎么定义变量的?
- 领域应用 | 大众点评搜索基于知识图谱的深度学习排序实践
- python改文件后缀名_python 批量修改文件后缀名(示例)
- 【MATLAB】MATLAB 2017A 软件安装
- java文档生成器_最好用的数据库文档生成工具
- vs 2019 创建rdl报表
- 为什么不居中(CellRangeAddress),关于excel导出合并单元格
- Mac清理系统用什么软件?
- 电力电子转战数字IC——我的IC笔试(2022.10.14更新)
- 盘点:当今十大备份应用软件(转)
- strcmp函数的两种实现
- 中国农科院基因组所刘永鑫组诚聘博士后/海外联培博士/客座研究生
- android .reset(),Android驱动笔记(13)——PMIC reset介绍
- Python由来以及用途
热门文章
- OpenGL学习之路(二)
- 同意按钮,倒计时10秒,同意按钮变为可提交的
- HDU 4635(强连通分量分解
- 用cookie实现叶卡的记忆功能
- AllTray-将办法最小化到琐细托盘
- JavaScript计算两个日期相差天数/分钟/小时
- java将字符串转换成可执行代码
- SpringBoot启动报错java.nio.charset.MalformedInputException: Input length = 2解决方案
- flutter中的异步机制Future
- o.s.b.d.LoggingFailureAnalysisReporter