nutch2.1在windows平台上使用eclipsedebug 存储在mysql的搭建过程
步骤1:准备好eclipse、eclipse svn插件、mysql准备好,mysql使用utf-8编码
步骤2:mysql建库,建表:
步骤3:从 https://svn.apache.org/repos/asf/nutch/tags/release-2.1 拉下代码,在本地创建java project。本人因为试验过很多次,所以在此取项目名称为test。
步骤4:加src文件
步骤5:加入lib包:
切换到Libaries选项卡,“Add Library"->"IvyDE Managed Dependencies"->"Next",选择“Project”,选择ivy\ivy.xml文件。点 Ok。eclipse会自动下载依赖的jar包。
conf="*->default" />
步骤6:在"Order and Export"选项卡,将 conf top
步骤7:数据库配置以及其他配置信息
gora.sqlstore.jdbc.password=123456
<property><name>http.agent.name</name><value>Your Nutch Spider</value></property><property><name>http.accept.language</name><value>ja-jp, en-us,en-gb,en;q=0.7,*;q=0.3</value><description>Value of the “Accept-Language” request header field.This allows selecting non-English language as default one to retrieve.It is a useful setting for search engines build for certain national group.</description></property><property><name>parser.character.encoding.default</name><value>utf-8</value><description>The character encoding to fall back to when no other informationis available</description></property><property><name>plugin.includes</name><value>protocol-httpclient|protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor)|urlnormalizer-(pass|regex|basic)|scoring-opic</value><description>Regular expression naming plugin directory names toinclude. Any plugin not matching this expression is excluded.In any case you need at least include the nutch-extensionpoints plugin. Bydefault Nutch includes crawling just HTML and plain text via HTTP,and basic indexing and search plugins. In order to use HTTPS please enableprotocol-httpclient, but be aware of possible intermittent problems with theunderlying commons-httpclient library.</description></property><property><name>storage.data.store.class</name><value>org.apache.gora.sql.store.SqlStore</value><description>The Gora DataStore class for storing and retrieving data.Currently the following stores are available: ….</description></property><property><name>plugin.folders</name><value>./src/plugin</value><description>Directories where nutch plugins are located. Eachelement may be a relative or absolute path. If absolute, it is usedas is. If relative, it is searched for on the classpath.</description></property>在根目录下的build.xml中找到如下代码
- <target name="resolve-default" depends="clean-lib, init" description="--> resolve and retrieve dependencies with ivy">
- <ivy:resolve file="${ivy.file}" conf="default" log="download-only" />
- <ivy:retrieve pattern="${build.lib.dir}/[artifact]-[revision].[ext]" symlink="false" log="quiet" />
- <antcall target="copy-libs" />
- </target>
将pattern="${build.lib.dir}/[artifact]-[revision].[ext]"替换为pattern="${build.lib.dir}/[artifact]-[type]-[revision].[ext]"
步骤8:配置抓取url
步骤9:运行org.apache.nutch.crawl.Crawler
参考资料:
nutch2.1在windows平台上使用eclipsedebug 存储在mysql的搭建过程相关推荐
- x264代码剖析(一):图文详解x264在Windows平台上的搭建
x264代码剖析(一):图文详解x264在Windows平台上的搭建 X264源码下载地址:http://ftp.videolan.org/pub/videolan/x264/ 平台:win7 PC. ...
- 细数 Windows 平台上的 NoSQL 数据库
从可查询的分布式解决方案,如MongoDB,到简单的分布式Key/Value存储解决方案,如Cassandra.此外,还有Riak,Tokyo Cabinet,Voldemort,CouchDB和Re ...
- (转)在Windows平台上安装Node.js及NPM模块管理
本文转载自:http://www.cnblogs.com/seanlv/archive/2011/11/22/2258716.html 之前9月份的时候我写了一篇关于如何在Windows平台上手工管理 ...
- python文件名有空格_python 解决Windows平台上路径有空格的问题
最近在采集windows上中间件的时候,遇到了文件路径有空格的问题. 例如:Aapche的安装路径为D:\Program Files\Apache Software Foundation\Apache ...
- 在Windows平台上安装Node.js及NPM模块管理
1. 下载Node.js官方Windows版程序:http://nodejs.org/#download 从0.6.1开始,Node.js在Windows平台上提供了两种安装方式,一是.MSI ...
- 标准配置的Windows平台上潜在可用屏幕区域
经常在windows开发网站的朋友,在开始设计网站时,最需要知道的就是一个图片的大小和尺寸.我本人也是在windows上玩弄了几年的,虽然没有什么正规的证书之类的,但是自己对windows的东西,一些 ...
- 在Windows平台上安装Dubbox框架
在Windows平台上安装Dubbox框架 一.分布式系统概述 分布式处理方式越来越受到业界的青睐--计算机系统正在经历一场前所未有的从集中式向分布式架构的变革.分布式系统是一个硬件或软件组件分布在不 ...
- Windows平台上安装搭建iPhone/iPad的开发环境
很多朋友希望在体验或学习iphone开发,但是iphone开发环境一般需要 安装在mac计算机下mac os中. 这给许多朋友带来了额外成本投入. 网上已经有各种破解方法,在非苹果电脑上安装iphon ...
- 管家婆 源码 php,在windows平台上构建本身的PHP
这是一篇翻译的文章,原文拜见:https://wiki.php.net/internals/windows/stepbystepbuild 趁便提一句,wiki.php.net有很多出色的内容,想深切 ...
最新文章
- python删除csv某一行_Python如何修改CSV的某一行/列的值
- Druid 0.2.18 发布,阿里巴巴数据库连接池
- 3月最新!ESI世界大学排名:371所内地高校上榜!
- Iphone4涨到2万,相对VERTU有里子,面子也便宜
- Java 设计模式之抽象工厂模式
- Access denied for user 'root'@'localhost' (using password: YES)的解决
- 关于python 类的使用
- 使用动画播放文件夹中的图片
- 【svn】svn的使用
- Win32ASM 变长参数的理解
- MMN实用架构过程概览
- 前端学习(756):javascript预解析
- 12产品经理要懂的-人性满足思维
- dreamwave php,thinkphp+dreamwaver技巧
- 图论-拓扑排序(有向图)
- android仿微信的开门效果
- html向下三角箭头,CSS制作三角箭头(兼容IE6)
- APKTOOL打包方法
- 授权计算机软件著作权,计算机软件著作权查询方式有哪些? 软件著作权授权...
- ionic 中的折线图与柱状图
热门文章
- Gradle用户指南(1)-Gradle安装
- 如果没有,那么就去创造
- lighttpd,thttpd,shttpd - 轻量级WebServer介绍
- 优麒麟在linux下安装教程,在优麒麟Ubuntu Kylin系统中安装百度网盘Linux版.deb的方法...
- java builder pool_每周10道Java面试题:String, String Pool, StringBuilder
- promise简单封装ajax 完美嵌套多个ajax请求
- The following classes could not be instantiated:
- 如何设置Active Directory域控制器
- 开发服务器 VSS开发库 自动备份方案
- centos7 geenplum5.x postgis开源版本编译