Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。

Nutch 诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬 虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。

在 Nutch的进化过程中,产生了Hadoop、Tika、Gora和Crawler Commons四个Java开源项目。如今这四个项目都发展迅速,极其火爆,尤其是Hadoop,其已成为大规模数据处理的事实上的标准。Tika使用多 种现有的开源内容解析项目来实现从多种格式的文件中提取元数据和结构化文本,Gora支持把大数据持久化到多种存储实现,Crawler Commons是一个通用的网络爬虫组件。

Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:

  • 每个月取几十亿网页

  • 为这些网页维护一个索引

  • 对索引文件进行每秒上千次的搜索

  • 提供高质量的搜索结果

  • 以最小的成本运作

在线Javadoc:http://tool.oschina.net/apidocs/apidoc?api=nutch2.0

Nutch 是一个开源Java 实现的搜索引擎相关推荐

  1. 开始研究WEKA,一个开源java的数据挖掘工具

    开始研究WEKA,一个开源java的数据挖掘工具. HS沉寂这么多天,谁知道偏偏在我申请离职的时候给我安排了个任务,哎,无语. 于是,今天看了一天的Weka. 主要是看了HS提供的三个文章(E文,在g ...

  2. ZXing是一个开源Java类库用于解析多种格式的条形码和二维码

    ZXing是一个开源Java类库用于解析多种格式的条形码和二维码 2014年05月07日 17:30:37 shine4j 阅读数 5677 blog迁移至:http://www.micmiu.com ...

  3. 集合70多种推荐算法,东北大学老师用Java写了一个开源库,在GitHub上收获近1500个Star...

     [AI科技大本营导读]在经过一年多的开发工作之后,LibRec 3.0 版本终于发布了.LibRec 是一个基于 Java 的开源算法工具库,覆盖了 70 余个各类型推荐算法,可以有效解决评分预测 ...

  4. JasperReports是一个开源的java报表制作引擎

    JasperReports是一个开源的java报表制作引擎 http://jasperreports.sourceforge.net iReport是JasperReports的一个GUI工具,用来生 ...

  5. java mysql proxy_Amoeba是一个类似MySQL Proxy的分布式数据库中间代理层软件,是由陈思儒开发的一个开源的java项目...

    Amoeba(变形虫)项目是一个开源框架,于2008年开始发布一款 Amoeba for Mysql软件: 这个软件致力于MySQL的分布式数据库前端代理层,它主要在应用层访问MySQL的时候充当SQ ...

  6. EhCache 是一个纯Java的进程内缓存框架,具有快速、精干等特点,是hibernate中默认的CacheProvider Ehcache是一种广泛使用的开源Java分布式缓存。主要面向通

    EhCache 是一个纯Java的进程内缓存框架,具有快速.精干等特点,是hibernate中默认的CacheProvider Ehcache是一种广泛使用的开源Java分布式缓存.主要面向通用缓存, ...

  7. java smack jar_Smack:一个开源的XMPP用于即时通讯的客户端类库

    原标题:Smack:一个开源的XMPP用于即时通讯的客户端类库 本资源由 伯乐在线- oneDay整理,您也想贡献一份力量?欢迎加入我们 » Smack是一个用于和XMPP服务器通信的类库,可以实现即 ...

  8. java 多线程下载 开源_Android Downloader是一个开源的多线程,多任务下载框架

    AndroidDownloader Android Downloader是一个开源的多线程,多任务下载框架. 更多功能和使用方法可以查看这个APK. 下载 你能从Githubreleases page ...

  9. Jodd:一个非常好用易上手的开源 Java 微框架

    在日常的开发工作中,我们需要使用一些现成的 Java 工具类或方法,以便快速地帮助我们解决遇到的问题. 今天推荐一款开箱即用的开源 Java 微框架 Jodd ,非常容易使用并且容易上手,里面包含了一 ...

最新文章

  1. 033_CSS相对定位
  2. 为WPF播放GIF伤神不?
  3. oracle 数据库_操作事项_05
  4. dnf机械机器人补丁_干货 | 详解工业机器人控制系统架构
  5. ctype函数_PHP ctype_xdigit()函数与示例
  6. 清空临时表oracle,【Oracle相关】Oracle中如何清空临时表空间
  7. 在github网页版里新建文件夹,放置很多子文件:添加斜杠自动生成文件夹
  8. Winform—C#读写config配置文件
  9. mfc groupbox 边框颜色_蓝色牛仔裤配什么颜色上衣好看
  10. JS里设控件不可用取值
  11. 第一章: 当前主流的小型嵌入式 GUI
  12. 使用Vue对接网易云音乐
  13. Problem 2122 又见LKity
  14. “醉牛前端”重新起航!
  15. java判断闰年中闰月_编程序:计算某年某月有多少天(区分闰年和闰月)?怎么编?...
  16. JAVA定时任务的创建方式
  17. Chainlink: 连接区块链生态的 Web3 服务平台
  18. Android 后台启动startService()相关问题的解决
  19. Nagios监控软件源码安装
  20. JavaScript高阶

热门文章

  1. 真诚推荐几个最值得关注的前端公众号
  2. 白帽子技术分析会话劫持实战讲解
  3. 分布式系统的那些事儿(六) - SOA架构体系
  4. Ruby如何成长成高性能系统构架
  5. 使用Outlook 2007连接到Exchange Server 2003、2007时出现没有默认网关的错误
  6. 使用C#制作简易的注册表编辑器
  7. redis存opc_Redis集群的三种模式
  8. python线性回归算法简介_Python实现的简单线性回归算法实例分析
  9. css超出隐藏显示省略号
  10. 关于 someone could be eavesdropping on you right now (man-in-the-middle attack) ssh的解决办法