Apache Nutch 1.15 已发布。Nutch是一个成熟的、可用于生产的 Web 爬虫。 Nutch 1.x 可以依靠 Apache Hadoop™ 数据结构进行细粒度配置,这对于批处理非常有用。

Nutch是一个由Java实 现的,开放源代码(open-source)的web搜索引擎。主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行 查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从 Nutch 1.3开始,其集成了这个索引架构

下载地址:

  • http://nutch.apache.org/downloads.html

Web 爬虫 Apache Nutch 1.15 发布,支持 Java 10相关推荐

  1. Apache Nutch 1.6 发布

    Apache Nutch 1.6 发布,该版本修复了超过 20 个 bug,新功能包括:新的 HostNormalizer,可通过 MIME-type 和 Indexer API 的功能增强来动态设置 ...

  2. 官宣|Apache Flink 1.15 发布公告

    作者 | Joe Moser & 高赟 翻译 | 高赟 Apache Flink,作为 Apache 社区最活跃的项目之一[1],一直秉承积极开放的态度不断进行技术深耕.在此我们很荣幸的发布 ...

  3. Gradle发布4.7版本,支持Java 10

    \ 看新闻很累?看技术新闻更累?试试下载InfoQ手机客户端,每天上下班路上听新闻,有趣还有料! \ \\ gradle是一个综合性的多语种构建工具,已经发布了4.7版,新功能包括: \\ 增量式注解 ...

  4. Apache Ant 1.9.13和1.10.5发布–支持Java 11单文件源程序

    我们刚刚发布了Apache Ant的1.9.13和1.10.5版本 . 与往常一样,您可以从Ant项目下载页面下载它. 这两个版本主要是错误修复版本. 但是,1.10.5版对" java&q ...

  5. Web Crawling and Data Miniing with Apache Nutch(翻译+学习心得)_01

    笨小葱会在这两个月翻译完这本传说中的418元一本的神作.0.0.由于英语很烂,只能说个笨小葱理解的大概意思,很多地方翻译不到位请各位大拿指出,我会及时更正的.请多多包涵0.0 Preface Apac ...

  6. Julien Nioche谈Apache Nutch 2功能和产品路线图

    三周前发布的开源Web搜索框架Apache Nutch 2.1版支持改进的属性以实现更好的Solr配置,升级到各种Gora依赖项以及引入了在弹性搜索中构建索引的选项. Nutch可以在单台机器上运行, ...

  7. Julien Nioche谈Apache Nutch 2的特性及产品路线图

    原文地址: http://www.infoq.com/cn/articles/nioche-apache-nutch2 开源的Web搜索框架Apache Nutch的2.1版本已于2012年10月5日 ...

  8. 最新版Byte Buddy完全支持Java 11

    Java字节码工程库Byte Buddy最新版本完全支持Java 11以及自Java 8以来引入的所有类文件和字节码新特性.其中包括新的ConstantDynamic(有时称为condy)特性和Jav ...

  9. Apache发布TomEE 7.1,支持Java 8和MicroProfile 1.2

    Apache TomEE社区发布了TomEE 7.1,这是一个重大的升级,提供了Java SE 8和MicroProfile 1.2支持. 历史 2011年,David Blevins当时受雇于IBM ...

最新文章

  1. 关于Exchange Server 2010中OWA页面无法打开问题处理方法
  2. c语言中随机选择函数,怎样让c语言中的随机函数真正随机?
  3. 函数在内存中的具体执行
  4. 关于 Angular 项目类型为 library 的工程使用 tsconfig.json 的问题
  5. cdoj 1131 男神的礼物 区间dp
  6. 【目录】《剑指Offer》Java实现
  7. 深入理解SpringBoot(5)
  8. Vuex actions 异步操作基础
  9. Android秒级编译Freeline的使用(Android Studio)
  10. postfix+dovecot+maildrop+mailscanner+clamav+spamassassin搭建rhel6平台邮件服务器
  11. 路由器设置虚拟服务器王者人生,王者人生位置修改 | 手游网游页游攻略大全
  12. 计算机编程画图步骤,计算机CAD绘图基础教程
  13. Python 字符串 .format 方法详解
  14. 位置不可用无法访问介质受写入保护怎么修复?
  15. 数据结构之不相交集类
  16. abb机器人离线编程软件叫做_工业机器人离线编程(ABB)1-2 常用离线编程软件介绍.pptx...
  17. Android用PdfRenderer类开发打开pdf文件的功能
  18. 获取计算机名和局域网内的工作组名称
  19. 信息系统项目管理-立项管理
  20. 各种坐标系下坐标转换关系

热门文章

  1. 用LoadRunner实现接口测试
  2. 有趣、高效的编程示例
  3. 主域控制器硬件损坏,你会怎么解决?(四)
  4. linux sar 历史负载,sar 查看历史负载
  5. 大数据智能分析的特征和能力
  6. 5G网络将给物联网卡带来什么发展前景
  7. .net安装_如何安装GWAS分析软件R包:GAPIT
  8. int定义源码 python_Python代码保护 | pyc 混淆从入门到工具实现
  9. css的font修改颜色,css的font字体颜色如何设置
  10. Shell脚本编程之(五)条件判断式