20款开源搜索引擎系统

一些开源搜索引擎系统介绍,包含开源Web搜索引擎和开源桌面搜索引擎。

Sphider

Sphider是一个轻量级,采用PHP开发的web spider和搜索引擎,使用mysql来存储数据。可以利用它来为自己的网站添加搜索功能。Sphider非常小,易于安装和修改,已经有数千网站在使用它。

RiSearch PHP

RiSearch PHP是一个高效,功能强大的搜索引擎,特别适用于中小型网站。RiSearch PHP非常快,它能够在不到1秒钟内搜索5000-10000个页面。RiSearch是一个索引搜索引擎,这就意味着它先将你的网站做索引并建立一个数据库来存储你网站所有页面的关键词以便快速搜索。Risearch是全文搜索引擎脚本,它把所有的关键词都编成一个文档索引除了配置文件里面的定义排除的关键词。 RiSearch使用经典的反向索引算法(与大型的搜索引擎相同),这就是为什么它会比其它搜索引擎快的原因。

PhpDig

PhpDig是一个采用PHP开发的Web爬虫和搜索引擎。通过对动态和静态页面进行索引建立一个词汇表。当搜索查询时,它将按一定的排序规则显示包含关键字的搜索结果页面。PhpDig包含一个模板系统并能够索引PDF,Word,Excel,和PowerPoint文档。PHPdig适用于专业化更强、层次更深的个性化搜索引擎,利用它打造针对某一领域的垂直搜索引擎是最好的选择。

OpenWebSpider

OpenWebSpider是一个开源多线程Web Spider(robot:机器人,crawler:爬虫)和包含许多有趣功能的搜索引擎。

Egothor

Egothor是一个用Java编写的开源而高效的全文本搜索引擎。借助Java的跨平台特性,Egothor能应用于任何环境的应用,既可配置为单独的搜索引擎,又能用于你的应用作为全文检索之用。

Nutch

Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Lucene

Apache Lucene是一个基于Java全文搜索引擎,利用它可以轻易地为Java软件加入全文搜寻功能。Lucene的最主要工作是替文件的每一个字作索引,索引让搜寻的效率比传统的逐字比较大大提高,Lucen提供一组解读,过滤,分析文件,编排和使用索引的API,它的强大之处除了高效和简单外,是最重要的是使使用者可以随时应自已需要自订其功能。

Oxyus

是一个纯java写的web搜索引擎。

BDDBot

BDDBot是一个简单的易于理解和使用的搜索引擎。它目前在一个文本文件(urls.txt)列出的URL中爬行,将结果保存在一个数据库中。它也支持一个简单的Web服务器,这个服务器接受来自浏览器的查询并返回响应结果。它可以方便地集成到你的Web站点中。

Zilverline

Zilverline是一个搜索引擎,它通过web方式搜索本地硬盘或intranet上的内容。Zilverline可以从PDF, Word, Excel, Powerpoint, RTF, txt, java, CHM,zip, rar等文档中抓取它们的内容来建立摘要和索引。从本地硬盘或intranet中查找到的结果可重新再进行检索。Zilverline支持多种语言其中包括中文。

XQEngine

XQEngine用于XML文档的全文本搜索引擎。利用XQuery做为它的前端查询语言。它能够让你查询XML文档集合通过使用关键字的逻辑组合。有点类似于Google与其它搜索引擎搜索html文档一样。XQEngine只是一个用Java开发的很紧凑的可嵌入的组件。

MG4J

MG4J可以让你为大量的文档集合构建一个被压缩的全文本索引,通过使内插编码(interpolative coding)技术。

JXTA Search

JXTA Search是一个分布式的搜索系统。设计用在点对点的网络与网站上。

YaCy

YaCy基于p2p的分布式Web搜索引擎。同时也是一个Http缓存代理服务器。这个项目是构建基于p2p Web索引网络的一个新方法。它可以搜索你自己的或全局的索引,也可以Crawl自己的网页或启动分布式Crawling等。

Red-Piranha

Red-Piranha是一个开源搜索系统,它能够真正”学习”你所要查找的是什么。Red-Piranha可作为你桌面系统(Windows,Linux与Mac)的个人搜索引擎,或企业内部网搜索引擎,或为你的网站提供搜索功能,或作为一个P2P搜索引擎,或与wiki结合作为一个知识/文档管理解决方案,或搜索你要的RSS聚合信息,或搜索你公司的系统(包括SAP,Oracle或其它任何Database/Data source),或用于管理PDF,Word和其它文档,或作为一个提供搜索信息的WebService或为你的应用程序(Web,Swing,SWT,Flash,Mozilla-XUL,PHP, Perl或c#/.Net)提供搜索后台等等。

LIUS

LIUS是一个基于Jakarta Lucene项目的索引框架。LIUS为Lucene添加了对许多文件格式的进行索引功能如:Ms Word,Ms Excel,Ms PowerPoint,RTF,PDF,XML,HTML,TXT,Open Office序列和JavaBeans.针对JavaBeans的索引特别有用当我们要对数据库进行索引或刚好用户使用持久层ORM技术如:Hibernate,JDO,Torque,TopLink进行开发时。

Apache Solr

Solr是一个高性能,采用Java5开发,基于Lucene的全文搜索服务器。文档通过Http利用XML加到一个搜索集合中。查询该集合也是通过 http收到一个XML/JSON响应来实现。它的主要特性包括:高效、灵活的缓存功能,垂直搜索功能,高亮显示搜索结果,通过索引复制来提高可用性,提供一套强大Data Schema来定义字段,类型和设置文本分析,提供基于Web的管理界面等。

Paoding

Paoding中文分词是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。

Carrot2

Carrot2是一个开源搜索结果分类引擎。它能够自动把搜索结果组织成一些专题分类。Carrot2提供的一个架构能够从各种搜索引擎(YahooAPI、GoogleAPI、MSN Search API、eTools Meta Search、Alexa Web Search、PubMed、OpenSearch、Lucene index、SOLR)获取搜索结果。

Regain

regain是一款与Web搜索引擎类似的桌面搜索引擎系统,其不同之处在于regain不是对Internet内容的搜 索,而是针对自己的文档或文件的搜索,使用regain可以轻松地在几秒内完成大量数据(许多个G)的搜索。Regain采用了Lucene的搜索语法, 因此支持多种查询方式,支持多索引的搜索及基于文件类型的高级搜索,并且能实现URL重写及文件到HTTP的桥接,并且对中文也提供了较好的支持。

Regain提供了两种版本:桌面搜索及服务器搜索。桌面搜索提供了对普通桌面计算机的文档与局域网环境下的网页的快速搜索。服务器版本主要安装在Web服务器上,为网站及局域网环境下的文件服务器进行搜索。

参考来源: Open-open

20款开源搜索引擎系统相关推荐

  1. constellio——基于solr的开源搜索引擎系统源码研究(五)

    插件工厂类PluginFactory.java /*** Constellio, Open Source Enterprise Search* Copyright (C) 2010 DocuLibre ...

  2. 玩转Windows下40款开源软件 (转)

    玩转Windows下40款开源软件   <script src="http://blog.csdn.net/count.aspx?ID=1789004&Type=Rank&qu ...

  3. 玩转Windows下40款开源软件

    这是国外较有影响的网站于2007年9月8日发布的新文章,算是windows下20款开源软件的续篇.发出不久,digg数已上千.xbeta进行简译,以便于国内用户在免费软件方面有更多选择. 信息安全 这 ...

  4. php cms拥有博客功能,20款最为知名的开源PHP CMS

    原文来自慧都控件网:http://www.evget.com/article/2014/2/25/20566.html 不是所有Web开发者都有精力和能力去开发一个新的CMS,而且最重要的是,开发新C ...

  5. 知名的php cms,20款最为知名的开源PHP CMS

    原文来自慧都控件网:http://www.evget.com/article/2014/2/25/20566.html 不是所有Web开发者都有精力和能力去开发一个新的CMS,而且最重要的是,开发新C ...

  6. 20款最为知名的开源PHP CMS

    原文来自慧都控件网:http://www.evget.com/article/2014/2/25/20566.html 不是所有Web开发者都有精力和能力去开发一个新的CMS,而且最重要的是,开发新C ...

  7. 20款国外知名的php开源cms系统

    内容管理系统,简称CMS,是一种简易的发布和管理新闻的程序.用户可以在后端管理系统中发布,编辑和删除文章,即使您不需要懂得HTML和其他脚本语言,这就是CMS的优点. 在这里我决定介绍20款目前国外市 ...

  8. 科技公司最常用的50款开源工具,提升你的逼格~

    点击关注上方"视学算法",设为"置顶或星标",第一时间送达技术干货. 本文介绍了多款知名的开源应用软件,科技公司可以用它们来管理自己的 IT 基础设施.开发产品 ...

  9. 源自Google、Facebook、Netflix和Cisco的10款开源安全工具很值得回味

     源自Google.Facebook.Netflix和Cisco的10款开源安全工具很值得回味 选择自由的开源安全软件是一个重要话题,随着新品牌的出现,在选择上也出现很多不确定性.但这没有影响开源 ...

最新文章

  1. python 读取excel 表格的数据
  2. python如何调用文件进行换位加密_数据文件加密算法–换位加密法 | 学步园
  3. DPDK — CLI 指令行模块
  4. Git撤销修改场景及对应指令(checkout、reset、revert)详解
  5. Oracle SQL Parsing Flow Diagram(SQL 解析流程图)
  6. 1823政府经济学 (2)
  7. android timer后函数继续执行_Android内存异常机制(用户空间)_JE
  8. Simulink之电网电压换流式有源逆变电路
  9. 21天Jenkins打卡Day13视图
  10. 判断用户是否开启定位功能 / 判断用户是否为应用程序开启定位功能
  11. LoadRunner 11压测时碰到错误Error: missing newline in *:\*****\*.dat
  12. Iocomp for .net/wpf the Crack
  13. html网站计数器代码,如何在网站添加计数器代码
  14. 阿里P7大牛手把手教你!java全栈工程师证书
  15. javascript通过银行卡号识别所属银行
  16. 【洛谷P2123】皇后游戏
  17. 【调剂】河南财经政法大学2021年接受调剂专业
  18. Linux使用C语言实现ls命令
  19. Java项目:SSM设备台账管理系统
  20. hiredis php,redis 连接池 hiredis

热门文章

  1. 元宇宙 | 科技重塑数字化的宇宙观
  2. SpringMVC 验证码
  3. 2022世界杯在哪个国家举办,具体日期
  4. Docker 搭建的大数据环境
  5. Layui表格行监听与字体颜色的改变
  6. 中科院博士论文致谢感人,如果让AI来写又会是怎样
  7. 大数据学习对六大领域的挑战
  8. JAVAWEB开发之JSTL标签库的使用、 自定义EL函数、自定义标签(带属性的、带标签体的)
  9. java drawstring 字体_Java AWT Graphics改变了drawString()的背景颜色
  10. mysql blackhole引擎_【原创】MySQL blackhole 存储引擎简记