在设计和实现基于OAI-PMH的元数据搜索引擎过程中,需要解决很多方面的问题。

对于中小型搜索引擎,最好使用开放源代码软件来实现。

一、实现基于OAI-PMH的元数据搜索引擎,我采用了如下开放源代码软件:

(1)OAIHarvester:从支持元数据资源开放的DataProvider获取元数据资源。

(2) HTMLParser:用于解析HTML页面,并从中解析出可以有效获取与元数据对应的全文(fulltext)的url地址。

(3)Lucene:建立全文索引数据库 ,实现索引和检索。

(3)CJKAnalyzer:中文分词程序。

(4)PDFBox:用于处理PDF格式全文,可以轻易实现从PDF中提取文本、图片。

(5)tm-extracter:用于从PDF和Doc文件中提取文本。

二、设计和实现过程中需要解决的关键问题:

(1) 改进OAIHarvester,使之基于多线程下载。

(2)设计和实现简单的XMLParser。用于解析OAIHarvester的获取结果:xml文档。

(3)实现元数据对应的全文获取。需要解析html文档。

(4)各种格式文件(如:pdf、doc等)文件的索引问题。需要首先提取文本,然后对关键文本进行获取。

(5)元数据的语种识别。该问题还没有解决,如果有谁解决了该问题的话,请帮忙。据说TextCat(C语言实现)可以实现语种识别,但没找到源代码。如果谁有的话,希望能共享一下。

(6)检索界面的设计与实现。仿照cnki的界面来设计。

三、在阅读开放源码软件的时候,一定要认真分析其引用的第三方软件。

在学习和实践数字仓储管理系统Dspace的过程中,我发现Dspace引用的开放源码软件非常丰富,而且引用得非常成功。

基于OAI-PMH的元数据搜索引擎的设计与实现相关推荐

  1. 【转】基于OAI-PMH的元数据搜索引擎的设计与实现

    在设计和实现基于OAI-PMH的元数据搜索引擎过程中,需要解决很多方面的问题. 对于中小型搜索引擎,最好使用开放源代码软件来实现. 一.实现基于OAI-PMH的元数据搜索引擎,我采用了如下开放源代码软 ...

  2. 基于python的网络爬虫搜索引擎的设计

    项目介绍 随着互联网的飞速发展,web已经成为人们主要的检索,和发布的主要平台,在海量的数据中如何快速,准确的找到用户所需要的信息成为人们当前所需求的,而网络爬虫就是为了满足这一需要而产生的研究领域. ...

  3. 【java毕业设计】基于java+Lucene+Tomcat的搜索引擎设计与实现(毕业论文+程序源码)——搜索引擎

    基于java+Lucene+Tomcat的搜索引擎设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于java+Lucene+Tomcat的搜索引擎设计与实现,文章末尾附有本毕业设计的论文和源 ...

  4. 基于python可视化的网页搜索引擎设计#毕业设计

    开发环境 项目编号:基于python可视化的网页搜索引擎设计#毕业设计 开发语言:Python python框架:django 软件版本:python3.7/python3.8 数据库:mysql 5 ...

  5. 基于Java、JSP中文分词的搜索引擎的设计与实现

    技术:Java.JSP等 摘要: 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情.建立搜索引擎就是解决这个问题的最好方法.本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机 ...

  6. 基于java的搜索引擎的设计与实现

    经过对搜索引擎的研究同时与Lucene自身的特性相结合,搜索引擎的设计与实现需要实现的功能阐述如下: (1)支持桌面文件搜索,格式包括txt.doc.xls和ppt; (2)支持分词查询 (3)支持全 ...

  7. 基于实时深度学习的推荐系统架构设计和技术演进

    简介:整理自 5 月 29 日 阿里云开发者大会,秦江杰和刘童璇的分享,内容包括实时推荐系统的原理以及什么是实时推荐系统.整体系统的架构及如何在阿里云上面实现,以及关于深度学习的细节介绍 本文整理自 ...

  8. 基于Redis的限流系统的设计

    本文讲述基于Redis的限流系统的设计,主要会谈及限流系统中限流策略这个功能的设计:在实现方面,算法使用的是令牌桶算法来,访问Redis使用lua脚本. 1.概念 In computer networ ...

  9. 基于java的高校运动会管理系统的设计与实现--毕业论文(可仅作参考)

    基于java的高校运动会管理系统的设计与实现–毕业论文(可仅作参考) 可以仅作参考宝子们 ,这个版本包含代码哦~在资源里面自己找代码包 论文word版本我会上传到资源里面供宝子看 文章目录 基于jav ...

最新文章

  1. 【软考-软件设计师】总线结构
  2. Chapter09-内核模式下的线程同步之事件内核对象
  3. 排序算法之希尔排序(Java)
  4. 大工14秋《c/c++语言程序设计》在线作业三,大工《CC++语言程序设计》课程考试模拟试卷A...
  5. python任务调度系统web_监听调度系统定时执行任务python_websock
  6. HTML学习---HTML状态码
  7. Mac版idea快速切换大小写快捷键
  8. S32K1XX系列单片机 ——(1)开发环境搭建
  9. 恒指期货交易5分钟技巧
  10. python 标贝 模拟人声/语音克隆/语音复刻(API)体验
  11. html表格图片垂直居中 css,利用Display: table;实现img图片垂直居中
  12. 机器人 零境交错吧_电击文库零境交错
  13. 计算机算法的概念教案,算法概念的教学
  14. 爱河许云上计算机乐谱,爱河吉他谱(和弦谱,弹唱)_神马乐团
  15. Transformer课程 业务对话机器人Rasa 3.x Fallback and Human Handoff
  16. 深圳交易所新股申购规则
  17. PullNet: Open Domain Question Answering with Iterative Retrieval on Knowledge Bases and Text 论文笔记
  18. 用SOLIDWORKS雕刻万圣节南瓜
  19. 临时抱佛脚之计组知识点
  20. plc转单片机,永久使用

热门文章

  1. 房山大数据北师大_北京师范大学2019级本科生新生大数据
  2. c语言e怎么表示_如何一个月学完c语言
  3. 【转载】获得root权限(刷入magisk)
  4. Transformer在细粒度分类上的应用
  5. 怎样区分S50卡和S70卡-----通过判断SAK值
  6. 甲方乙方项目管理的差别
  7. 计算机键盘gt,雷神(Thunderobot)911GT-Y1笔记本电脑键盘评测-ZOL中关村在线
  8. 单片机带掉电保护c语言,基于LM358的单片机掉电保护电路
  9. 2021面试第二弹来袭
  10. 转换CLOB字段类型为VARCHAR2