基于OAI-PMH的元数据搜索引擎的设计与实现
在设计和实现基于OAI-PMH的元数据搜索引擎过程中,需要解决很多方面的问题。
对于中小型搜索引擎,最好使用开放源代码软件来实现。
一、实现基于OAI-PMH的元数据搜索引擎,我采用了如下开放源代码软件:
(1)OAIHarvester:从支持元数据资源开放的DataProvider获取元数据资源。
(2) HTMLParser:用于解析HTML页面,并从中解析出可以有效获取与元数据对应的全文(fulltext)的url地址。
(3)Lucene:建立全文索引数据库 ,实现索引和检索。
(3)CJKAnalyzer:中文分词程序。
(4)PDFBox:用于处理PDF格式全文,可以轻易实现从PDF中提取文本、图片。
(5)tm-extracter:用于从PDF和Doc文件中提取文本。
二、设计和实现过程中需要解决的关键问题:
(1) 改进OAIHarvester,使之基于多线程下载。
(2)设计和实现简单的XMLParser。用于解析OAIHarvester的获取结果:xml文档。
(3)实现元数据对应的全文获取。需要解析html文档。
(4)各种格式文件(如:pdf、doc等)文件的索引问题。需要首先提取文本,然后对关键文本进行获取。
(5)元数据的语种识别。该问题还没有解决,如果有谁解决了该问题的话,请帮忙。据说TextCat(C语言实现)可以实现语种识别,但没找到源代码。如果谁有的话,希望能共享一下。
(6)检索界面的设计与实现。仿照cnki的界面来设计。
三、在阅读开放源码软件的时候,一定要认真分析其引用的第三方软件。
在学习和实践数字仓储管理系统Dspace的过程中,我发现Dspace引用的开放源码软件非常丰富,而且引用得非常成功。
基于OAI-PMH的元数据搜索引擎的设计与实现相关推荐
- 【转】基于OAI-PMH的元数据搜索引擎的设计与实现
在设计和实现基于OAI-PMH的元数据搜索引擎过程中,需要解决很多方面的问题. 对于中小型搜索引擎,最好使用开放源代码软件来实现. 一.实现基于OAI-PMH的元数据搜索引擎,我采用了如下开放源代码软 ...
- 基于python的网络爬虫搜索引擎的设计
项目介绍 随着互联网的飞速发展,web已经成为人们主要的检索,和发布的主要平台,在海量的数据中如何快速,准确的找到用户所需要的信息成为人们当前所需求的,而网络爬虫就是为了满足这一需要而产生的研究领域. ...
- 【java毕业设计】基于java+Lucene+Tomcat的搜索引擎设计与实现(毕业论文+程序源码)——搜索引擎
基于java+Lucene+Tomcat的搜索引擎设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于java+Lucene+Tomcat的搜索引擎设计与实现,文章末尾附有本毕业设计的论文和源 ...
- 基于python可视化的网页搜索引擎设计#毕业设计
开发环境 项目编号:基于python可视化的网页搜索引擎设计#毕业设计 开发语言:Python python框架:django 软件版本:python3.7/python3.8 数据库:mysql 5 ...
- 基于Java、JSP中文分词的搜索引擎的设计与实现
技术:Java.JSP等 摘要: 网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情.建立搜索引擎就是解决这个问题的最好方法.本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机 ...
- 基于java的搜索引擎的设计与实现
经过对搜索引擎的研究同时与Lucene自身的特性相结合,搜索引擎的设计与实现需要实现的功能阐述如下: (1)支持桌面文件搜索,格式包括txt.doc.xls和ppt; (2)支持分词查询 (3)支持全 ...
- 基于实时深度学习的推荐系统架构设计和技术演进
简介:整理自 5 月 29 日 阿里云开发者大会,秦江杰和刘童璇的分享,内容包括实时推荐系统的原理以及什么是实时推荐系统.整体系统的架构及如何在阿里云上面实现,以及关于深度学习的细节介绍 本文整理自 ...
- 基于Redis的限流系统的设计
本文讲述基于Redis的限流系统的设计,主要会谈及限流系统中限流策略这个功能的设计:在实现方面,算法使用的是令牌桶算法来,访问Redis使用lua脚本. 1.概念 In computer networ ...
- 基于java的高校运动会管理系统的设计与实现--毕业论文(可仅作参考)
基于java的高校运动会管理系统的设计与实现–毕业论文(可仅作参考) 可以仅作参考宝子们 ,这个版本包含代码哦~在资源里面自己找代码包 论文word版本我会上传到资源里面供宝子看 文章目录 基于jav ...
最新文章
- 【软考-软件设计师】总线结构
- Chapter09-内核模式下的线程同步之事件内核对象
- 排序算法之希尔排序(Java)
- 大工14秋《c/c++语言程序设计》在线作业三,大工《CC++语言程序设计》课程考试模拟试卷A...
- python任务调度系统web_监听调度系统定时执行任务python_websock
- HTML学习---HTML状态码
- Mac版idea快速切换大小写快捷键
- S32K1XX系列单片机 ——(1)开发环境搭建
- 恒指期货交易5分钟技巧
- python 标贝 模拟人声/语音克隆/语音复刻(API)体验
- html表格图片垂直居中 css,利用Display: table;实现img图片垂直居中
- 机器人 零境交错吧_电击文库零境交错
- 计算机算法的概念教案,算法概念的教学
- 爱河许云上计算机乐谱,爱河吉他谱(和弦谱,弹唱)_神马乐团
- Transformer课程 业务对话机器人Rasa 3.x Fallback and Human Handoff
- 深圳交易所新股申购规则
- PullNet: Open Domain Question Answering with Iterative Retrieval on Knowledge Bases and Text 论文笔记
- 用SOLIDWORKS雕刻万圣节南瓜
- 临时抱佛脚之计组知识点
- plc转单片机,永久使用