技术:Java、JSP
摘要:
网络中的资源非常丰富,但是如何有效的搜索信息却是一件困难的事情。建立搜索引擎就是解决这个问题的最好方法。本文首先详细介绍了基于英特网的搜索引擎的系统结构,然后从网络机器人、索引引擎、Web服务器三个方面进行详细的说明。为了更加深刻的理解这种技术,我使用Java编程技术实现了一个自己的搜索引擎——基于中文分词的搜索引擎。
基于中文分词的搜索引擎是从指定的Web页面中按照超连接进行解析、搜索,并把搜索到的每条新闻进行索引后加入数据库。然后通过Web服务器接受客户端请求后从索引数据库中搜索出所匹配的新闻。
本人在介绍搜索引擎的章节中除了详细的阐述技术核心外还结合了基于中文分词的搜索引擎的实现代码来说明,图文并茂、易于理解。
关键词  搜索引擎;网络机器人;Web服务器;中文分词

目录:
摘  要    I
Abstract    II
第一章  绪论    1
一、  论文的研究背景    1
二、  国内外研究现状    1
三、  本文工作    2
四、  本文结构    3
第二章  搜索引擎概述    4
一、  搜索引擎的定义    4
二、  搜索引擎的分类    4
(一)  按检索工具发展过程分类    4
(二)  按检索范围分类    4
(三)  按工作方式分类    4
三、  搜索引擎的原理    5
(一)  搜索引擎的结构    5
(二)  搜索引擎的工作流程    6
第三章  搜索引擎的原理    7
一、  网络机器人    7
(一)  什么是网络机器人    7
(二)  网络机器人的结构分析    7
二、  索引的建立与搜索    9
(一)  索引的建立与搜索过程    9
(二)  基于lucene的索引与搜索    9
三、  Web服务器    11
四、  搜索引擎的工作流程    12
(一)  全文搜索引擎工作流程    12
(二)  目录搜索引擎    13
五、  搜索引擎的主要指标及分析    13
第四章  中文分词    14
一、  中文分词和搜索引擎    14
二、  中文分词技术    14
三、  中文分词算法    14
(一)  基于字符串匹配的分词方法    14
(二)  基于理解的分词方法    15
(三)  基于统计的分词方法    15
(四)  歧义识别与新词识别    15
(五)  正向迭代最细粒度切分算法    16
第五章  搜索引擎的设计与实现    17
一、  网络机器人的设计与实现    17
(一)  如何构造Spider程序    17
(二)  如何提高程序性能    19

(三)  网络机器人的代码分析    19
二、  基于Lucene的索引与搜索的设计与实现    21
(一)  中文分词器的选择    21
(二)  Lucene与Spider结合的代码实现    21
三、  基于Tomcat的Web服务器程序的设计与实现    25
(一)  用户接口设计    25
(二)  在Tomcat上部署项目    30
四、  中文分词模块的设计与实现    31
(一)  中文分词器的比较与选择    31
(二)  IK-Analyzer的分词处理过程    32
第六章  搜索引擎的测试    34
一、  测试目的与意义    34
二、  测试过程    34
(一)中文分词测试    34
(二)搜索结果测试    35
三、  测试结论    36
结论    37
一、  论文总结    37
(一)  网络机器人    37
(二)  网页分析    37
(三)  中文分词    37
(四)  建立索引文件    37
(五)  Web服务器    37
(六)  动态的扩展词库    37
二、  进—步的工作    37
(一)  改善网络机器人使之行业化    37
(二)  改善中文分词器    38
参考文献    39
致  谢    40
外文原文    41
中文翻译    48

 

 
 

基于Java、JSP中文分词的搜索引擎的设计与实现相关推荐

  1. 【java毕业设计】基于JAVA+JSP+strust2的电子政务网设计与实现(毕业论文+程序源码)——电子政务网

    基于JAVA+JSP+strust2的电子政务网设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于JAVA+JSP+strust2的电子政务网设计与实现,文章末尾附有本毕业设计的论文和源码下 ...

  2. 基于java的中文分词工具ANSJ

    ANSJ 这是一个基于n-Gram+CRF+HMM的中文分词的java实现. 分词速度达到每秒钟大约200万字左右(mac air下测试),准确率能达到96%以上 目前实现了.中文分词. 中文姓名识别 ...

  3. 基于Java+JSP+MySQL共享单车管理系统的设计与实现-计算机毕业设计

    项目介绍 随着时代的发展,我国的国民经济一直在稳步的提升,共享单车的是用来一直在不断的攀升,为了能够更加方便快捷的管理共享单车,需要开发一套利用计算机进行管理的JSP共享单车管理系统. 本项目利用软件 ...

  4. java毕业设计商城开题报告_基于java,JSP的网上购物系统的设计与实现,毕业论文,开题报告...

    关键词 网上购物 JSP struts hibernate JQuery 目 录 1 引言 1 1.1 课题背景 1 1.2 课题研究意义及应用现状 1 1.3 课题的主要内容及论文组成 2 2 开发 ...

  5. 基于Java jsp+servlet超市订单管理平台设计和实现【建议收藏】

  6. 11大Java开源中文分词器的使用方法和分词效果对比,当前几个主要的Lucene中文分词器的比较...

    本文的目标有两个: 1.学会使用11大Java开源中文分词器 2.对比分析11大Java开源中文分词器的分词效果 本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那 ...

  7. 深度学习实战篇-基于RNN的中文分词探索

    深度学习实战篇-基于RNN的中文分词探索 近年来,深度学习在人工智能的多个领域取得了显著成绩.微软使用的152层深度神经网络在ImageNet的比赛上斩获多项第一,同时在图像识别中超过了人类的识别水平 ...

  8. java毕业设计—— 基于java+JSP+SSH的任务调度系统设计与实现(毕业论文+程序源码)——任务调度系统

    基于java+JSP+SSH的任务调度系统设计与实现(毕业论文+程序源码) 大家好,今天给大家介绍基于java+JSP+SSH的任务调度系统设计与实现,文章末尾附有本毕业设计的论文和源码下载地址哦. ...

  9. Java分布式中文分词组件 - word分词

    Java分布式中文分词组件 - word分词 word分词是一个Java实现的分布式的中文分词组件,提供了多种基于词典的分词算法,并利用ngram模型来消除歧义.能准确识别英文.数字,以及日期.时间等 ...

最新文章

  1. jieba中文分词源码分析(四)
  2. 《LeetCode力扣练习》第53题 最大子数组和 Java
  3. python输出文本-Python基础练习,查询文本内容并输出;
  4. hdu 4279 Number
  5. 1分钟了解基于内容的推荐,pm又懂了
  6. drf 解析器,响应器,路由控制
  7. 互联网日报 | 理想汽车交付量突破30000辆;美团王慧文正式退休;寺库打造首个奢侈品直播基地...
  8. python中request方法_如何使用python语言中的request模块获取代码
  9. Codeforces Round #288 (Div. 2)E. Arthur and Brackets
  10. 宿舍管理系统简单的增删改查
  11. STM32CUDE-STM32F407学习笔记1-点亮LED
  12. 被称为史上最高效学习方法——费曼学习法
  13. PL/SQL Oracle恢复默认界面设置
  14. AR算法原理在计算机视觉中的应用
  15. 软件工程之结构化方法
  16. 乐视,你敢做VR直播吗?
  17. 自学编程系列——4 Numpy数组
  18. UNI-APP_uni-ap自动获取状态栏高度,自定义导航栏组件
  19. Angular 依赖注入 UseClass 和 UseExisting 的区别 - 一个实际的测试例子
  20. 使用Datadog在docker环境下监控Java, Tomcat, Nginx, Kfaka, ZooKeeper

热门文章

  1. 如何彻底的卸载和删除Windows service
  2. org.springframework.boot:spring-boot-starter-velocity:unknown以及其他依赖因spring版本不同无法加载
  3. 前端一键安装脚本工具
  4. 【Mark Schmidt课件】线性代数
  5. python resample函数_Pandas的时间序列-resample重采样
  6. install logicalDoc
  7. android AVB2.0(一)工作原理及编译配置
  8. 自动控制原理->一些内容的概括了解
  9. 时间日期与时间戳转换(Linux C)
  10. 微信昵称保存不了mysql_微信昵称存储mysql失败解决办法