教学管理文件信息检索系统设计与实现


前言

提示:,使用基于 Python 的数据处理与分析技术 对教学管理文件进行预
处理 ,利用 了 倒排索引 算法 的 快速检索 技术对校规校纪进行快速查询 和词频 逆文本
频率评分 进行 排序 的 方法 分析学校教学管理文件 ,设计 与实现 教学 管理文
件信息检索 系统 减轻教务管理人员的工作负担 。


提示:以下是本篇文章正文内容,下面案例可供参考

一、系统开发环境

系统开发环境
教学管理文件信息检索系统的设计与实现具体开发环境如下:
(1) Window 10 操作系统
(2) Tomcat 8.5+Jdk11.0.1
(3) JavaEE 开发语言
(4) Python 3.5.3 语言
(5) eclipse 4.10.0 工具
(6) Pycharm 2019.3.3 C ommunity Edition

二、关键算法及代码

1.文档切分代码在这里插入代码片

2.倒排索引的构建

``` 经过上述文件预处理,获得了两种文件,一种是每个章节的校规对应的文件,另一 种是每个章节对应的校规进行结巴分词后的文件,并且每个文件有它对应的编号 id 。现 在可以根据 划分的 文件,确定该章节所对应的关键词及该词的词频。此时,根据文档编 号,关键词,词频,就可以构成正向索引表,用来表示每个关键词与文档的关系, 如表所示:

在使用正向索引表进行校规校纪的查询时,只能根据输入的信息,提取关键词,对
文档进行逐一查询, 判断该文档是否包含该关键词, 当文档数量很多时, 频繁的读取和
关闭文件, 就会导致消耗大量的计算机资源,搜索效率很低等问题。为了能快速的根据
用户的输入信息,检索到相应的校规,我们将正向索引表,重新组合,构建成每个关键
词对应该词所属于的文档编号及词频, 然后我们根据关键词就可以快速的获取文档 id
集合, 这种结构就是倒排索引结构,我所构建的结构如下表 所示

通过使用倒排索引表,对用户输入的信息进行结巴分词,关键词提取,然后,就可
以过滤不相关的文本编号, 获取目标文档 id的集合 进行快速的检索,查找出相应的关键
词所对应的文本编号,提高检索效率。
但是,在第一次构建上
述 索引时,由于代码要对 2 11 个文件进行频繁的读取,频繁
的进行结巴分词,然后提取关键词,判断词语是否包含某一关键词时,进行统计词频,
代码跑了两天两夜,没有跑出结果。对每个词的处理时间进行计算后,得出处理一个词,
还有其对应的索引和 词频,大致需要两分钟,然后 总的教学管理文件 大约有 9 000 个关键词,跑完这么多词,需要
1 2 天, 所以需要换一种方法进行数据处理 和索引的构建 。
浪费了两天的时间后,对
上述方法 进行修改。为了减少时间的耗费,所以,需要对
2 11 个文件,进行提前 去除停用词并 分词,存到相应的文本中, 以便后续快速的构建索
引。 此时需要 重新构思代码,把这 211 个章节的 词,都 相应的 提前读取到二维数组中去,
全部把数据 提前放 到内存中,在进行处理数据时,运行五分钟左右,就能构建出形为
Word _n 文档 id ,词频 的索引了。但是,根据在构建检索 模块 时,单纯的根据词
频进行排序, 存在很多问题, 既没有很好的说服力,效果也不是很好,经过重新的构思
和审阅任务书,决定使用词频 逆文件频率进行 综合 排序 。所以需要 重新构建索引 需
要 把原索引中词频的值,替换为词频 逆文件频率的值。

检索排序
本段落主要讲解排序过程,我分别使用了词频和逆文件频率进行排序,设计和实现
过程如下。
根据用户的输入信息,提取关键词,然后通过多个关键词的词频进行相加,根据相
加后词频的大小,对其所在的文档编号进行排序,过程如下图 所示 。

例如
用户输入创新学分 系统 进行分词 后 ,提取出创新和学分两个关键词。根据这两
个词,查询倒排索引表,查找出其所在的文档编号和对应的词频 w ,把文档编号相同的
行所对应的词频 w 进行相加,根据数字按从大到小排序,得出检索结果。但是这样做,
很容易出现图 3.5 所示 的情况,因为,在提取出的倒排索引文件中,很多关键词(这类
低频率 词的比例很高),在某一文档中就只出现一次,但 有可能 在其他文档中出现很多
次(如下图 3 6 为我处理的词频数据, 关键词: 文档 id ,词频 w 但是这并不能
体现该词所在文档的重要性,所以采用新的排序方法很有必要。


系统截图



教学管理文件信息检索系统设计与实现相关推荐

  1. Python可以这样学(第八季:课堂教学管理系统设计与开发实战)-董付国-专题视频课程...

    Python可以这样学(第八季:课堂教学管理系统设计与开发实战)-1398人已学习 课程介绍         董付国老师系列教材<Python可以这样学>(ISBN:97873024564 ...

  2. 基于java的教学管理系统设计(含源文件)

    欢迎添加微信互相交流学习哦! 项目源码:https://gitee.com/oklongmm/biye 目录 第1章  绪  论    1 1.1 课题背景    1 1.2 国内外现状    1 1 ...

  3. 实践教学管理系统设计与实现

     其他项目,点击作者主页  目录 1 系统简介 2 系统相关技术 2.1 Java简介 2.2 JSP技术的简介 2.3 MySql数据库 2.4 B/S结构 2.5 SSM框架 3 需求分析 3.1 ...

  4. 基于java教学管理系统设计(含源文件)

    欢迎添加微信互相交流学习哦! 项目源码:https://gitee.com/oklongmm/biye 目录 1. 系统概述    1 1.1 系统目标    1 1.2 系统主要功能    1 2. ...

  5. php开发的教学管理系统,php教学管理系统设计和实现

    本文论述了在B/S系统架构下采用php技术分析.设计.开发用于高校教学管理的教学管理系统的过程.该系统基本满足了教学管理方面的需求,用户界面友好.系统对用户数据有效地实现了信息电子化处理,从而降低了人 ...

  6. 基于springboot教学管理系统设计与实现

    教学管理系统 项目源码:https://gitee.com/oklongmm/code 项目介绍 教学考试管理系统,综合各大院校需求,充分利用互联网络B/S管理系统模式,以网络为平台,为各个学校教务系 ...

  7. 基于SpringBoot+VUE的线上教学管理平台系统

    项目背景 在社会快速发展的影响下,使线上教学平台的管理和运营比过去十年更加理性化.依照这一现实为基础,设计一个快捷而又方便的网上线上教学平台系统是一项十分重要并且有价值的事情.对于传统的线上教学平台控 ...

  8. (附源码)springboot基于SpringBoot的教学管理平台的设计与实现281454

    目  录 摘要 1 绪论 1.1研究背景 1.2研究现状 1.3系统开发技术的特色 1.4论文结构与章节安排 2教学管理平台系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1数据增加流程 ...

  9. (附源码)springboot教学管理平台 毕业设计 281454

    目  录 摘要 1 绪论 1.1研究背景 1.2研究现状 1.3系统开发技术的特色 1.4论文结构与章节安排 2教学管理平台系统分析 2.1 可行性分析 2.2 系统流程分析 2.2.1数据增加流程 ...

  10. spring boot教学管理平台毕业设计源码281454

    目  录 摘要 1 1 绪论 1 1.1研究背景 1 1.2研究现状 1 1.3系统开发技术的特色 1 1.4论文结构与章节安排 1 2教学管理平台系统分析 3 2.1 可行性分析 3 2.2 系统流 ...

最新文章

  1. WPF的图片操作效果(一):RenderTransform
  2. 剑指offer:对称的二叉树
  3. 实现计算机界“大满贯”,芮勇博士再获技术成就大奖
  4. JNI调用native方法出现 java.lang.UnsatisfiedLinkError: XXXclass.XXXmethod()异常的解决办法
  5. SQL 2005新增的几个函数之学习
  6. 隐藏式抽屉SlidingDrawer(无法实现垂直)
  7. BZOJ 3211: 花神游历各国
  8. HBase1.2.3 数据模型
  9. 报错:此版本的SQL Server Data Tools与此计算机中安装的数据库运行时组件不兼容...
  10. c语言赋值运算符 amp amp 怎么读,重载赋值运算符 amp;amp; 对象
  11. 预定义类型未定义或导入_LimeSurvey基础教程(二)——问题类型
  12. 【初级01】java JVM核心技术(1):字节码、类加载器、GC机制
  13. 番茄todo电脑版_TODO清单|高效时间管理 支持多平台多设备同步 解锁VIP
  14. 一年Android工作经验,一举拿下百度、网易、美团、小米、快手等Offer面经
  15. 图解 head first 设计模式
  16. 为什么创业者要假装读过《从0到1》和《创业维艰》?
  17. 批量tracert脚本
  18. 2022双十一投影仪选购清单,知名博主分享2022投影仪推荐名单
  19. 大三如何找暑期技术实习?技术实习找大公司还是小公司?
  20. 荣耀简史:起于抗击小米、止于拯救华为

热门文章

  1. Facial Feature Embedded CycleGAN for VIS-NIR Translation 论文解读
  2. python 象棋 算法_象棋AI算法(二)
  3. Photoshop学习整理---修复画笔工具
  4. 大三开学,百度面试感受
  5. Elesticsearch(es)聚合搜索(入门到精通)4
  6. SPSS新手教程——对问卷数据进行处理之样本分布
  7. bilibili自动上传视频脚本(纯ruby)
  8. python输出欢迎某某某_python中怎么写注释
  9. ubuntu安装synopsys dc报错
  10. [LuoGu] P3957 跳房子