信息检索系统

利用倒排索引和向量空间模型实现的信息检索系统.

完成工作:

带位置信息的倒排索引

向量空间模型

TOP K查询

BOOL查询

短语查询

拼写矫正

同义词查询

拼写矫正(短语)

运行

环境要求:python3

在初次运行程序前请下载词干还原依赖的语料库

在SearchSystem/main.py中已经注释掉下载语料库的命令

nltk.download("wordnet")

nltk.download("averaged_perceptron_tagger")

nltk.download("punkt")

nltk.download("maxnet_treebank_pos_tagger")

取消注释后运行一次即可,语料库下载完成即可正常运行

windows下如果嫌弃语料库下载比较慢,可以直接将该目录下的nltk_data文件夹替换掉user下的AppData/Roaming/nltk_data文件夹,根目录的nltk_data文件夹是已经下载好的语料库

语料库下载完成后请将相应的下载语注释掉。

在SearchSystem目录下运行命令:

python main.py

注意:运行前请不要修改工程文件的名字和相对位置

SearchSystem工程目录是pycharm的工程

实现功能

词干还原

利用python中自然语言处理的库:nltk对文章中的单词进行词干还原。

在词干还原的过程中会去除无用的标点符号。

python信息检索系统_GitHub - Uyouii/SearchingSystem: python实现的基于倒排索引和向量空间模型实现的信息检索系统...相关推荐

  1. python go 入门_GitHub - gochao/codeparkshare: Python初学者(零基础学习Python、Python入门)书籍、视频、资料、社区推荐...

    PythonShare Python初学者(零基础学习Python.Python入门)书籍.视频.资料.社区推荐 本文 主要 针对 零基础 想学习Python者.本文本文由@史江歌(shijiangg ...

  2. 420集的python教程视频_GitHub - kaisar420/codeparkshare: Python初学者(零基础学习Python、Python入门)书籍、视频、资料、社区推荐...

    PythonShare Python初学者(零基础学习Python.Python入门)书籍.视频.资料.社区推荐 本文 主要 针对 零基础 想学习Python者.本文本文由@史江歌(shijiangg ...

  3. python数据结构教程_GitHub - Frank-Jing/python_data_structures_and_algorithms: Python 中文数据结构和算法教程...

    Python 算法与数据结构视频教程 课程简介 数据结构和算法是每个程序员需要掌握的基础知识之一,也是面试中跨不过的槛.目前关于 Python 算法和数据结构的系统中文资料比较欠缺, 笔者尝试录制视频 ...

  4. python 网页微信_GitHub - f3lix/wxBot: Python网页微信API

    wxBot wxBot 是用Python包装Web微信协议实现的微信机器人框架. 目前的消息支持情况: 群消息 文本 图片 地理位置 个人名片 语音 动画 语音电话 红包 联系人消息 文本 图片 地理 ...

  5. python医学数据挖掘_GitHub - SSSzhangSSS/Python-Data-mining-Tutorial: Python数据挖掘教程

    Python数据挖掘教程 作者 : 长行 说明 : 本教程以9周的数据挖掘教程为主,每周包括5天的知识学习和2天的案例实现. 以周为阶段,每周包括5天的知识内容(Day).1天的案例实现(Exampl ...

  6. python 任务管理引擎_GitHub - Hugh-wong/hydra: python多进程任务引擎

    Hydra Hydra是基于生产者-消费者模型的一个多进程任务引擎. 海德拉是希腊神话中的九头蛇怪,砍掉一个头,马上会再生出两个,最后被海格力斯所打败. 命名为海德拉的原因很简单,因为语言是pytho ...

  7. python与开源_Github上Top20 Python与机器学习开源项目推荐

    TensorFlow TensorFlow是一个端到端的机器学习开源平台.由工具.库和社区资源组成的全面.灵活的生态系统,使开发人员能够轻松地构建和部署基于ML的应用程序. TensorFlow最初是 ...

  8. 廖python入门视频_GitHub - aisuhua/codeparkshare: Python初学者(零基础学习Python、Python入门)书籍、视频、资料、社区推荐...

    PythonShare Python初学者(零基础学习Python.Python入门)书籍.视频.资料.社区推荐 本文 主要 针对 零基础 想学习Python者.本文本文由@史江歌(shijiangg ...

  9. qt写python教程视频_GitHub - qtg666/codeparkshare: Python初学者(零基础学习Python、Python入门)书籍、视频、资料、社区推荐...

    PythonShare Python初学者(零基础学习Python.Python入门)书籍.视频.资料.社区推荐 本文 主要 针对 零基础 想学习Python者.本文本文由@史江歌(shijiangg ...

最新文章

  1. Facebook:易于解释的神经元可能会阻碍深度神经网络的学习
  2. 深入浅出 Java 微服务视频
  3. 计算机专业多媒体技术学什么,计算机多媒体技术需要学习哪些知识
  4. react实现简单的表单
  5. 服务器上的安全数据没有此工作站信任关系的计算机账户_综合监控系统等级保护安全解决方案...
  6. liunx下pytorch(python2.7)先前几个版本的安装(由于官网点击先前版本进不去)
  7. php输出带尖括号的内容
  8. L1-040 最佳情侣身高差 (10 分)—团体程序设计天梯赛
  9. 行业案例 | 悬镜DevSecOps智适应威胁管理解决方案获评信通院“2021云安全守卫者计划优秀案例”
  10. 什么是王道?什么是王道中的王道?
  11. 常微分方程——一阶微分方程的初等解法
  12. Linux的LILO引导程序,LILO引导程序
  13. 川希:精准引流的本质,被动涨粉的秘密。
  14. 超市密码箱c语言程序,超市存包系统C语言.doc
  15. java哪一个可以编译,下列Java命令中,哪一个可以编译HelloWorld.java文件( )
  16. 网上信息抽取技术纵览
  17. sqlserver设置身份验证登录
  18. 利用迭代公式求平方根。
  19. AVFoundation音视频精准截取(九)
  20. sqlserver位数不够左边补0

热门文章

  1. 在word中怎么把文字往下挪挪_word排版技巧:如何对页面文本段落快速调整
  2. 如何用ChatGPT做会议总结?
  3. Win11怎么打开AMD显卡控制面板
  4. AT指令(中文详解版)
  5. VSCode 代码格式化的快捷键
  6. 6.easyui+ztree案例:zTree树
  7. Asp.Net 汉字转(拼音)
  8. 麦当劳中国全年将招聘超18万人;印度两家仿制药企获准生产吉利德瑞德西韦 | 美通企业日报...
  9. java-求矩形(长方形)的周长和面积案例
  10. 决策树(2.回归树)