1.什么是搜索引擎?

搜索引擎是“对网络信息资源进行搜集整理并提供信息查询服务的系统,包括信息搜集、信息整理和用户查询三部分”。如图1是搜索引擎的一般结构,信息搜集模块从网络采集信息到网络信息库之中(一般使用爬虫);然后信息整理模块对采集的信息进行分词、去停用词、赋权重等操作后建立索引表(一般是倒排索引)构成索引库;最后用户查询模块就可以识别用户的检索需求并提供检索服务啦。

图1 搜索引擎的一般结构

2. 使用python实现一个简单搜索引擎

2.1 问题分析

从图1看,一个完整的搜索引擎架构从互联网搜集信息开始,可以使用python编写一个爬虫,这是python的强项。

接着,信息处理模块。分词?停用词?倒排表?what?什么乱七八糟的?不用管它,我们有前辈们造好的轮子---Pylucene(lucene的python封装版本,Lucene能够帮助开发者为软件、系统增添检索功能。Lucene是一套用于全文检索和搜寻的开源程序库)。使用Pylucene可以简单的帮助我们完成对采集到的信息进行处理,包括索引的建立和搜索。

最后,为了能在网页上使用我们的搜索引擎,我们使用flask这个轻量级 Web 应用框架做一个小网页获取搜索语句并反馈搜索结果。

2.2 爬虫设计

主要搜集以下内容:目标网页的标题、目标网页的主要文字内容、目标网页指向其他页面的URL地址。网络爬虫的工作流程如图2所。爬虫的主要数据结构是队列。首先,起始的种子节点进入队列,然后从队列中取出一个节点访问,抓取该节点页面上的目标信息,再将该节点页面指向其他页面的URL链接放进队列,再从队列中取出新的节点进行访问,直至队列为空。通过队列“先进先出”的特点实现广度优先的遍历算法,逐个访问站点的每一页面。

图2

2.3 pylucene的使用

Pylucene中关于建立索引的类主要有Directory、Analyzer、IndexWriter、Document、Filed。

Directory是Pylucene中关于文件操作的类。它有SimpleFSDirectory和RAMDirectory、CompoundFileDirectory、FileSwitchDirectory等11个子类,列举的四个是与索引目录的保存相关的子类,SimpleFSDirectory是将构建的索引保存至文件系统之中;RAMDirectory是将索引保存至RAM内存之中;CompoundFileDirectory是一种复合的索引保存方式;而FileSwitchDirectory允许临时切换索引的保存方式以发挥各种索引保存方式的优点。

Analyzer,分析器。它是对爬虫获得的将要进行构建索引的文本进行处理的类。包括了文本进行分词操作、去掉停用词、转换大小写等操作。Pylucene自带了若干分析器,构建索引时也可使用第三方分析器或者自写分析器。分析器的好坏关系到构建索引的质量与搜索服务的所能提供的精准度与速度。

IndexWriter,索引写入类。在Directory开辟的储存空间中IndexWriter可以进行索引的写入、修改、增添、删除等操作,但不可进行索引的读取也不能搜索索引。

Document,文档类。在Pylucene中建立索引的基本单位是“文档”(Document),一个Document可能是一个网页、一篇文章、一封邮件。Document是用以构建索引的单位同时也是进行搜索时的结果单位,对它进行合理的设计能够提供个性化的搜索服务。

Filed,域类。一个Document之中可以包含多个域(Field)。Filed是Document的组成部分,就如一篇文章的组成可能是文章标题、文章主体、作者、发表日期等多个Filed。

将一个页面作为一个Document,包含三个Field分别是页面的URL地址(url)、页面的标题(title)、页面的主要文字内容(content)。对于索引的储存方式选择使用SimpleFSDirectory类,将索引保存至文件之中。分析器选择Pylucene自带的CJKAnalyzer,该分析器对中文支持较好,适用于中文内容的文本处理。

使用Pylucene构建索引的具体操作步骤如下:

lucene.initVM()INDEXIDR = self.__index_dirindexdir = SimpleFSDirectory(File(INDEXIDR))①analyzer = CJKAnalyzer(Version.LUCENE_30)②index_writer = IndexWriter(indexdir, analyzer, True, IndexWriter.MaxFieldLength(512))③document = Document()④document.add(Field('content', str(page_info['content']), Field.Store.NOT, Field.Index.ANALYZED))⑤document.add(Field('url', visiting, Field.Store.YES, Field.Index.NOT_ANALYZED))⑥document.add(Field('title', str(page_info['title']), Field.Store.YES, Field.Index.ANALYZED))⑦index_writer.addDocument(document)⑧index_writer.optimize()⑨index_writer.close()⑩

索引的构建有10个主要的步骤:

①实例化一个SimpleFSDirectory对象,将索引保存至本地文件之中,保存的路径为自定义的路径“INDEXIDR”。

②实例化一个CJKAnalyzer分析器,实例化时的参数Version.LUCENE_30为Pylucene的版本号。

③实例化一个IndexWriter对象,所携带的四个参数分是前面的实例化的SimpleFSDirectory对象和CJKAnalyzer分析器,布尔型的变量true表示创建一个新的索引,IndexWriter.MaxFieldLength指定了一个索引最大的域(Filed)数量。

④实例化一个Document对象,取名为document。

⑤为document添加名称为“content”的域。该域的内容为爬虫获取的某一网页页面的主要文字内容。该操作的参数是实例化并马上使用的Field对象;Field对象的四个参数分别是:

(1)“content”,域的名称。

(2)page_info['content'],爬虫搜集到的网页页面的主要文字内容。

(3)Field.Store是用于表示该域的值是否可以恢复原始字符的变量,Field.Store.YES表示存储在该域中的内容可以恢复至原始文本内容,Field. Store.NOT表示不可恢复。

(4)Field.Index变量表示该域的内容是否应用分析器处理,Field. Index.ANALYZED表示对该域字符处理使用分析器,Field. Index. NOT_ANALYZED则表示不对该域使用分析器处理字符。

⑥添加名称为“url”的域用以保存该页面地址。

⑦添加名称为“title”的域用以保存该页面的标题。

⑧实例化IndexWriter对像将文档document写入索引文件。

⑨优化索引库文件,合并索引库中的小文件为大文件。

⑩单个周期内构建索引操作完成后关闭IndexWriter对像。

Pylucene关于建立索引的搜索的类主要有IndexSearcher、Query、QueryParser[16]。

IndexSearcher,索引搜索类。用于在IndexWriter构建的索引库中进行搜索操作。

Query,描述查询请求的类。它将查询请求递交给IndexSearcher完成搜索操作。Query拥有许多子类以完成不同的查询请求。例如TermQuery是按词条搜索,它是最基本最简单的查询类型,用来在指定域中匹配特定项的文档;RangeQuery,指定范围内搜索,用于在指定域中匹配特定范围内的文档;FuzzyQuery,一种模糊查询,能够简单地识别近义词匹配与查询关键字语义相近的项。

QueryParser,Query解析器。需要实现不同的查询需求时必须使用Query提供的不同子类,导致Query使用起来容易造成混乱。因而Pylucene还提供了Query语法解析器QueryParser。QueryParser能够解析提交的Query语句,根据Query语法挑选合适Query子类完成相应的查询,开发者不必关心底层使用的是什么Query实现类。例如Query语句“关键字1 and 关键字2” QueryParser解析为查询同时匹配关键字1和关键字2的文档;Query语句“id[123 to 456]” QueryParser解析成为查询名称为“id”的域中的值在指定范围“123”到“456”之间的文档;Query语句“关键字 site:www.web.com”QueryParser解析成为查询同时满足名称为“site”的域中值为“www.web.com” 和匹配“关键字”两个查询条件的文档。

索引的搜索是Pylucene所专注的领域之一,为实现索引的搜索编写了一个名为query的类,query实现索引的搜索有以下主要步骤:

lucene.initVM()if query_str.find(':') ==-1 and query_str.find(':') ==-1:query_str='title:'+query_str+' OR content:'+query_str①indir= SimpleFSDirectory(File(self.__indexDir))②lucene_analyzer= CJKAnalyzer(Version.LUCENE_CURRENT)③lucene_searcher= IndexSearcher(indir)④my_query = QueryParser(Version.LUCENE_CURRENT,'title',lucene_analyzer).parse(query_str)⑤total_hits = lucene_searcher.search(my_query, MAX)⑥for hit in total_hits.scoreDocs:⑦ print'Hit Score: ', hit.score doc = lucene_searcher.doc(hit.doc) result_urls.append(doc.get('url').encode('utf-8')) result_titles.append(doc.get('title').encode('utf-8')) print doc.get('title').encode('utf-8') result = {'Hits': total_hits.totalHits, 'url':tuple(result_urls), 'title':tuple(result_titles)} return result

索引的搜索有7个主要的步骤:

①首先对搜索语句进行判断,若语句不是针对标题或文章内容进行单一域的查询,即不包含关键词“title:”或“content:”时默认搜索title和content两个域。

②实例化一个SimpleFSDirectory对象,指定它的工作路径为先前创建索引的路径。

③实例化一个CJKAnalyzer分析器,搜索时使用的分析器应与索引构建时使用的分析器在类型版本上均一致。

④实例化一个IndexSearcher对象lucene_searcher,它的参数为第○2步的SimpleFSDirectory对象。

⑤实例化一个QueryParser对象my_query,它描述查询请求,解析Query查询语句。参数Version.LUCENE_CURRENT为pylucene的版本号,“title”指默认的搜索域,lucene_analyzer指定了使用的分析器,query_str是Query查询语句。在实例化QueryParser前会对用户搜索请求作简单处理,若用户指定了搜索某个域就搜索该域,若用户未指定则同时搜索“title”和“content”两个域。

⑥lucene_searcher进行搜索操作,返回结果集total_hits。total_hits中包含结果总数totalHits,搜索结果的文档集scoreDocs,scoreDocs中包括搜索出的文档以及每篇文档与搜索语句相关度的得分。

⑦lucene_searcher搜索出的结果集不能直接被Python处理,因而在搜索操作返回结果之前应将结果由Pylucene转为普通的Python数据结构。使用For循环依次处理每个结果,将结果文档按相关度得分高低依次将它们的地址域“url”的值放入Python列表result_urls,将标题域“title”的值放入列表result_titles。最后将包含地址、标题的列表和结果总数组合成一个Python“字典”,将最后处理的结果作为整个搜索操作的返回值。

用户在浏览器搜索框输入搜索词并点击搜索,浏览器发起一个GET请求,Flask的路由route设置了由result函数响应该请求。result函数先实例化一个搜索类query的对象infoso,将搜索词传递给该对象,infoso完成搜索将结果返回给函数result。函数result将搜索出来的页面和结果总数等传递给模板result.html,模板result.html用于呈现结果

如下是Python使用flask模块处理搜索请求的代码:

app = Flask(__name__)#创建Flask实例@app.route('/')#设置搜索默认主页def index():html='

title这是标题'return render_template('index.html')@app.route('/result',methods=['GET', 'POST'])#注册路由,并指定HTTP方法为GET、POSTdef result(): #resul函数if request.method=='GET':#响应GET请求key_word=request.args.get('word')#获取搜索语句 if len(key_word)!=0: infoso = query('./glxy') #创建查询类query的实例 re = infoso.search(key_word)#进行搜索,返回结果集 so_result=[] n=0 for item in re['url']:temp_result={'url':item,'title':re['title'][n]}#将结果集传递给模板 so_result.append(temp_result) n=n+1 return render_template('result.html', key_word=key_word, result_sum=re['Hits'],result=so_result) else: key_word='' return render_template('result.html')if __name__ == '__main__': app.debug = True app.run()#运行web服务

以上这篇用python做一个搜索引擎(Pylucene)的实例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持脚本之家。

用python写搜索引擎_用python做一个搜索引擎(Pylucene)的实例代码相关推荐

  1. 用python写数字_用python 写游戏之数字华容道

    当初对这个游戏颇有印象还是在最强大脑节目上面,何猷君以几十秒就完成了这个游戏.写2048游戏的时候,又想起了这个游戏,想着来研究一下. 游戏玩法 用尽量少的步数,尽量短的时间,将棋盘上的数字方块,按照 ...

  2. 我的世界python写游戏_用python写游戏之 Give it up

    <永不言弃 Give It Up>,这是一款极具虐心色彩的音乐题材闯关游戏. 这篇文章就来分析这款游戏原理,并用python写出来一个简易版.废话不多说,直接开始分析. 游戏元素,暂且把主 ...

  3. python写金字塔_金字塔python开发手册

    python API 基本方法 编写策略过程中所需要使用的基本函数.其中init和handle_bar是必须实现的两个方法,其余是可选择实现的方法. init (必须实现) init(context) ...

  4. python写词法分析器_用python写一个简单的词法分析器

    编译原理老师要求写一个java的词法分析器,想了想决定用python写一个. 目标 能识别出变量,数字,运算符,界符和关键字,用excel表打印出来. 有了目标,想想要怎么实现词法分析器. 1.先进行 ...

  5. python写炒股软件_使用Python写一个量化股票提醒系统

    大家在没有阅读本文之前先看下python的基本概念, Python是一种解释型.面向对象.动态数据类型的高级程序设计语言. Python由Guido van Rossum于1989年底发明,第一个公开 ...

  6. python写炒股软件_用Python炒股,你不可以我能行!网友:略牛

    由于小编并无深厚的数学功底也无深厚的金融知识, 所以不会在本文中引用各种高深的投资模型或数学模型. 交易系统 这里的交易系统不一定是程序,只是指你自己的交易原则或者遵守的一些技巧或者方法,你可以手动执 ...

  7. python七彩同心圆_用pygame做一个简单的python小游戏---七彩同心圆

    用pygame做一个简单的python小游戏---七彩同心圆 用pygame做一个简单的python小游戏-七彩同心圆 这个小游戏原是我同学python课的课后作业,并不是很难,就简单实现了一下,顺便 ...

  8. 用python写情书_资深Python程序员用图片隐写术写情书,全公司只有她能看懂,绝了...

    谁说程序员不浪漫!他从事python工作七八年,为了追公司的女同事,竟然用python的图片隐写术在图片上写情书,让全公司只有她才能看懂. image 先介绍一下图片隐写术吧,这是一门有关于将信息隐藏 ...

  9. python 写命令行界面_使用Python进行命令行界面编程?

    在本节中,我们将使用python开发命令行界面.但是在我们深入研究程序之前,让我们首先了解命令行. 由于存在计算机程序,因此一直在使用命令行,并且命令行是基于命令构建的.命令行程序是从Shell或命令 ...

  10. 用python写菜单_用Python创建菜单

    我正在用python制作一个菜单,需要:打印带有编号选项的菜单 允许用户输入编号选项 根据用户选择的选项号,运行特定于该操作的函数.现在,您的函数可以打印出它正在运行. 如果用户输入了无效的内容,它会 ...

最新文章

  1. 大地发生了变化写具体_小学语文三年级下册期末检测卷 (2)
  2. 如何阻止SAP CRM订单创建好之后,自动被置为传输状态这一行为
  3. HAproxy编译安装
  4. 用Python实现智能推荐!某音,某宝都是智能推荐的,你都知道吗?
  5. html轮播图淡入淡出,一个简洁的Jquery效果 banner轮播(1) 淡入淡出效果
  6. log4j在web中的使用
  7. JAVA 多线程学习总结
  8. 10分钟学会vuex
  9. 2021SC@SDUSC 量子加密库libqs
  10. 凛冬之翼---php写入数据库时汉字全部变为空白
  11. MySQL - Failed to open the referenced table XXX
  12. 火影忍者精剪版 纯战役没有回忆
  13. Flutter使用Canvas实现微信红包领取效果
  14. 已解决selenium.common.exceptions.WebDriverException: Message: unknown error: cannot find Chrome binary
  15. JS实现强制回收内存方法两则
  16. android 开红包动画,Android实现红包雨动画效果
  17. 关于一个int *ptr=(int *)(a+1)问题的探讨
  18. Oracle数据库实验4 Oracle数据库安全管理
  19. 竞争优势究竟是什么?
  20. HTML5七夕情人节表白网页(圣诞雪花飘落) HTML+CSS+JS 求婚 html生日快乐祝福代码网页 520情人节告白代码 程序员表白源码 抖音3D旋转相册 js烟花代码 css爱心表白

热门文章

  1. C++——虚函数(Virtual Member Functions) 【functions语意学】
  2. 摧枯拉朽,说说ES6的三把火
  3. 浅谈进程同步和互斥的概念
  4. TickableObjects 和 ITickable
  5. 使用复合索引代替单键索引,来避免单键有null值的情况
  6. 敏捷爽畅模型及其演变——Diana Larsen专访
  7. Android(Linux)实时监控串口数据
  8. Spring Autowired 注入失败总是Null
  9. POJ 2516 Minimum Cost 最小费用流
  10. 2013年阿里巴巴暑期实习招聘笔试题目(转)