说到搜索引擎,一般人都会觉得这东西十分“高大上”,对于不了解搜索引擎实现方式的小伙伴而言,确实能够感同身受。

国内著名的搜索引擎代表非百度莫属,而国外著名的搜索引擎代表则非谷歌莫属了。

搜索引擎一定程度上方便了网民的生活,生活或工作中啥不知道的上网搜索一下大都能找到答案。

今天将会分享如何仅用30行左右的代码来实现一个简易版的搜索引擎,我先称之为1.0版本好啦~

搜索引擎组成

一个完整的搜索引擎由以下四部分组成:

  • 搜索器
  • 索引器
  • 用户接口
  • 检索器

搜索器

熟悉 Python 的小伙伴可以把搜索器理解为 Python 的爬虫(scrawler),它像蜘蛛一样能够在互联网上大量爬取各类网站的内容,将爬取到的内容传送给索引器。

索引器

拿到搜索器传送的网页或内容后,会对内容进行加工处理,形成索引(index),存储于内部的数据库等待检索。

用户接口

用户接口很好理解,是指网页和 App 前端界面,例如:百度和谷歌的搜索页面。

用户通过用户接口,向搜索引擎发出询问(query),询问解析后送达检索器。

检索器

检索器在收到用户接口传送的询问解析后进行高效检索,再将检索结果返回给用户。

搜索引擎 Python 实现

PS:今天分享的重点是搜索引擎的实现,不是如何进行爬虫爬取内容,因此搜索引擎的组成部分搜索器此处使用本地存储文件内容代替。

1. 搜索引擎基类文件

# Engine.py
class SearchEngineBase(object):def __init__(self):passdef add_search_contents(self, file_path):with open(file_path, 'r') as fin:content = fin.read()self.process_search_contents(file_path, content)def process_search_contents(self, file_path, content):raise Exception('process_search_contents not implemented.')def search(self, query_content):raise Exception('search not implemented.')def main(search_engine):for file_path in ['./search_contents/1.txt', './search_contents/2.txt', './search_contents/3.txt', './search_contents/4.txt', './search_contents/5.txt']:search_engine.add_search_contents(file_path)while True:query_content = input('请输入你要检索的关键词:')results = search_engine.search(query_content)print('Total found {} result(s):'.format(len(results)))for result in results:print(result)

2. 搜索引擎子类文件

# SimpleEngine.py
from Engine import SearchEngineBase, main
import sys, os
sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath(__file__))))class MyEngine(SearchEngineBase):"""1.MyEngine是继承了父类SearchEngineBase的子类2.子类继承并实现了process_search_contents,search函数3.子类继承了父类的add_search_contents函数"""def __init__(self):super(MyEngine, self).__init__()self.__file_path_to_content = {} # 初始化私有变量__file_path_to_content,用于存储文件路径及其内容的字典def process_search_contents(self, file_path, content):"""填充字典__file_path_to_content,将文件路径作为key,文件内容作为value写入字典中"""self.__file_path_to_content[file_path] = contentdef search(self, query):"""枚举字典内容,将搜索的关键字在文件内容中有搜索结果时,将对应文件路径放入列表以便于统计其长度"""results = []for file_path, content in self.__file_path_to_content.items():if query in content:results.append(file_path)return resultssearch_engine = MyEngine()
main(search_engine)

3. 搜索样本文件

如图所示,将搜索的样本文件分别放在5个不同的 txt 文件中,并都放于 search_contents 目录下。

4. 搜索引擎效果

到这里,一个简易版的搜索引擎就实现了,后面还会继续分享搜索引擎实现的进阶版,敬请关注哟~

如果你不想一个人野蛮生长,找不到系统的资料,问题得不到帮助,坚持几天便放弃的感受的话,可以加入我们的QQ群:746506216,大家可以一起讨论交流,里面会有各种软件测试资料和技术交流。


资源分享

下方这份完整的软件测试视频学习教程已经上传CSDN官方认证的二维码,朋友们如果需要可以自行免费领取 【保证100%免费】

仅30行代码,实现一个搜索引擎(1.0版)相关推荐

  1. 初次玩pyecharts:30行代码做一个可视化广东省各地天气温度排行图

    初次玩pyecharts:30行代码做一个可视化广东省各地天气温度排行图 开篇点题,直接上效果图 开篇再点题,直接上源码 import re import requests from pyechart ...

  2. 【Python】30行代码实现一个万年历

    本文基于Python的PyQt5实现一个桌面版的万年历,核心代码小于30行. 首先安装PyQt5 pip install PyQt5 引入日历相关的核心组件 import sys from PyQt5 ...

  3. 用30行代码做一个微信智障机器人

    起因是某天早上看到这样一条朋友圈: 微信啥时候还有会员了?可怕,花里胡哨,这是要往QQ的方向发展吗.还是 Telegram 比较存粹. 连IS恐怖组织都在使用,最安全的即时通讯软件--Telegram ...

  4. python可以制作网站吗_Python大神带你用30行代码打造一个网站,爬虫+web不一样的玩法...

    首先,先把实际的效果图放上来: 用Python做的个性签名网站-效果图 在开始做之前,我们必须得知道这个用了那些模块: flask:一个轻量级的web开发框架,相信很多人也听说过这个牛逼加简洁的框架 ...

  5. 一个包含30行代码的Python项目:如何在您最喜欢的Twitcher流式传输时设置SMS通知...

    Hi everyone :) Today I am beginning a new series of posts specifically aimed at Python beginners. Th ...

  6. thymealf如何实现传单个变量给html_梦回2013,看尤大vue的第一行代码,如何用30行代码实现vue(超简洁,适合初学者)...

    非非非标题党,干货预警!!! 介绍 大家好,我是清池交友 app 开发日记,记录清池交友 app 开发中学习过程和踩坑日记,伪全栈[1] 技术栈:前端 js,vue,uniapp,后端 java 尤大 ...

  7. 30 行代码实现蚂蚁森林自动“偷”能量

    作者 | xindoo 来源 | CSDN 博客,已获作者授权 虽然我支付宝加了好多好友,平时有很多能量可以"偷",但由于太懒,至今一棵树都没种成,所以心心念念把偷能量这事自动化. ...

  8. 30行代码,让27吨发电机原地爆炸

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 只需要30行代码 (约140KB的文件),就能让20吨的发电机原地爆炸? 这一幕确实发生在了美国爱达荷州的测试场地上. 黑客模拟者将大约30 ...

  9. 好厉害!30 行代码实现蚂蚁森林自动收能量

    点击上方蓝色"终端研发部",选择"设为星标" 学最好的别人,做最好的我们 虽然我支付宝加了好多好友,平时有很多能量可以"偷",但由于太懒,至 ...

最新文章

  1. 关于iis部署的一些小问题
  2. python数据统计 矢量图_用python中的矢量化解决方案计算max draw down
  3. 这周,我们作前端,实现统一的过滤搜索
  4. 从右边开始放_幸福的生活,从入住新房开始,效果很漂亮,忍不住给大家晒晒全屋...
  5. 液晶手写板原理拆解_汽车抬头显示HUD的拆解
  6. 【LOJ#10170】国王
  7. 纯css3鼠标经过图片显示描述特效
  8. linux脚本彩色提示,在shell脚本里显示带颜色的字(linux)
  9. 三菱FX3U-485ADP-MB通讯三种变频器程序
  10. 国外手机短信验证码接收神器(转自美国华人网FuninUSA)
  11. Oracle客户端安装教程(图文)
  12. jmp连mysql_JMP官方教学视频列表
  13. 现代信号处理——自适应滤波器(LMS自适应滤波器)
  14. VBA版本获取ClientKey
  15. 空间换时间,轻松提高性能100倍
  16. 2021年度总结——波澜不惊
  17. 可以用云服务器挂机传奇吗,蜂窝云挂机划算吗 游戏蜂窝云挂机怎么用
  18. android中使用hbuilder混合开发中提示未添加plugintest模块 请参考283
  19. 美化彩虹秒赞系统内页模版
  20. Kali+Win7双系统

热门文章

  1. 显示网格(grid)
  2. u3d5第一人称射击游戏(C#脚本)完整版并在iOS9.3系统上真机运行
  3. 我们走的太快,灵魂落在后面了,要停下来等等
  4. STL官网学习笔记——set_intersection
  5. py218-基于Python+django的鲜花销售商城网站#毕业设计
  6. ofd格式文件怎么转换pdf格式,过来瞧一瞧
  7. 十分钟,学会使用js三种方法创建本地json数据文件
  8. 不同层面禁用PUT、DELETE、HEAD、TRACE、OPTIONS请求方式
  9. tis红石生存服务器后勤系统,我的世界红石生存服务器TIS,国内大神团队制作,让全世界震撼...
  10. 用html做一个旅游网首页