search engin学习笔记1
本文讨论搜索引擎对搜索结果排名的基本思路。
1. 搜索引擎分成两大类,主题搜索和web搜索。主题搜索是由搜索引擎提供方对世界上的主要网站进行分类整理,以一个层次化的主题分类结构提供给用户查询。最好的提供商以前是Yahoo,现在是Open Directory Project(ODP)。现在Google已经完全停止了这类服务,并在相应网页上提供了ODP的链接,同时声明,Google相信web搜索是最好搜索技术。
2. Web搜索排名最开始是参考关键字在网页中的出现频率。
优点:假如一个关键字在某个网页中出现多次,那么可以假设该网页跟这个关键字关系度很高。
缺点:没有语境限定的关键字的意义很广泛(降低准确度);有些相关文章使用的是近义词(或者关键词是主题时,出现频率并不高),而不是关键词本身(降低完备性)。
3. 改进一:组合关键词,即使用逻辑组合操作多种关键词(还可以由用户指定各关键词的权重)
4. 改进二:根据文本习惯,给予特定域的词更多权重,比如标题、摘要,正文第一段
5. 改进三:根据网页的被链接次数(假设被别人重视的网页,也应该获得你的重视)
6. 改进四:利用html中元数据标签,由站长指定文本的关键词
参考:
http://www.monash.com/spidap4.html
search engin学习笔记1相关推荐
- Beam Search的学习笔记(附代码实现)
引言 Beam Search 是一种受限的宽度优先搜索方法,经常用在各种 NLP 生成类任务中,例如机器翻译.对话系统.文本摘要.本文首先介绍 Beam Search 的基本思想,然后再介绍一些bea ...
- ElasticSearch 学习笔记:Multi Search
本文目录 1 简介 2 格式 3 header格式 4 body格式 5 返回格式 6 性能 7 相关文章 1 简介 批量查询接口(Multi Search API)允许在一次请求中执行多个查询操作, ...
- [初窥目标检测]——《目标检测学习笔记(2):浅析Selective Search论文——“Selective Search for object recognition”》
[初窥目标检测]--<目标检测学习笔记(2):浅析Selective Search论文--Selective Search for object recognition> 本文介绍 前文我 ...
- Elasticsearch核心技术与实战学习笔记 43 | 分页与遍历:From, Size, Search After Scroll API
一 序 本文属于极客时间Elasticsearch核心技术与实战学习笔记系列. 二 分页 2.1 From / Size 默认情况下,查询按照相关度算分排序,返回前 10 条记录 容易理解的分页方案 ...
- SVO学习笔记(一)
SVO学习笔记(一) 这篇文章 Frame Featuredetection Featrue_matcher 三角测量求深度 特征匹配 非线性优化寻找匹配特征 极线搜索匹配特征 总结 这篇文章 一个 ...
- Json.Net学习笔记
Json.Net学习笔记 摘自: http://www.verydemo.com/demo_c360_i45119.html 分类: 编程语言/ ASP.NET/ 文章 导读:string goog ...
- Python学习笔记__13.2章 requests
# 这是学习廖雪峰老师python教程的学习笔记 相比于Python内置的urllib模块,使用requests可以更好地处理URL资源. 1.使用requests 1)通过GET访问一个页面 > ...
- Python学习笔记(十一)
Python学习笔记(十一): 生成器,迭代器回顾 模块 作业-计算器 1. 生成器,迭代器回顾 1. 列表生成式:[x for x in range(10)] 2. 生成器 (generator o ...
- python 学习笔记 12 -- 写一个脚本获取城市天气信息
近期在玩树莓派,前面写过一篇在树莓派上使用1602液晶显示屏,那么可以显示后最重要的就是显示什么的问题了. 最easy想到的就是显示时间啊,CPU利用率啊.IP地址之类的.那么我认为呢,假设可以显示当 ...
最新文章
- closeable java_【转】java.io.Closeable接口
- python atm作业详解_Python ATM功能实现代码实例
- 用CORS 解决vue.js django跨域调用
- C# 2.0 除了泛型
- lj245a引脚功能图_技术文章—教你快速读懂单片机时序图
- 在php中type有几种属性,HTML表单之input元素的23种type类型
- Create-React-App脚手架使用方法
- Log4j2解决方案与复现略图
- WP7开发小技巧之快捷键
- CentOS7挂载nfs盘快速指南
- java中的.运算符_java中的各种运算符
- 地震了?不,是心动了!
- Unirech-腾讯云服务器简介及腾讯云国际版云服务器购买流程
- 国二计算机考试c语言试题及答案,计算机二级考试C语言试题及答案
- 巴菲特投资赚钱的赚钱宝典和赢家暗语
- 深度学习入门(二)训练并使用Keras模型
- oracle中if语句用法,Oracle IF语句的使用 | 学步园
- One Mathematic Problem
- 在线职业教育APP开发,技能快速掌握的管家
- 这些朋友更适合苹果电脑,你了解吗?
热门文章
- jsplumb插件学习--单个节点动态添加多个锚点
- 凡人修仙传之百炼冥门java_修仙缘:细说我与《凡人修仙传》的过往
- 《途客圈创业记:不疯魔,不成活》一一2.11 途客圈旅行助手
- MLAT-Autoencoders---下篇-关键代码及结果展示(1)
- PS网页设计教程XVI——在PS中创建一个摩登实验室风格的网页设计
- qt+opencv进行七巧板识别应用(三)
- commons compress使用+ziji
- linux c代码更改时间间隔,在特定的时间间隔后发送控制c到一个linux命令?
- mac 环境下 登陆失败问题Access denied for user ‘root‘@‘localhost‘ (using password: YES)
- 淘宝新手如何做推广 最新最全的淘宝店铺免费推广方法秘诀