《数学之美》第18章闪光的不一定是金子--谈谈搜索引擎反作弊问题和搜索结果的权威性问题

2024-04-25 16:20:07

任何搜多引擎给出的结果都不完美，多少会有点噪音。有些噪音是人为造成的，其中最主要的噪音是针对搜素引擎网页排名的作弊（SPAM）；另一些噪音则是在用户在互联网上的活动产生。

1 搜索引擎的反作弊

针对搜索引擎的作弊，就是采用不正当的手段提高自己网页的排名。

早期最常见的作弊方法是重复关键词。

有了网页排名之后，一个网页链接越多，排名就可能越靠前。

搜素引擎作弊从本质上看就如同对（搜素）排序的信息加入噪音，因此反作弊的第一条是要增强排序算法的抗噪音能力。其次是像在信息处理中去噪音那样，还原原来真实的排名。

噪音消除的过程是一个反卷机的过程。

从广义上讲，只要噪音不是完全随机并且前后有相关性，就可以检测并且消除。

反作弊的另一个工具是图论。

强调：第一，Google的反作弊和恢复网页原有排名的过程完全是自动的（并没有个人的好恶）。第二，大部分搜索引擎优化器和帮助别人作弊的人，只针对占市场份额最大的搜索引擎算法来作弊，因为作弊也是有成本的。

作弊的本质是在网页排名信号中加入噪音，因此反作弊的关键是去噪音。

2 搜索结果的权威性

用户使用搜索引擎一般有两个目的。其一是导航，即通过搜索引擎找到想要访问的网站。其二是查找信息。

首先，PageRank和其他关于网页质量的度量方式都很难衡量搜索结果的权威性。

其次，互联网对同一个问题给出的答案常常互相矛盾。

计算权威度的步骤：

1. 对每一个网页正文中的每一句进行句法分析，然后找出涉及到主题的短语，以及对信息源的描述。这样我们就获得了所谓的“提及”信息。

2. 利用互信息，找到主题短语和信息源的相关性。

3. 需要对主题短语进行聚合。

4. 对一个网站中的网页进行聚合。

《数学之美》第18章闪光的不一定是金子--谈谈搜索引擎反作弊问题和搜索结果的权威性问题相关推荐

数学之美第3章统计语言模型
数学之美第3章统计语言模型回顾一下: 前面两章都是基础知识,告诉我们自然语言的起源基础,和一些发展过程遇到的问题,第二章告诉我们规则:理解自然语言(即分析语句和获取语义)这种处理方法不可能实现智 ...
《数学之美》——第九章个人笔记
数学之美最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第九章图 ...
《数学之美》选章精读
曾经花了一个月的时间阅读受推荐的书籍<数学之美>,对基于统计的自然语言处理的历史作一个大致的了解,每周精读一章,做下了一些粗略的笔记,算是有个交代吧. 第9章-图论和网络爬虫概念图论起 ...
《数学之美》——第一章个人笔记
数学之美最近在读<数学之美>这本书,做一下个人笔记.看的是PDF,看完后会买一本的哦!版权意识还是有的. ps:图片文字都是这本书中的内容,侵权立删.会有点自己的理解. 第一章文 ...
《数学之美》第一章读后感
第一章分别讲述了早期信息的传播,文字和数字的发展,文字和语言背后的数学三个部分. 我从中了解到了信息传递,不论是早期的远古社会,还是如今快速发展的互联网时代,其规律都是异曲同工的.比如信息传播的模型都 ...
每周一书《数学之美第二版》分享！
内容简介几年前,"数学之美"系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价.读者说,读了"数学之美",才发现大学时学的数学知识,比如马尔可夫链 ...
《数学之美》中的模型及启示总结
目录初衷文章编排章节总结第1章文字和语言 vs 数字和信息第2章自然语言处理--从规律到统计第3章统计语言模型第4章谈谈中文分词第5章隐含马尔可夫模型第6章信息的度量和作 ...
【读书笔记】数学之美2-搜索引擎
8.简单之美--布尔代数和搜索引擎建立一个搜索引擎大致需要做的几件事情: 自动下载尽可能多的网页: 建立快速有效的索引: 根据相关性对网页进行公平准确的排序. 这就是搜索的"道" ...
《数学之美》读书笔记(2)
上篇写了<数学之美>的第一到十一章,这篇把后面几章写完.后面的内容比较广泛而且很多都是很熟悉的内容.让我感觉眼前一亮的是用SVD做新闻分类.SVD的物理意义以前都没有仔细的想过. 第12章 ...

最新文章

热门文章