网页反作弊是目前所有商业搜索引擎需要解决的重要难点,出于商业利益驱使,很多网站站长会针对搜索引擎排名进行分析,并采取一些手段来提高网站排名,这种行为本身无可厚非,很多优化行为是符合搜索引擎排序规则的,但是也存在一些恶意的优化行为,通过特殊手段将网页的搜索排名提高到与其网页质量不相称的位置,这样会严重影响搜索引擎用户的搜索体验。而搜索引擎为了保证排名的公正性,也需要对作弊行为进行识别和处罚。所谓“道高一尺,魔高一丈”,只要这种经济利益存在,作弊与反作弊会一直作为搜索引擎领域的斗争而存在下去。 本章主要讲解目前常见的一些互联网网页作弊方法以及搜索引擎公司对应的反制措施。从大的分类来说,比较常见的作弊方法包括:内容作弊、链接作弊、隐藏作弊以及最近几年兴起的Web2.0作弊方法。学术界以及搜索引擎公司也有针对性的提出了各种反作弊算法,本章介绍了比较典型的各类反作弊算法思路,并抽象出了几种反作弊算法的框架。 8.1 内容作弊 内容作弊的目的是通过精心更改或者调控网页内容,使得网页在搜索引擎排名中获得与其网页不相称的高排名。搜索引擎排名一般包含了内容相似性和链接重要性计算,内容作弊主要针对搜索引擎排序算法中的内容相似性计算部分。通过故意加大目标词词频,或者在网页重要位置引入与网页内容无关的单词来影响搜索结果排名。 8.1.1常见内容作弊手段 比较常见的内容作弊方式包括: 1. 关键词重复 对于作弊者关心的目标关键词,大量重复设置在页面内容中。因为词频是搜索引擎相似度计算中必然会考虑的因子,关键词重复本质上是通过增高目标关键词的词频来影响搜索引擎内容相似性排名。 2. 无关查询词作弊 为了能够尽可能多吸引搜索流量,作弊者在页面内容中增加很多和页面主题无关的关键词,这本质上也是一种词频作弊,即将原先为0的单词词频增加到非0词频,以此吸引更多搜索引擎流量。 比如有的作弊者在网页的末端以不可见的方式加入一堆单词词表。也有作弊者在正文内容插入某些热门查询词。甚至有些页面内容是靠机器完全随机生成或者利用其他网页的页面内容片段随机拼凑而成的。 3. 图片alt标签文本作弊 alt标签原本是作为图片描述信息来使用的,一般不会在HTML页面显示,除非用户将鼠标放在图片上,但是搜索引擎会利用这个信息,所以有些作弊者将alt的内容以作弊词汇来填充,达到吸引更多搜索流量的目的。 4. 网页标题作弊 网页标题作为描述网页内容的综述性信息,对于判断一个网页所讲述的主题是非常重要的启发因素。所以搜索引擎在计算相似性得分时,往往会增加标题词汇的得分权重。作弊者利用这一点,将与网页主题无关的目标词重复放置在标题位置来获得好的排名。 5. 网页重要标签作弊 网页不像普通格式的文本,是带有HTML标签的,而有些HTML标签代表了强调内容重要性的含义,比如加粗标记 ,段落标题 ,字体大小标记等。 搜索引擎一般会利用这些信息进行排序,因为这些标记因素能够更好的体现网页的内容所表现的主题信息。作弊者通过在这些重要位置插入作弊关键词也能影响搜索引擎排名结果。 6. 网页元信息作弊 网页元信息比如网页内容描述区(meta description)和网页内容关键词区(meta keyword)是供制作网页的人对网页主题信息进行简短描述的,同以上情况类似,作弊者往往也会通过在其中插入作弊关键词来影响网页排名。 通过以上几种常见作弊手段的描述,我们可以看出,作弊者的作弊意图主要有以下几类: 1. 增加目标作弊词词频来影响排名; 2. 增加主题无关内容或者热门查询吸引流量; 3. 关键位置插入目标作弊词影响排名; 8.1.2 内容农场(Content Farm) Google在2011年2月份高调宣布针对低质量网页内容调整排序算法,据报道此算法影响了大约11.8%的网页排名,而这项调整措施是专门针对以Demand Media网站为代表的“内容农场”作弊手法的。 图8-1是内容农场运作模式的示意图,内容农场运营者廉价雇佣大量自由职业者,支持他们付费写作,但是写作内容普遍质量低下,很多文章是通过拷贝稍加修改来完成的,但是他们会研究搜索引擎的热门搜索词等情况,并有机地将这些词汇添加到写作内容中。这样,普通搜索引擎用户在搜索时,会被吸引进入内容农场网站,通过大量低质量内容吸引流量,内容农场可以赚取广告费用。 图8-1 内容农场运营模式 与传统的内容作弊方式比,内容农场不采用机器拼接内容等机械方式,而是雇佣人员写作,但是由于写作者素质等原因决定了其发布内容质量低下,这种作弊方式搜索引擎往往难以给出是否作弊明确的界定,但是又严重影响搜索结果质量,所以是一种很难处理的作弊手法。

转载于:https://blog.51cto.com/htsdee2w/823030

搜索引擎反作弊之内容作弊相关推荐

  1. 《数学之美》第18章 闪光的不一定是金子--谈谈搜索引擎反作弊问题和搜索结果的权威性问题

    任何搜多引擎给出的结果都不完美,多少会有点噪音.有些噪音是人为造成的,其中最主要的噪音是针对搜素引擎网页排名的作弊(SPAM):另一些噪音则是在用户在互联网上的活动产生. 1 搜索引擎的反作弊 针对搜 ...

  2. 搜索引擎反作弊之:链接作弊与隐藏作弊

    本文节选自<这就是搜索引擎:核心技术详解>第八章 8.2 链接作弊 所谓"链接作弊",是网站拥有者考虑到搜索引擎排名中利用了"链接分析"技术,所以通 ...

  3. disallow: /api.php,dz论坛如何禁止搜索引擎抓取任何内容?

    这其实不只是针对于discuz这个程序建的网站,针对所有的网站都有效.网站的根目录有一个robots.txt文件.这个就相当于一个协议.它告诉搜索引擎,你可以抓取我网站里的哪些内容.所以,想要禁止搜索 ...

  4. 如何创建对搜索引擎更加友好的内容

    在互联网上让你的声音被广泛的听见并不容易.这可能就想你在一个拥挤的大街上即兴演讲,挥舞着双手来引起路人的注意.在你选择的主题中你可能是一位专家,有着过人的智慧,但是你要怎么让人们停下足够长的时间来听你 ...

  5. 搜索引擎反作弊之:整体技术思路

    本文节选自<这就是搜索引擎:核心技术详解>第八章 如上所述,目前搜索引擎作弊手段五花八门,层出不穷,作为应对方的搜索引擎,也相应调整技术思路,不断有针对性地提出反作弊的技术方案,所以如果整 ...

  6. 网络广告反作弊在线广告作弊手段一览

    广告业有句古老的名言:你知道广告投入的一半都被浪费了,可你不知道究竟是哪一半."这是个最好的时代,也是最坏的时代."这句话用来描述互联网时代广告主们的处境实在是再准确不过了.这里提 ...

  7. 网站优化中搜索引擎为何重视原创内容呢?

    众所周知,在网站优化过程中搜索引擎都会很喜爱和偏重网站原创高质量内容,因为搜索引擎对于新鲜事物会产生好感,尤其是高质量原创内容,那么为什么搜索引擎重视原创内容呢?下面就带大家了解一下. 一.利于提高用 ...

  8. 如何让搜索引擎抓取AJAX内容

    2019独角兽企业重金招聘Python工程师标准>>> 越来越多的网站,开始采用"单页面结构"(Single-page application). 整个网站只有一 ...

  9. 搜索引擎优化的一般内容应包括什么

    1.META标签优化. META标签的一个很重要的功能就是设置关键字,来帮助你的主页被各大搜索引擎登录,提高网站的访问量.在这个功能中,最重要的就是对Keywords和description的设置. ...

最新文章

  1. matlab 多项式拟合 ployval
  2. 基于3G网络的汽车防盗报警系统视频监控设计[图]
  3. Full_of_Boys训练4总结
  4. Delphi 7 以来的语法等变化
  5. scal的函数定义(day01)
  6. Linux基础(2)-基础命令和bash的基础特性(1)
  7. FISCO BCOS(十二)——— 区块链关键概念
  8. 推介英特尔® 黑带软件开发人员!
  9. python求解简单加密问题,实现对输入的密文加密
  10. php异步通知并查询,服务器异步通知的接收by php
  11. matlab优化工具箱安装,MATLAB优化工具箱 OPTI的安装
  12. AODV协议代码详述
  13. 那本失去的《牛津高阶英汉双解词典》第6版 P2666-2665
  14. 【VMware vSAN 7.0】4.8 有关 vSAN 许可证的注意事项—我们有软硬件解决方案
  15. Stellar Repair for Excel 6.0.X Crack
  16. 三个免费的无版权图片站
  17. 看漫画学电子,非常精彩!有些概念以前模糊现在真的懂了
  18. 网关如何快速接入移动OneNET云平台指南
  19. java生命游戏_生命游戏
  20. 爬取虎扑社区-晒晒照片

热门文章

  1. SDNU 1011.盒子与球(斯特林函数)
  2. 【UVA1638】杆子的排列
  3. Android eMMC 分区详解(转载)
  4. Jmeter报告优化之New XSL stylesheet
  5. Convolutional Neural Networks for Visual Recognition 8
  6. Winfrom窗体间传值
  7. bash 的进站欢迎提示
  8. vim编辑器的设置文件
  9. fuse的API修改
  10. 基于struts2的文件上传下载