做为SEO行业老鸟应该听说过TF-IDF算法,TF-IDF算法属于搜索引擎中的核心部分。TF-IDF算法是增加相关词的覆盖率,以及高优布局关键词密度,从而在百度谷歌等搜索引擎内容质量这一项上的排名加分,获取超高分值。

最近在码迷网有几篇TF-IDF算法原理及公式本文将深入为大家解析,有兴趣请往下深度阅读。

一,什么是TF-IDF
先来看百度百科对TF-IDF的解释:

“TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。”

133753.jpgTF-IDF算法公式

大家看了定义之后跟我一样是懵的吧,为了便于大家理解,作者再举一个简单易懂的栗子。

假如说我们在百度上搜索“水果”这个词,百度爬虫抓取的网站内容有下面5个,你觉得哪个内容排名第一?

内容1: 水果有水果,水果,水果,水果,水果
内容2: 水果有苹果,桃子,西瓜,菠萝,梨子
内容3: 蔬菜都很好吃,我最爱吃茄子了
内容4: 苹果,梨子都是很好吃的水果
内容5:好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃
相信很多人心里面有了答案,大家凭直觉,内容2 跟 内容5 应该排名靠前,内容5很可能是第1,内容2是排名第2。

其实按照TF-IDF算法也能得出这个结论,那么TF-IDF是怎么做的,请大家跟上我的步伐。

二,TF-IDF算法的计算步骤
第1步:计算逆文档频率
我们先统计各个词语被包含的文章数。比如“水果”被4篇文章(内容1、2、4、5)引用,4就是“水果”的逆文档频率。

分词后,各个单词的逆文档频率如下:

水果=4、苹果=3、好吃=2、菠萝=2、西瓜=2、梨子=2,桃子=1、猕猴桃=1、蔬菜=1,茄子=1计算逆文档频率

TF-IDF算法原理

PS: IDF= log(语料库中的文件总数 / 包含词语 t 的文件数目),为了便于理解,这里做了精简。

按照我们的直觉,如果一篇文章把逆文档频率最高的前面的词都包含了,说明这篇文章内容更贴合用户意图,更受到搜索引擎喜欢。回到例子,"水果、苹果"是本例中重要性最高的2个词,如果内容中包含“水果、苹果”,那么这篇内容质量就越好。

所以把包含“水果、苹果”的内容拿出来,就是比较靠谱的内容了:

内容2: 水果有苹果,桃子,西瓜,菠萝,梨子
内容4: 苹果,梨子都是很好吃的水果
内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃

第2步:计算词频(TF)
我们把内容1、内容3砍掉了,剩下的内容2、内容4、内容5怎么排序。我们想一下,一个词语在内容中出现的次数越高,也说明这个词语对这篇文章更重要。回到本例,“水果”是我们的核心词,那么因为内容5中出现“水果”两次,内容2、内容4次数是1,那么内容5胜出。最后的排序结果如下

内容5: 好吃的水果有西瓜,苹果,葡萄,其他水果还有菠萝,猕猴桃 (第一名)
内容2: 水果有苹果,桃子,西瓜,菠萝,梨子(第二名)
内容4: 苹果,梨子都是很好吃的水果(第三名)
内容1: 水果有水果,水果,水果,水果,水果(相关度不够,被剔除)
内容3: 蔬菜都很好吃,我最爱吃茄子了( 相关度不够,被剔除 )
以上是砍了又砍的TF-IDF算法简化解读版,真实的TFIDF算法比这个要正规复杂很多,这里只是让大家get到重点,码迷的目的就达到了。

TF-IDF对SEO非常重要!
TF-IDF对SEO非常非常非常重要,重要的事情说三遍!

我们可以看到,TFIDF算法,不仅可以衡量关键词对页面的重要性,更能衡量文章的广度相关性。对于百度、360、google来说,TFIDF算法的出现屏蔽了一大批用关键词密度来获取排名的SEO小白,同时提升了搜索质量啊,真是一箭双雕。

百度百科里面说了:“除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。”。意思是什么?你排名可以由下面的公式决定。文章得分=TFIDF得分+链接得分,百度搜索引擎在用TFIDF!!

那么有人站出来问了,人家只是在百度百科里面说,百度也没有说用TFIDF算法啊,有本事亮出实锤来。

好吧~咱往下接着看。

首先,百度在用TFIDF算法
百度专利中使用TFIDF的实锤,请查看百度专利文档《CN102737018A-基于非线性统一权值对检索结果进行排序的方法及装置-公开》。搜索算法来去匆匆,百度算法更新迭代也非常快,但是TFIDF算法有点不同,它是目前最核心的搜索算法之一。

141568.jpg百度专利中使用TFIDF

其次,GOOGLE也用TFIDF算法
google承认在搜索中使用的TFIDF算法。

SEO技术深度解析(TF-IDF算法原理及公式)SEO技术深度解析(TF-IDF算法原理及公式)

最后,TFIDF得分占极高比重
如果搜索引擎确定使用TF-IDF对网页内容作为评判质量的因子,那么这个比重有多大?码迷知道,现在的搜索引擎一般用如下的算法计算网站页面得分:score(页面得分) = TFIDF分 * x + 链接分 * y + 用户体验分 * z(其中x+y+z=100%;);

tf-idf计算公式141680.jpg

大约在2G左右的谷歌搜索资料中,码迷做了人工智能训练,预测TFIDF分值大约占百度40%左右的权重,谷歌更是达到了50%。

链接分,通过快排朋友透露,权重大约占百度20%左右,谷歌尚不清楚。

用户体验得分(可以通过刷快排提高)的比率,百度在40%左右,Google则没有找到相关快排技术文档。

所以说,在中国做SEO:

排名得分=40%的内容质量(TFIDF)+40%的用户体验分(快排)+20%的链接分(域名+外链),TFIDF重要程度不言而喻。

内容优化助手摩天楼
摩天楼在初期的版本中使用了基本的TF-IDF公式,但是在实验过程中,做了几个网站都没有做到首页,也是抑郁了很长时间。

后来机缘巧合经过高人指点,使用了稍微复杂的BM25算法。BM25算法其实是TFIDF相关性的升级版本,主要引入了文档长度、关键词权重等可调节的参数。

其中BM25算法公式中的k参数,由样本库学习计算获得。经过机器学习后的K参数,样本库排序得分基本与谷歌的搜素排序一致。而百度则因为广告太多,干扰项太多一直没法验证,不过通过实战案例验证,K参数的取值也八九不离十。

BM25算法公式BM25算法

使用摩天楼提高TF-IDF得分
第1步 写内容

定位好目标核心搜索词,然后候选好3个左右的长尾关键词,定好你的网站标题。写好你的标题,然后按照标题认真写好你的SEO内容。白帽SEO同学可以搞原创,黑帽同学可以做采集做拼凑(此处省略几万字)第1步 写内容

第2步 提高内容评分

经码迷独家开发的摩天楼内容助手,会从5个维度对你的标题内容做评测,摩天楼还会跟踪不同的相关词,帮你测量你在众多竞争对手中的排名得分,这些都是很干很干的SEO技巧,对于帮助了解竞争对手的内容有莫大的帮助。

摩天楼SEO内容质量评分报告
摩天楼SEO内容质量评分报告

第3步 重新优化内容

摩天楼内容助手会很清楚的告诉你,你应该减少哪些词,应该增加哪些关键词。你按照摩天楼内容助手的建议去做就行了,整个过程会有点枯燥,但是码迷已经实操过多起案例,很有效果。

第3步 重新优化内容SEO技术深度解析(TF-IDF算法原理及公式)

第4步 再次通过摩天楼内容助手评分

这是一个反复优化验证的过程,一般情况下你把TOP50左右的相关词全覆盖了,你的网站内容基本上能拿到全网质量TOP2的排名。然后根据词频建议调整TOP10相关词的词频,基本上就是全网第一了。

摩天楼内容助手图第4步 再次通过摩天楼评分

摩天楼助手SEO工具
第1 开发过程验证

开发者码迷其实已经测试了TFIDF算法超过一年。起初码迷花了大概三个月的事件研究了百度、好搜、神马的相关搜索专利,其中百度居多,也通过百度专利以及百度的朋友得知百度确实是在用TFIDF之后,很天真的做了摩天楼内容助手第一版,然后拿网站做小白鼠,嗯,基本都失败了。正当毫无头绪的时候,18年11月份跟回国探亲的同学(留美博士)讨论了一下,其实TFIDF算法是对的,但是系数不对,打分算法也不对(博士就是博士哈)。

2019年1月份左右,码迷修正了算法,并且通过训练了百万级的验证集数据,获得了最优系数参数。随后准备100个自然搜索词,验证新相关性算法预测的排名与实际排名的重合度(反面交叉验证),数据基本符合预期。

第2 成功案列验证

为了验证摩天楼工具确实有用,我们不仅通过实战正面验证取得了很好的效果,也通过现有搜索引擎结果中交叉验证证明摩天楼内置的算法不仅有效还很准。大家可以到《摩天楼内容助手案例专区》查看最近案例。

第3 国外TFIDF工具很流行

目前码迷在国内市面上甚至培训机构中,并没有找到一款类似摩天楼内容助手这样的TFIDF深度解析工具,但不排除有大佬内部开发的哈。国外的TFIDF工具主要有2款,而且也确实经过了很多大牛们的验证(国外的SEO大神Matt亲自验证了text-tools管用,

我们知道百度技术上一直跟着google学,如果TFIDF用在GOOGLE上管用,用在百度上则是先知先行,再明智不过了。

国外TFIDF工具SEO技术深度解析(TF-IDF算法原理及公式)

最后总结
首先,摩天楼内容助手并不是一款黑帽专属SEO工具,但也可以配合SEO们把网站内容优化达到更好的效果;

其次,开发者码迷觉得,摩天楼内容助手更是一款需要静下心来,认认真真做内容的白帽SEO工具,很多SEO站长总想做快排做泛目录上排名,可是你们想想如果大家都不产生优质内容,百度拿不到好的内容,只能让SEO市场越来越小,越来越烂。

所以SEO同行们一定要不忘初心,方可始终;有时候做优化,更多的是需要大家慢下来,以慢打快,十拿九稳。

最后,摩天楼内容助手只做SEO工具链中的内容构建工具,它很年轻,所以算法也不是百分百的完美,但是从数据化指导的科学SEO优化角度来讲,确实能够为大家开辟一片新天地!省力省时捷径,希望大家能够宽容,也感谢大家宝贵的反馈。

本人已经试用了一段时间,也是我认为目前在SEO技术算法上最靠谱的SEO工具之一,有兴趣的朋友可以尝试一下。

SEO技术深度解析(TF-IDF算法原理及公式)相关推荐

  1. 深度解析推荐系统的算法原理

    一.推荐系统介绍 一句话介绍推荐系统的作用:高效地达成用户与意向对象的匹配. 1.1 推荐系统的应用 推荐系统是建立在海量数据挖掘基础上,高效地为用户提供个性化的决策支持和信息服务,以提高用户体验及商 ...

  2. 关键词提取算法—TF/IDF算法

    关键词提取算法一般可分为有监督学习和无监督学习两类. 有监督的关键词提取方法可以通过分类的方式进行,通过构建一个较为完善的词表,然后判断每个文档与词表中的每个词的匹配程度,以类似打标签的方式,达到关键 ...

  3. 深度强化学习-DDPG算法原理和实现

    全文共3077个字,8张图,预计阅读时间15分钟. 基于值的强化学习算法的基本思想是根据当前的状态,计算采取每个动作的价值,然后根据价值贪心的选择动作.如果我们省略中间的步骤,即直接根据当前的状态来选 ...

  4. 《能屈能伸英特尔睿频加速技术深度解析》

    阅读<能屈能伸英特尔睿频加速技术深度解析>的小笔记 睿频加速:根据需要,自动调节多个CPU内核的负载以达到最佳运算的效果.支持每个处理器内的特定内核在设定的范围内以超出额定频率的频率运行, ...

  5. 随笔_从《芳华》影评到TF/IDF算法

     前两天看好多<芳华>的影评说:为什么好人没好报?于是感叹一堆世态炎凉,人性丑陋什么的.我觉得这问题是:为什么中央空调(对谁都温暖)往往不被看好.  先说说TF/IDF算法,这是一种信息处 ...

  6. 深度学习之 神经网络算法原理

    深度学习之 神经网络算法原理 什么是神经网络算法? 初中映射 神经网络 求映射? 求解参数 图解求参 参考文献 什么是神经网络算法? 初中映射 初中的时候 y = f(x) 老师进过 映射 . 通过 ...

  7. 语音视频社交背后技术深度解析

    演讲 / 蒋宁波 整理 / LiveVideoStack 伴随智能硬件设备快速发展和网络条件提升,实时语音视频的应用越来越广泛,从互动直播.到休闲游戏.再到陌生人社交,而如何保障实时互动过程流畅不卡顿 ...

  8. 深度强化学习-Actor-Critic算法原理和实现

    全文共2543个字,2张图,预计阅读时间15分钟. 基于值的强化学习算法的基本思想是根据当前的状态,计算采取每个动作的价值,然后根据价值贪心的选择动作.如果我们省略中间的步骤,即直接根据当前的状态来选 ...

  9. 深度学习分析--TextCNN算法原理及分类实现

    深度学习算法背景 人工智能发展历史 随着算力提高以及深度学习的应用,近几年算法发展很快 应用场景 计算机视觉 用于车牌识别和面部识别等的应用. 信息检索 用于诸如搜索引擎的应用 - 包括文本搜索和图像 ...

最新文章

  1. 钟南山院士应邀向欧洲同仁全方位解析新冠肺炎(配中文文字版)
  2. Java开发环境搭建详解
  3. 5186. 区间内查询数字的频率
  4. python开源项目2019_2019年6月Github上最热门的Python开源项目
  5. AI学习笔记(十一)CNN之图像识别(下)
  6. 二维绕任意点旋转_旋转变换(一)旋转矩阵
  7. ESP8266学习——HW Timer
  8. 分享一个宝藏级 Java 插件
  9. 解决VUE项目更新后需要客户手动刷新浏览器问题
  10. Linux系统到底是什么?
  11. 爬虫——bs4测试——test.html
  12. SQL按姓氏笔画排序
  13. 数据库候选关键词怎么求_数据库中主键、主码、主属性、关键字、候选关键字、码的区别...
  14. tomcat是什么?简单解释
  15. java 对比函数_java中字符串比较函数和操作函数,详细解析
  16. PIXI学习历程 -- 持续更新
  17. 点清垃圾渗滤液脱色剂的现场应用和数据
  18. 内存检测工具BoundsChecker使用详述
  19. 【区块链技术工坊46期】PPIO蒋鑫:椭圆曲线密码学简介
  20. 关于一个童年小游戏的一些想法

热门文章

  1. 研一下学期第九周周记
  2. VScode安装plantUML和graphviz的安装MAC
  3. 终极解决Chome浏览器的Axure插件问题
  4. 在阿里巴巴做中后台开发,是一种怎样的体验?
  5. 虚拟病毒分析与清除方法
  6. win7未授予用户在此计算机上的请求登陆类型,教你win7出现未授予用户在此计算机上的请求登陆类型提示怎么办...
  7. 一款爆红的开源爬虫工具箱
  8. 吉大正元php,吉大正元CA认证服务器与客户端以及配置文档
  9. 氢os android 7.0,一加氢OS用上Android 7.0后 网友惊呼:又快又省电
  10. 【HCIA-cloud】【3】服务器虚拟化之计算资源管理:FusionCompute的架构介绍与安装、使用iso方式安装CNA、VRM简介、CNA简介