原出处:蜘蛛池博客
原文链接:SEO除了“中文分词”还有“文本分析” - 蜘蛛池博客

对于刚入职的SEO人员,日常工作中,我们很少谈论“中文分词”与“文本分析”,但在实际的SEO项目操作中,一个成熟的SEO运营,有必要的进一步对二者进行加以了解。

理由很简单,它是搜索引擎的工作原理中最基础,而又十分重要的因素之一,在此之前,我们更多的是对“中文分词”的了解,而本文,我们也会进一步讨论:文本分析在SEO中的重要性。

那么,SEO如何理解:中文分词与文本分析?

根据以往SEO关键词优化的经验,蜘蛛池博客小编将通过如下内容,进一步阐述二者的重要性:

1、中文分词

简单理解:在SEO优化的过程中,我们偶尔会遇到这样一种情况,那就是当你检索某一个特定词组的时候,你会发现网页title中,并没有包含特定的完整关键词,而该页面却在SERP中,排名第一。

这就要提到我们:中文分词对页面相关性的理解,实际上,对于任何一个内容页面,搜索引擎都会常识抓取与识别页面词组,利用一个个词组的频率,通过复杂的算法,进行页面相关性的识别,从而参与到索引排序中。

通常而言,中文分词算法主要包括如下四个策略:正向最大匹配法、逆向最大匹配法、最少切分、双向最大匹配法。

当然,中文分词是一个动态更新的过程,每天都会产生大量的新词汇,对于搜索引擎而言,它需要利用一定周期学习,一般而言它基于词典(类似于海量关键词库)以及相关统计方法,进行筛选与相关性计算。

一般而言,一个内容页面,在分词后,被搜索引擎会按照简单的四个要素,进行基础性分类,比如:

① 关键词

② 词性(关键词的属性,名词、动词、形容词等)

③ 频率

④ 权重(它类似于关键词密度)

从而经过一些列的数据分析与评估,进入倒排索引的序列,用于用户检索时,给出相应的搜索结果。

2、文档分析

相对于中文分词而言,如果说它是从词的角度理解页面内容,而经过蜘蛛池博客小编多年的实战经验,则认为文档分析,则更加强调页面结构的属性,它主要包括:

① 字数统计:内容页面,可识别文字的数量,侧面反应页面的长度。

② 项目符号:段落中使用的逻辑符号,以及文本内容中,特有表情字符的利用。

③ 逻辑结构:它主要包括段落行文结构,内在的逻辑关系,以及相关性词语的使用。

④ 文本标签:常见页面标签的使用,比如:H标签与<strong>标签等。

⑤ 文本比率:在早期一篇关于SEO代码优化的文章中,我们进行了详细的阐述。

其中,文档分析中所涉及的相关元素,使得每个页面,具有一定的独立性,在成千上万页面中,具备一定的稀缺性,特别是针对相关影响因子,统计分析,它与网站排名之间的关系。

因此,文档分析在SEO的工作中,显得格外重要。

蜘蛛池博客小编总结:与其说,中文分词,让我们深刻理解,页面相关性的问题,而文档分析,则是让页面脱颖而出的一个利器,而上述内容,只是针对相关概念的简单阐述,涉及的原理只是冰山一角,仅供参考。

laravel 分词搜索匹配度_SEO除了“中文分词”还有“文本分析”- 搜狗蜘蛛池博客...相关推荐

  1. php关键词分词搜索 最多匹配的排在最前面_百度搜索引擎工作原理,做Seo的建议看一看 - 蜘蛛池博客...

    原出处:蜘蛛池博客 原文链接:百度搜索引擎工作原理,做Seo的建议看一看 - 蜘蛛池博客 从事SEO(搜索引擎优化)工作的人可以比喻成搜索引擎的贴身管家,作为一名合格称职的管家必须要了解所服务对象的习 ...

  2. laravel 分词搜索匹配度_DSSM文本匹配模型在苏宁商品语义召回上的应用

    文本匹配是自然语言处理中的一个核心问题,它不同于MT.MRC.QA 等end-to-end型任务,一般是以文本相似度计算的形式在应用系统中起核心支撑作用1.它可以应用于各种类型的自然语言处理任务中,例 ...

  3. laravel 分词搜索匹配度_【地名地址】面向智慧城市的高精度地名地址匹配方法...

    点击上方蓝字关注我们↑↑↑↑    原 文 摘 要 针对智慧城市建设中各种业务数据对地名地址匹配准确度和效率不高的问题,本文提出一种面向智慧城市的高精度地名地址匹配方法.该方法在基于中文分词的地名地址 ...

  4. laravel 分词搜索匹配度_搜索引擎工作原理

    抓取网页.每个独立的搜索引擎都有自己的网页抓取程序爬虫(Spider).爬虫顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页.被抓取的网页被称之为网页快照.由于互联网中 ...

  5. laravel 分词搜索匹配度_elasticsearch基础笔记9-elasticsearch 词项全文搜索

    es的核心功能就是搜索和分析.那么我们看看搜索相关内容 1.搜索机制 在进入搜索之前,会对查询体根据情况进行分析和处理. 2.有哪些常用搜索类型 全文查询 词项查询 复合查询 嵌套查询 位置查询 特殊 ...

  6. 计算机毕设分词,毕业设计(论文)+计算机科学与技术+中文分词方法研究与实现论文全文.doc...

    毕业论文 中文分词方法研究与实现 计算机工程系学生姓名: 学号: 计算机工程系 计算机科学与技术系 部: 计算机科学与技术 专 业: 指导教师: 诚信声明 本人郑重声明:本设计(论文)及其研究工作是本 ...

  7. “结巴”中文分词:做最好的 Python 中文分词组件

    jieba "结巴"中文分词:做最好的 Python 中文分词组件 "Jieba" (Chinese for "to stutter") C ...

  8. python 分词工具对比_五款中文分词工具在线PK: Jieba, SnowNLP, PkuSeg, THULAC, HanLP

    最近玩公众号会话停不下来: 玩转腾讯词向量:Game of Words(词语的加减游戏) ,准备把NLP相关的模块搬到线上,准确的说,搬到AINLP公众号后台对话,所以,趁着劳动节假期,给AINLP公 ...

  9. java中文分词算法_Java实现逆向最大匹配中文分词算法

    写道 //Java实现逆向最大匹配中文分词算法 public class SplitChineseCharacter { public static void main(String[] args) ...

最新文章

  1. 冯怡:我想给大家展示一种可能性(图灵访谈)
  2. ALEIDoc EDI(6)--Filter Conversion
  3. Mockito 的使用
  4. c语言数字字体的格式,c语言—— 格式控制符—— 数据类型——相对应的字节数...
  5. note4 android8,Note4配三枚麦克风 可同时录制8个声音
  6. k8s 拉取镜像失败_k8s 拉取私有仓库失败
  7. 数据结构 2-0 线性表总结
  8. 波士顿动力十年对比刷屏,网友:以后该不会变成终结者吧?
  9. leetcode 13 13. 罗马数字转整数 (python)
  10. android 解压gzip,在Android中使用GZIPInputStream解压缩数据
  11. [转]制作适合手机的网页遇到的问题
  12. listview mysql源码_用ListView实现对数据库的内容显示
  13. IDEA打包Springboot项目,运行
  14. 关于博弈论中的一硬币正反问题的分析
  15. JSP学习笔记(八):使用ArrayList
  16. 华为自带浏览器无法使用
  17. Macbook Pro(M1芯片)腾讯会议无法使用共享屏幕功能
  18. 51单片机c语言工作手册,51单片机C语言编程手册
  19. Instant Contiki 安装笔记——SDCC和CC2530
  20. 树莓派浏览网页,显示无法打开此网址

热门文章

  1. Git的commit之后的撤销reset
  2. PHP调用JS/CSS方法
  3. rar for android最新版,RAR for Android手机版下载-RAR for Android 安卓压缩软件v5.30 安卓版下载-腾牛安卓网...
  4. TortoiseSVN每个菜单项都表示什么意思
  5. python udp编程_在Python下进行UDP网络编程的教程
  6. java线程6种状态转换,java6种线程状态
  7. open dwg file_体育直播间 | 时隔六年,又一次中韩对决!S10全球总决赛SN对战DWG!...
  8. js中货币格式化方法
  9. Linux753权限,linux的chmod与chown命令详解
  10. matlab操作入门实验报告,matlab操作实验报告