两个问题

在准备采集前找词的时候,有个蛋疼的问题:

无论任何一种找词渠道,固定搜索词(如阿拉巴巴招聘)和个性搜索词(如阿里巴巴工程师级别怎么划分)总是杂糅到一块的,对于同一词根下的扩展词,如何将这两类词分开?

固定搜索词往往可以根据固定词缀的出现次数来预估关键词的流量,毕竟同一个词缀出现次数高,流量也会相对高。但个性化搜索词流量和竞争度怎么判断?

为什么非要把两类词找出来呢?因为这两类词的

如何将固定搜索词和个性化搜索词分开

因为固定搜索词都包含通用的词缀,比如:

php工程师工资、java程序员工资、学php有前途吗、

1

php工程师工资、java程序员工资、学php有前途吗、...

这里面“工资”就是通用词缀,前面可以跟任何关于职位的变量。

程序搞定?

所以可以通过程序分词,把包含连续出现多次词缀的关键词单独提出来,这点可以通过

然而实际中,由于jieba默认词典的限制,导致在不同行业内分词不理想的情况,比如没有把通用词缀单独切出来,致使后面聚类的效果也不理想的情况。

要达到理想情况,就要不断优化jieba分词词典和聚类算法。

但本渣渣是伪技术,只会装逼。即便能搞定也得花挺长时间。

人肉搞定?

人肉搞定思路就很简单了

首先把全行业所有的固定搜索行为全部找出来,比如这是招聘行业的固定搜索行为,即便不全也可以覆盖大部分:

当把固定搜索行为找出后,就知道这个行业都有哪些通用词缀,剩下的事简单了,还是照常跑词,把跑出来的词包含通用词缀的全部拎出来,剩下的就都是个性化搜索词了。这完全是个力气活,拼体力。

全行业固定搜索词怎么找?之前本渣渣写过,详见:【SEO】关键词数据分析

个性化搜索词流量怎么判断

简单的就是跑指数了,爱站和战神软件都有这功能。但如果大部分都没有指数怎么办?

相对精准的搜索量本渣渣也不知道该怎么判断,但是可以从关键词来源渠道来评个优先级。

比如移动端跑出来的词一定比从pc端的优先级高。

百度相关搜索的词一定比凤巢的优先级高(凤巢的词都被做烂了,小站没机会)

如果要上的内容类型是问答类的,那百度知道相关搜索词一定比百度新闻相关搜索词优先级高

个性化搜索词竞争度怎么判断

本渣渣就粗暴的看百度搜索结果

搜索结果数越低,竞争度越低,而且title放别人做的少的词被收录的概率也会大

前10搜索结果中,关键词飘红的次数,次数越低,竞争度越低

{word} site:(domain1 | domain2 | domain3) ,看一下几个大网站有没有做,尤其是58赶集、1688这种流氓,因为这些超大型站点做的词,大中型站点也跟着做,超大中型站点都抢的词,就没小站什么事了

python seo 采集内容_SEO如何处理采集内容(4)–转自{GoGo闯}相关推荐

  1. 火车头php post提取内容,【火车头采集教程】轻而易举学会火车头采集(附带采集案例)...

    咔咔不会用python,也没打算为了爬点东西就去学python.时间成本不允许我这样做 于是咔咔使用了一款工具,火车头采集工具 这款工具学会了很简单,不会的全是问题 下来咔咔会把这个工具的从开始到结束 ...

  2. DiscuzNT改造-远程内容自动采集-DNT2.5(定时采集、源码下载)

    这个采集器原型来自于 <Discuz!NT论坛超级采集器普及版>http://nt.discuz.net/showtopic-46542.html,感谢原作者! 使用说明: 1. 将运行程 ...

  3. php 开源 采集,迅睿CMS 火车头内容采集

    采集工具:火车采集器 v7.6 采集模块:新闻 News 一.编写采集入库脚本接口 新建:./api/caiji.php /** * 数据采集 */ define('IS_API', basename ...

  4. 火车头采集翻页内容_火车头采集器教程:使用分页采集有分页的数据

    使用分页采集有分页的数据 分页就是目标网站上一个文章分为好几页,我们需要设置规则将其全部采到.采集要点: 1.采集规则要对每个分页都适用. 2.分页规则如果是全部列出,只要第一个页面的分页规则就可以了 ...

  5. 火车头 采集 java 生成正文_火车头采集器使用教程–采集内容发布规则设置

    火车头采集器使用教程–采集内容发布规则设置 前面我们讲了怎么寻找网站,以及采集文章链接和内容,下面我们就说一下内容发布相关的设置. 因为我教程里都是设置好的发布规则,所以这里我就简单介绍下各个项目. ...

  6. 大数据信息资料采集:视频信息采集及评论内容爬取八爪鱼采集规则

    大数据信息资料采集:视频信息采集及评论内容爬取八爪鱼采集规则 数据采集满足多种业务场景:适合产品.运营.销售.数据分析.政府机关.电商从业者.学术研究等多种身份职业. 舆情监控:全方位监测公开信息,抢 ...

  7. seo日常工作表_SEO日常工作内容主要有哪些

    L氪迹在这里详细讲解SEO日常工作的主要内容以及各类工作内容重要性.频率和作用,下面进入主题: 第一项:查看网站基本数据 工作内容简述:快照.首页及其他页面重点词排名.整站关键词排名.权重.收录.友链 ...

  8. 「seo目录」白帽SEO是什么一天工作内容

    「seo目录」白帽SEO是什么 对于SEO来说,每天工作前大多数时用爱站工具去查询关键词排名了解昨天数据,查看站长统计流量与关键词来路,对于部分词作下统计:分析同行网站,观察对手变化:分析网站上升与下 ...

  9. SEO优化工具:PHPCMS采集工具

    免费PHPCMS采集,是一站式网站文章采集.原创.发布工具,快速提升网站收录.排名.权重,帮助站长们维护网站内容,批量管理网站.想要快速提升网站收录率,又没有那么多经验和精力,怎么办?可以借助工具来完 ...

  10. 一篇文章教会你利用Python网络爬虫实现豆瓣电影采集

    点击上方"IT共享之家",进行关注 回复"资料"可获赠Python学习福利 [一.项目背景] 豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服务. ...

最新文章

  1. 基于U-Net系列算法的医学图像分割(课程设计)
  2. PHPRPC for PHP
  3. shell 判断字符串是否存在包含关系
  4. Android开发之高仿百度地图底部滑出菜单
  5. 存储过程循环遍历一个月的每一天的函数_JavaScript 循环:如何处理 async/await
  6. dbms_DBMS | 并发控制
  7. qml学习文档-转载
  8. linux 系统忘记数据库root密码
  9. CentOS下rsync数据同步备份
  10. 相加等于目标值的两个数
  11. 数据库应用(MySQL客户端工具:Navicat/SQLyog)
  12. 【echarts柱状图最大高度】echarts柱状图限制柱子最大高度方法
  13. 爬虫抓取百度指数思路总结
  14. 识别PDF文字,教你两招
  15. 理解 Flexbox:你需要知道的一切
  16. 阿里云与线下IDC对接IPsec虚拟专用网络
  17. thinkphp使用编辑器kindeditor
  18. 《我的初恋、我的老婆》超爆笑!!
  19. 声纹识别概述(1)初识
  20. IOS打开Micosoft文档

热门文章

  1. python爬取在线视频思路,用python实现多线程爬取影视网站全部视频方法【笔记】...
  2. OUC_SE_Group04_Blog1
  3. 生成式对抗网络(GAN)相关问题汇总(较全面)
  4. 那些年你错过的房子 1980-2017年记录: 深圳真实房价
  5. 拼多多卖家必知:店铺评分和评价那点事
  6. 蓝牙模式-Inquiry and Page详细解析含参数
  7. bind9 域名劫持_域名劫持会怎样?如何解决域名劫持
  8. 《Metasploit 魔鬼训练营》03 情报搜集技术
  9. ewebeditor php漏洞,ewebeditor for php任意文件上传漏洞
  10. ewebeditor 2.8.0目录遍历漏洞——漏洞复现