网站SEO实践之 - 解决网站不收录的必备思路


网站不收录可谓说是老生常谈了,太多SEO从业者有遇到这样的问题而无从下手,导致苦恼万分。我们解决网站不收录的问题前,应该思考一个问题:“让网站收录的影响因素都有哪些呢?”,先弄明白这件事情,然后再去解决收录的问题就会变得很有头绪。

案例分析

我在刚加入环球网校的时候,他们的网站(www.hqwx.com)已经将近1年的时间在百度的收录少之又少。在我去应聘的时候,CEO知道我在SEO方面有些能力,就令我尽快解决网站不收录的问题。

首先,我只是听到公司的人和我说这个网站不收录,那到底是哪里不收录、怎么不收录我完全不清楚,所以我开始了数据整理和问题排查的工作。

将网站按照类型做分类,分为了频道页、列表页、专题页、聚合页以及新闻页5类。然后和技术沟通将这5类URL全部导出给我(新闻页,由于很多考试相关的新闻具有时效性,所以我只导出了30天的数据),然后我按照不同的分类开始收录查询工作。最后收录查询的结果如下:

如上图,我发现公司人员和我反馈的网站不收录,具体的问题是在新闻页。而环球网校的新闻是面向考试的信息发布、资料发布等。是具有一定时效性的文章,按理说这么大的网站应该秒收才对。

于是,我和相关人员要了网站最近7天的网站日志,技术给我的是原始的网站日志,既包含了爬虫数据也包含了用户数据等等,没办法,只能自己清洗一下这些数据了。

SEO清洗网站爬虫日志的流程

1、我先按照user-agent包含baiduspider的进行过滤,只保留包含baiduspider的数据,这样我就拥有了百度爬虫的数据;

2、但百度爬虫数据中,也有很多假爬虫,按照ip反查的思路,我先把所有baiduspider的ip地址拿下来,然后去重;

3、得到600多个不重复的唯一ip地址。我对这些ip地址通过程序批量识别真假爬虫,最后是真爬虫的ip地址有82个;

4、我再在第一步的所有爬虫数据中进行过滤,只保留ip地址为真的百度爬虫的这82个。最后得到的数据就是真的爬虫数据了;

5、我将最近7天内发布的url在这个清洗后的日志中进行查询,最后发现所有的新页面在发布后的1分钟内爬虫都有抓取,可想抓取是多么的及时,并且在第二天、第三天都还会有对这篇文章的抓取。

最终我看到爬虫抓取的行为数据表现很好,应该不是抓取上出了问题。

然而,在我分析日志之前,也和技术、产品、运维同步了一个需求,我需要1年前网站突然开始不收录那个大概时间节点他们各部门都做了什么改动。就在我分析完日志的晚上,技术老大找到我说,他想起来当年是因为网站被攻击,大量注入了很多的垃圾数据后,网站收录才出现异常的。

我可能知道问题就出在这里,但为了更全面的考究问题,我还是让他们按规定把之前做的一些改动同步给我。

第二天早上我就开始围绕网站被攻击的问题与技术进行了彻底的排查,看网站之前被注入的垃圾信息有没有清除干净。最后确认垃圾信息早就彻底清除了,且正确返回了404状态码和404错误页面。

然后我怀疑是不是百度没有修正我们的状态,被攻击的时候开始不收录正常,毕竟检测到了我们网站的风险,那时隔一年还是如此,一定是百度的问题。我通过百度的反馈中心详细的说明了问题的始末,然后百度的技术也在一直排查,我等了有一周时间没见回复,其他部门也把之前的一些调整和改动都给我了,我也确认那时大家的做法没有问题。

于是,我主动联系了百度站长平台的朋友,希望他们能够尽快处理,查明问题。

可最后我得到的结论是百度也没发现什么问题,据说几个部门的技术针对我的问题还各自筛查一遍,没找到问题。好吧,百度的兄弟已经给足了面子,能这么帮咱跟进需求很到位了。还是靠自己,这毕竟是我入职CEO的第一个托付,一定要搞定。

我也找了我们的编辑,询问并且检查文章本身的质量问题,大家和几年前一样,一直按部就班的发着信息,没什么变化。及时性、可读性、需求满足度都可以保证。具体是哪出了问题呢?

我思前想后,会想到问题的本质是开始于网站被攻击开始的,那如果真的是百度没反应过来的话,我就要让百度重新对我的新闻页进行计算,以重新评估这类页面。于是我有了对新闻页改版的念头。

开始与产品沟通,但他们忙,无奈下,我独挑大梁,自己画原型开干了。

通过对页面的重新设计、丰富了内链的链接策略,也增加了很多广告自定义的场景。通过20多天的努力,新的页面上线了。

由于网站每天发布的新闻很多,大约在几百条,所以我写了一个收录查询的程序,每天这个程序都会自动帮我查收录,然后以excel附件的形式发到我的邮箱,我进行查看。

就在新版的新闻页上线的第4天,收录率从之前每天的1~5个,突然有100多个了,收录率之前都是零点零几,现在有40%多了,又过一天82%,再过一天79%,又过一天85%,就这样80%上下持续了一周的时间,到了下周突然达到了97%,而且是秒收的。然后中间也有个别的天是浮动的。但整体都在95%上下。

到这,我认为收录问题彻底解决了,很多编辑的同事也早就知道了这个事情。现在几年过去了,我策划的新闻页仍在,且收录情况一直良好。

下图是我刚查询环球网校最近一天的收录情况:

时间上有10分钟前、15分钟的。由于你也想查一下的话,而且整体数量也在几百条的数量上。

思路总结

1、锁定网站不收录的是哪类型的页面,就像案例所说,最终我锁定到了新闻页;

2、思考网站不收录的这个时间点内,对网站有改动权限的人都做了什么,这些改动会不会是网站不收录的原因;

3、分析网站的日志,看不收录的那个网站类目是不是有抓取,没抓取就是抓取问题,有抓取就不存在问题;

4、当网站改动上没问题,抓取没问题。就在站长工具反馈中进行详细的反馈;

5、反馈的同时也可以对该类型的模版页面进行适当的调整,例如增加链接入口、增加网页丰富度,新闻页提高原创比例,文章内容的质量程度。

6、要是还不能收录的话,就对当前类型的模版页面进行大改版,重构页面进行尝试。

网站SEO实践之 - 解决网站不收录的必备思路相关推荐

  1. jstl处理栏目与子栏目_深圳北易:网站SEO优化如何提高网站栏目页排名

    如今越来越多的企业都有网站,做优化的网站也越来越多,但是在搜索引擎被收录的网站就只有首页,其实可以让网站的每个页面(首页.栏目页.内容页.产品页)都被收录.只要每个月页面都设置相应的关键词,网站的整体 ...

  2. 网站seo优化需要从网站的哪些方面进行优化工作

    网站seo优化是很多企业都在做的一种线上推广模式,如果企业网站优化做的好,那么网站流量和网站关键词排名将随之增多,而很多企业的高层不懂得网站优化技术,因为他们没有接触过seo优化这个行业,因此对此不是 ...

  3. 把百度网站设为首页_大仙SEO:如何解决网站首页百度收录后被删除?【SEO案例】...

    前天(5/20)看数据的时候,发现5118数据直线下降,跌的有些厉害,猜测网站应该出问题了.这个时候不要慌(内心实则慌的一批),在等等看,会不会是百度自身的一些调整.算了分析分析网站吧!site看网站 ...

  4. php 地图 显示 客户位置_网站SEO优化_PHP程序网站怎么做优化 _SEO优化|SEO推广|SEO服务|上海SEO...

    作者:Yadmin日期:2020-12-11网址: 如今seo基本上已经是在广泛的应用了,php程序的企业网站也越来越多,其实我之前一向喜好用asp的,但是发现许多国外的空间如今不支撑asp,所以也就 ...

  5. 大型网站seo优化之行业网站seo优化具体操作思路

      第一部分:站内优化 第二部分:站外优化 第三部分:内容建设 第四部分:网站完善 一.站内优化 1.站内结构优化 2.内链策略 3.站内细节优化 4.网站地图设置 5.关键词竞争度分析 5.关键词部 ...

  6. 网站服务器回档,如何解决网站快照回档?

    原标题:如何解决网站快照回档? 一般来说SEO人员会很在乎百度快照更新频率,如果自己优化的网站首页快照每天都会更新,那么就说明了网站运行的状态良好.那么,网站百度快照更新不及时,或者出现了快照回档,我 ...

  7. 网站SEO优化多少钱 网站seo优化费用多少

    网站SEO优化多少钱?seo优化其实就是做自然排名,百度快照,如果排名做上去后,而且网站用户体验还可以的话,那进来的流量都是免费的.那么网站SEO优化多少钱呢?或者说网站SEO优化价格是多少呢?不妨一 ...

  8. 网站SEO实践之 - seo引流怎么选有流量的关键词

    seo引流怎么选有流量的关键词 seo流量渠道在PC时代曾经是王者一样的存在.虽然现在是移动时代,但SEO引流还是最低成本的流量获取渠道.移动时代,百度是几大搜索引擎里做的最好的,移动端的搜索流量,百 ...

  9. 404 网站服务器错误怎么解决,网站404错误页面是什么意思,它有什么用?

    在我们浏览网页时,时常会出现一些404页面,导致无法正常浏览网页,那么什么是404呢,为什么会产生404页面呢?下面我们一起来看看. 404介绍 404其实是一种http状态码,代表用户在浏览网页时, ...

最新文章

  1. 基于简化点云地图的语义边缘对齐的单目定位方法
  2. sdio接口_多种接口的谷歌Coral模块,总有一款适合您~
  3. JMeter java.net.URISyntaxException:Illegalcharacterinquery解决方案
  4. Css中路径data用法
  5. 结合随机微分方程,多大Duvenaud团队提出无限深度贝叶斯神经网络
  6. 最值反演[PKUWC2018][loj2542]随机游走
  7. mockito 单元测试_使用FizzBu​​zz和Mockito进行单元测试
  8. 编译原理中词法分析--部分实现
  9. 神经网络为什么需要随机初始化模型参数
  10. html5有本地存储吗,HTML5的本地存储
  11. 中文信息处理——分词评价程序(计算分词结果的准确率,召回率,F测度)
  12. vnc连接linux颜色灰色,关于vnc登录界面为灰色解决办法【p13】.pdf
  13. 分三种情况C语言编程,吴进的256basic.h阅读笔记,请问scanline_copy子程序为什么要分三种情况考虑:(1)d...
  14. ubuntu 14.04 install teamviewer
  15. QinQ、VLAN Mapping原理和配置
  16. 关于RIGOL可编程电源连接说明(网口连接)
  17. 转 activity的launch mode
  18. [保研直硕直博经验分享-2019] (上海交大计算机系夏令营+九推)
  19. Java微信公众平台开发之群发接口(高级群发)
  20. C# 字符串中去掉换行符、间隔符等特殊字符

热门文章

  1. 使新版Edge支持iCloud同步
  2. 触动精灵远程Log模块
  3. 玩转云镜像制作之packer篇
  4. python动态库反初始化_解决TensorFlow的ImportError: DLL load failed: 动态链接库(DLL)初始化例程失败...
  5. 弘辽科技:淘宝全款预售合法吗?什么叫淘宝全款预售?
  6. java递归实现树形结构数据
  7. 基于Dlib库的人脸表情分析与识别——Python
  8. UI之PS操作(一)操作(一)
  9. Excel教程(13) - 统计函数
  10. SUMO修改车辆形状