php 让百度蜘蛛抓取403,百度蜘蛛不抓取页面的解决方法
该楼层疑似违规已被系统折叠 隐藏此楼查看此楼
我们都知道我们网站的页面要想被百度收录必须经过百度蜘蛛的抓取,因此我们要经常关注我们网站页面被抓取的情况,如果遇到不被抓取的情况,那么就要引起我们的注意,我们要分析原因并且解决它。下面我们来看看平顶山中平瑞达科技为我们介绍的内容。
一、查看百度蜘蛛是否抓取页面的方法
这就要查看它的日记文件,一般是以log为后缀。百度蜘蛛是百度用于抓取网页的程序叫,我们查看网站被百度抓取的情况主要是分析,网站日志里百度蜘蛛Baiduspider的活跃性:抓取频率,返回的 H T T P 状态码。
查看日志的方式:
通过 F T P ,在网站根目录找到一个日志文件,文件名一般包含log,下载解压里面的记事本,这即是网站的日志,记录了网站被访问和操作的情况。
因为各个服务器和主机的情况不同,不同的主机日志功能记录的内容不同,有的甚至没有日志功能。
分析:
GET /bbs/thread-7303-1-1.html 代表,抓取/bbs/thread-7303-1-1.html 这个页面。
200 代表成功抓取。
8450 代表抓取了8450个字节。
如果你的日志里格式不是如此,则代表日志格式设置不同。
很多日志里可以看到 200 0 0和200 0 64 则都代表正常抓取。
抓取频率是通过查看每日的日志里百度蜘蛛抓取次数来获知。抓取频率并没有一个规范的时间表或频率数字,我们一般通过多日的日志对比来判断。当然,我们希望百度蜘蛛每日抓取的次数越多越好。
二、百度蜘蛛不抓取页面的解决方法
1.网站及页面权重。
这个肯定是首要的了,权重高、资格老、有权威的网站蜘蛛是肯定特殊对待的,这样的网站抓取的频率非常高,而且大家知道搜索引擎蜘蛛为了保证高效,对于网站不是所有页面都会抓取的,而网站权重越高被爬行的深度也会比较高,相应能被抓取的页面也会变多,这样能被收录的页面也会变多。
2.网站的更新频率。
蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第一次收录的完全一样,说明页面没有更新,蜘蛛也就没有必要经常抓取了。页面内容经常更新,蜘蛛就会更加频繁的访问页面,但是蜘蛛不是你一个人的,不可能就在这蹲着等你更新,所以我们要主动向蜘蛛示好,有规律的进行文章更新,这样蜘蛛就会根据你的规律有效的过来抓取,不仅让你的更新文章能更快的抓取到,而且也不会造成蜘蛛经常性的白跑一趟。
3.文章的原创性。
优质的原创内容对于百度蜘蛛的诱惑力是非常巨大的,蜘蛛存在的目的就是寻找新东西,所以网站更新的文章不要采集、也不要每天都是转载,我们需要给蜘蛛真正有价值的原创内容,蜘蛛能得到喜欢的,自然会对你的网站产生好感,经常性的过来觅食。
4.内链建设。
蜘蛛的爬行是跟着链接走的,所以内链的合理优化可以要蜘蛛抓取到更多的页面,促进网站的收录。内链建设过程中要给用户合理推荐,除了在文章中增加锚文本之外,可以设置相关推荐,热门文章,更多喜欢之类的栏目,这是很多网站都在利用的,可以让蜘蛛抓取更大范围的页面。
5.首页推荐。
首页是蜘蛛来访次数最多的页面,也是网站权重最高的页面,可以在首页设置更新版块,这样不仅能让首页更新起来,促进蜘蛛的来访频率,而且可以促进更新页的抓取收录。同理在栏目页也可以进行此操作。
6.检查死链,设置404页面
搜索引擎蜘蛛是通过链接来爬行搜索,如果太多链接无法到达,不但收录页面数量会减少,而且你的网站在搜索引擎中的权重会大大降低。蜘蛛在遇见死链就像进了死胡同,又得折返重新来过,大大降低蜘蛛在网站的抓取效率,所以一定要定期排查网站的死链,向搜索引擎提交,同时要做好网站的404页面,告诉搜索引擎错误页面。
7.检查robots文件
很多网站有意无意的直接在robots文件屏蔽了百度或网站部分页面,却整天在找原因为什么蜘蛛不来抓取我的页面,这能怪百度吗?你都不让别人进门了,百度是怎么收录你的网页?所以有必要时常去检查一下网站robots文件是否正常。
8.建设网站地图。
搜索引擎蜘蛛非常喜欢网站地图,网站地图是一个网站所有链接的容器。很多网站的链接层次比较深,蜘蛛很难抓取到,网站地图可以方便搜索引擎蜘蛛抓取网站页面,通过抓取网站页面,清晰了解网站的架构,所以建设一个网站地图不仅提高抓取率还能获得蜘蛛好感。
http://www.gulaiyan.com/real/2017030951.html
http://www.gulaiyan.com/real/2017030950.html
http://www.gulaiyan.com/real/2017030952.html
http://www.gulaiyan.com/real/2017030953.html
http://www.gulaiyan.com/real/2017030954.html
http://www.gulaiyan.com/real/2017030955.html
http://www.gulaiyan.com/real/2017030956.html
http://www.gulaiyan.com/real/2017030957.html
http://www.gulaiyan.com/real/2017030958.html
http://www.gulaiyan.com/real/2017030959.html
php 让百度蜘蛛抓取403,百度蜘蛛不抓取页面的解决方法相关推荐
- 百度网盘虚假下载(文件已修改或删除)解决方法
百度网盘虚假下载(文件已修改或删除)解决方法 一.前言 二.解决思路 三.锁定的原因 四.解决方法 百度网盘虚假下载(文件已修改或删除)解决方法过程记录 不想看过程,只想看解决方法的朋友可以直接跳到- ...
- “HTTP 错误 403.1 - 禁止访问:执行访问被拒绝”解决方法
"HTTP 错误 403.1 - 禁止访问:执行访问被拒绝"解决方法 "HTTP 错误 403.1 - 禁止访问:执行访问被拒绝"解决方法 配置IIS的时候,如 ...
- php 让百度蜘蛛抓取403,百度蜘蛛抓取不存在目录 对应的解决方法
相信大家在分析百度蜘蛛日志的时候经常会发现一个问题,就是百度蜘蛛经常会抓取一些不存在的目录,比如:我网站没有这些目录,但是百度蜘蛛一直在抓取,或者你会发现百度蜘蛛在抓取自己的隐私目录,或者说php文件 ...
- 百度网盘安装在c盘显示系统权限限制的解决方法
只有一个c盘,安装百度网盘更改路径的时候出现系统权限限制的结局方法 刚买的笔记本只有一个c盘,想着把百度网盘放在一个新建的文件夹中,这样的话比较好管理 在更改路径的时候出现了报错:系统权限限制 我们需 ...
- Kubernetes k8s拉取镜像失败最简单最快最完美解决方法 [ERROR ImagePull]: failed to pull image k8s.gcr.io/kube-apiserver
问题 由于国内网络原因,kubeadm init会卡住不动,一卡就是半个小时,然后报出这种问题: [ERROR ImagePull]: failed to pull image k8s.gcr.io/ ...
- requests爬取中文网页时中文字符变英文的解决方法
在使用python requests库爬取网页时,源代码中的中文字符在爬取下来后变成了英文字符 例如: import requests r = requests.get('http://apps.we ...
- 百度网盘电脑登录二维码加载不出来解决方法
原因:百度云的二维码是依赖ie浏览器生成 所以方法:重置IE浏览器
- Nginx 403 forbidden 错误的五种原因及解决方法(详细)
搭建个人下载地址时,nginx访问时报403错??来5个原因帮你找到解决办法 首先报错先查看日志,这里查看nginx日志,路径为/var/log/nginx/error.log.打开日志发现详细报错如 ...
- php取到的时间总是差8小时的解决方法
从php5.1开始,在设置文件"php.ini"里面有一项叫做"date.timezone",可以设置服务器所在的时区.刚安装的php此项应该是注释掉的,这种情 ...
最新文章
- 手机浏览器推荐_推荐一款手机上最好用的浏览器
- uniapp H5页面使用uni.request时,出现跨域问题
- java数组二分查找的简单例题_Java基础-练习 数组元素二分查找(折半查找)
- 均匀白噪声的定义及特点_职业卫生噪声布点与检测实务
- FreeRTOS时间管理
- python的魔法_python魔法方法大全
- 实战_06_SpringBoot整合redis-cluster集群版本
- 【Java】用Jackson进行JSON序列化/反序列化操作
- 不知道从哪里开始更新你的秋季海报设计?
- LeetCode() Search in Rotated Sorted Array
- 台式计算机显卡驱动位置,如何在HP台式计算机上安装图形驱动程序
- 电工与电子技术和电子电工的区别
- WIN7系统VC6中添加OCX出现“不支持此接口” 问题的解决方法
- Java代码实现使用while循环接受键盘的输入,如果输入的exit就退出,否则提示用户继续输入
- stm32学习之定时器中断时间设置与计算
- Simulink simscape绳索和滑轮的使用总结
- go区块链培训学习:密码学算法家族
- 【ESP8266-NodeMCU软硬串口通讯】
- 算法 algorithms
- 一些常用的正则表达式例如邮箱,手机号等