如何通过 User-Agent 识别百度蜘蛛
如果有大量的百度蜘蛛抓取网站就需要注意了:有可能是其他爬虫伪造百度蜘蛛恶意抓取网站。
如果遇到这种情况,这时候就需要查看日志来确定是不是真正的百度蜘蛛(baidu spider)。搜索引擎蜘蛛、用户访问、爬虫等访问都会留下 User-Agent。
我们可以通过 User-Agent 大概判断是不是百度蜘蛛(baidu spider)。
百度 User-Agent 主要有以下几个:
百度 PC 蜘蛛 User-Agent 是:
Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
百度移动蜘蛛 User-Agent 是:
Mozilla/5.0 (Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko) Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
还有一个是 Baiduspider-render/2.0 User-Agent 是:
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
这个 Baiduspider-render/2.0 主要是为了给搜索用户更好的体验、对站点实现更好地索引和呈现,百度搜索需要访问网站的 CSS、Javascript 和图片信息,以便更精准地理解页面内容,实现搜索结果最优排名,百度搜索会全面启用最新 User-Agent 来访问站点的上述资源。
Baiduspider-render/2.0 不同于 Baiduspider/2.0,Baiduspider-render/2.0 可以获取 Javascript 内容,实现动态渲染。
还有其他的百度产品的 User-Agent:
百度图片搜索 User-Agent:
Baiduspider-image+(+http://www.baidu.com/search/spider.htm)
百度视频搜索 User-Agent:
Baiduspider-video
百度新闻搜索 User-Agent:
Baiduspider-news
百度搜藏 User-Agent:
Baiduspider-favo
百度联盟 User-Agent:
Mozilla/5.0 (compatible; Baiduspider-cpro; +http://www.baidu.com/search/spider.html)
商务搜索 User-Agent:
Baiduspider-ads
以上总结了百度所有产品的 User-Agent,但是仅仅通过 User-Agent 识别百度蜘蛛(baidu spider)是完全不够的,因为 User-Agent 完全可以被伪造。
如何伪造 User-Agent 与如何通过 IP 识别百度蜘蛛(baidu spider)我将在以后的文章中详述。
参考资料:
1、爬虫识别 - 百度蜘蛛
2、站长平台 - 常见问题解答
如何通过 User-Agent 识别百度蜘蛛相关推荐
- php判断百度ua展示不同页面,通过UA或反查IP两种方法识别百度蜘蛛【官方说法】...
我们在分析访问日志时,往往要判断各种来路,包括各种搜索引擎来路.真实访客来路.直接输入来路.网页推介来路.各种蜘蛛来路等,而对于蜘蛛来路而言,百度蜘蛛又尤为重要分析的部分.那么我们如何识别百度蜘蛛呢? ...
- 只需两步,教你正确识别百度蜘蛛
经常听到站长们问,百度蜘蛛是什么?最近百度蜘蛛来的太频繁服务器抓爆了,最近百度蜘蛛都不来了怎么办,还有很多站点想得到百度蜘蛛的IP段,想把IP加入白名单,但IP不固定,这些百度方面并未透露相关信息. ...
- 摄像头最多的ip段精品分享_逆冬:百度蜘蛛大全、识别百度蜘蛛小技巧分享!...
最近一直有兄弟问关于百度蜘蛛的技巧.下面整理了百度常见的蜘蛛分享给大家.希望可以帮助大家! 一.123开头IP段蜘蛛 123.125.66.* 代表百度蜘蛛预备抓取. 123.125.68.* 每天这 ...
- 真假蜘蛛识别php,两招教你轻松识别百度真假蜘蛛(实操教程)
经常听到站长们问,百度蜘蛛是什么?最近百度蜘蛛来的太频繁服务器抓爆了,最近百度蜘蛛都不来了怎么办,还有很多站点想得到百度蜘蛛的IP段,想把IP加入白名单,但IP不固定,我们无法对外公布. 那怎么才能识 ...
- 简单介绍使用Nginx限制百度蜘蛛频繁抓取的问题
这篇文章主要介绍了使用Nginx限制百度蜘蛛频繁抓取的问题,百度蜘蛛对网站的抓取频率高和抓取量骤增导致服务器负载高,经常收到警告信息,每分钟允许百度蜘蛛抓取200次,超过频率限制的返回503,对Ngi ...
- 百度蜘蛛动态网页ajax,百度SEO优化百度蜘蛛可读内容
百度通过一个叫做Baiduspider,一般被称为百度蜘蛛的程序抓取互联网上的网页,百度蜘蛛抓取时先分析内容的质量是否有抓取的必要,如果内容质量太低,百度蜘蛛认为没有抓取的必要,那么百度蜘蛛就不抓取该 ...
- php通过函数怎么禁止百度蜘蛛抓取,怎么屏蔽百度蜘蛛抓取网站?
百度蜘蛛抓取我们的网站是希望将我们的网页收录到它的搜索引擎里,未来当用户搜索时,能为我们带来一定的SEO流量.当然我们并不是希望搜索引擎什么都抓取. 所以,这时我们只希望我们希望在搜索引擎被搜索到的内 ...
- 日志分析之识别真假蜘蛛与处理办法
导读(日志分析是站长必须要做的事情,如果一个网站主或者seoer不对日志进行分析,那么他绝对不是一个合格的站长.日志分析相关知识很多,我相信大部分站长对基础分析都会掌握,但是一些深入的日志分析问题可能 ...
- 真假蜘蛛查询工具-一键识别虚假蜘蛛
工具亮点 搜索引擎蜘蛛查询工具,是实时通过nslookup检测,具有很高的时效性和准确性! 蜘蛛IP查询工具支持:谷歌.百度.搜狗.必应.yandex.360搜索等蜘蛛识别: 工具地址:真假蜘蛛IP查 ...
- 镇江SEO外包:如何识别百度免费收录的坑?
对于在镇江做SEO而言,我们通常情况下,由于人力资源与时间精力有限,我们通常选择镇江SEO外包,将自己的业务,交给镇江SEO机构,代理完成. 但在实际交流与沟通的过程中,镇江SEO外包的相关团队经常会 ...
最新文章
- 看看那些在公众号留言中的照片
- 全球与中国激光投影设备市场前景规划与发展战略建议报告2022-2028年版
- extern相关问题
- 程序员为什么爱穿格子衫和卫衣?
- 【flink】Flink源码编译:Flink1.11+版本编译及部署
- 荐书丨被Dubbo虐过吗,反击开始!——《深入理解Apache Dubbo与实战》
- 解决Required String parameter xxx is not present异常
- 通过linux内核如何读取pmbus总线上的数据,Linux内核中读写文件数据的方法
- vs编译与停止调试时卡顿、无响应的问题
- Redis数据丢失问题
- 海康卫视摄像头yolo检测,转换gps,用高德api借口显示点
- Python免费的验证码识别
- 论OIer谈恋爱的必要性
- uniapp 微信小程序开发 图片上传压缩
- docker logs
- STM32HAL库RTC闹钟事件
- IDEA怎么查看现在的项目使用的JDK版本?
- Android 底层知识拾零,字节跳动Android高级工程师
- c语言表达式 amp amp,amp;amp;在C语言中是什么意思
- android 图库管理,Android调用系统图库