今天分析研究了两个网站的 Apache 日志,分析日志虽然很无聊,但却是很有意义的事情,比如跟踪 SPAM 的 User Agent。顺便整理出一些搜索引擎爬虫的 User Agent,在这里分享一下,也欢迎补充。

微软

“msnbot-media/1.1 (+http://search.msn.com/msnbot.htm)”
msnbot,大多数已经被bingbot替代了,现在偶尔还可以看到。

“Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)”
bing,必应

搜搜

“Sosospider+(+http://help.soso.com/webspider.htm)”
腾讯搜搜

“Sosoimagespider+(+http://help.soso.com/soso-image-spider.htm)”
搜搜图片

雅虎

“Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)”
雅虎英文

“Yahoo! Slurp China”
“Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)”
雅虎中国

搜狗

“http://pic.sogou.com” “Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”
搜狗图片

“Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)”
搜狗,搜狗的蜘蛛程序做的很不好,总是进入死循环,已经分别在 robots.txt 和 设置中屏蔽掉

Google

“Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
Google

“Googlebot-Image/1.0”
Google图片搜索

“Mediapartners-Google”
未知

“FeedBurner/1.0 (http://www.FeedBurner.com)”
feedburner

“AdsBot-Google-Mobile (+http://www.google.com/mobile/adsbot.html) Mozilla (iPhone; U; CPU iPhone OS 3 0 like Mac OS X) AppleWebKit (KHTML, like Gecko) Mobile Safari”
Adwords移动网络

百度

“Baiduspider-image+(+http://www.baidu.com/search/spider.htm)”
百度图片

“Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)”
亲爱的百度蜘蛛

“Mozilla/5.0 (Windows; U; Windows NT 5.1; zh-CN; rv:1.9.2.8;baidu Transcoder) Gecko/20100722 Firefox/3.6.8 ( .NET CLR 3.5.30729)”
baidu+Transcoder 是用户用手机浏览网站留下的记录,Transcoder 是代码转换器,把网站转码成手机用户上网看到的网页留下的记录

360

Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0); 360Spider
360搜索

其他搜索引擎

“Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )”
网易有道

“Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/)”
来自瑞典的搜索引擎,网站看起来很不错,http://www.entireweb.com

“jikespider \”Mozilla/5.0”
即刻搜索,原人民搜索,搜索引擎国家队,已倒闭

“Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots)”
俄罗斯yandex

Mozilla/5.0 (compatible; EasouSpider; +http://www.easou.com/search/spider.html)
宜搜,不认识,一直不停抓取,已屏蔽

其他已知bot

“HuaweiSymantecSpider/1.0+DSE-support@huaweisymantec.com+(compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.4506.2152; .NET CLR ; http://www.huaweisymantec.com/cn/IRL/spider)”
华为赛门铁克蜘蛛,是华为赛门铁克科技有限公司网页信誉分析系统的一个页面爬取程序,其作用是用于爬取互联网网页并进行信誉分析,从而检查该网站上的是否含有恶意代码。
http://baike.baidu.com/view/5994606.htm

qiniu-imgstg-spider-1.0
七牛镜像蜘蛛

“xFruits/1.0 (http://www.xfruits.com)”
xFruits,聚合rss用的

Feedly/1.0 (+http://www.feedly.com/fetcher.html; like FeedFetcher-Google)
Feedly,Google Reader 关闭后一直用这个

Mozilla/5.0 (compatible;YoudaoFeedFetcher/1.0;http://www.youdao.com/help/reader/faq/topic006/;1 subscribers;)
有道阅读

FeedDemon/4.5 (http://www.feeddemon.com/; Microsoft Windows)
一款离线RSS阅读器

“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; JianKongBao Monitor 1.1)”
监控宝

DNSPod-Monitor/2.0
DNSPod监控

“Mozilla 5.0 (compatible; Feedsky crawler /1.0; http://www.feedsky.com)”
Feedsky

“Xianguo.com 1 Subscribers”
鲜果

360spider(http://webscan.360.cn)
360网站安全检测

“yrspider Mozilla/5.0 (compatible; YRSpider; +http://www.yunrang.com/yrspider.html)”
云壤公司,http://www.yunrang.com/yrspider.html

其他未知bot

“Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; EmbeddedWB 14.52 from: http://www.bsalsa.com/ EmbeddedWB 14.52; .NET CLR 2.0.50727)”
怀疑为发布SPAM用的,因为总是在获取注册页面和验证码

Mozilla/5.0 (compatible; LinkpadBot/1.06; +http://www.linkpad.ru)
LinkpadBot,看域名知道是来自俄罗斯的

Mozilla/5.0 (compatible; SISTRIX Crawler; http://crawler.sistrix.net/)
又一个国外的

“Mozilla/5.0 (compatible; MJ12bot/v1.4.0; http://www.majestic12.co.uk/bot.php?+)”
来自英国的未知bot

“Mozilla/5.0 (compatible; Ezooms/1.0; ezooms.bot@gmail.com)”
未知

“IS Alpha/Nutch-1.1”
未知

Nutch Spider/Nutch-2.2.1
貌似是上面那个进化来的

“BlogPulseLive (support@blogpulse.com)”

“findlinks/2.0.2 (+http://wortschatz.uni-leipzig.de/findlinks/)”
来自德国的未知bot

“Mozilla/4.0 (compatible; MSIE 6.0; AugustBot/augstbot@163.com)”
未知,貌似与网易有关

“InternetSeer.com”
未知

“Mozilla/5.0 (compatible; DotBot/1.1; http://www.dotnetdotcom.org/, crawler@dotnetdotcom.org)”
未知,已更新为下面的

Mozilla/5.0 (compatible; DotBot/1.1; http://www.opensiteexplorer.org/dotbot, help@moz.com)
DotBot,不认识

“http://www.internet-zarabotok.net/” “Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.2; Win64; AMD64)”
来自俄罗斯的未知bot

Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.0.19; aggregator:Spinn3r (Spinn3r 3.1); http://spinn3r.com/robot) Gecko/2010040121 Firefox/3.0.19
Spinn3r,不认识

Mozilla/5.0 (compatible; Exabot/3.0; +http://www.exabot.com/go/robot)
Exabot,还是不认识

Mozilla/5.0 (compatible; Exabot/3.0 (BiggerBetter); +http://www.exabot.com/go/robot)
Exabot,不认识

psbot/0.1 (+http://www.picsearch.com/bot.html)
psbot,不认识

TurnitinBot/3.0 (http://www.turnitin.com/robot/crawlerinfo.html)
TurnitinBot,不认识

搜索引擎蜘蛛爬虫 User Agent 一览(便于采集)相关推荐

  1. 搜索引擎蜘蛛爬虫原理

    permike 原文 搜索引擎蜘蛛爬虫原理 关于搜索引擎的大话还是少说些,下面开始正文搜索引擎蜘蛛爬虫原理: 1 聚焦爬虫工作原理及关键技术概述 网络爬虫是一个自动提取网页的程序,它为搜索引擎从Int ...

  2. php 判断爬虫程序,php判断搜索引擎蜘蛛爬虫还是人为访问代码

    php判断搜索引擎蜘蛛爬虫还是人为访问代码. function checkrobot($useragent=''){ static $kw_spiders = array('bot', 'crawl' ...

  3. 百度蜘蛛最新UA及各大搜索引擎蜘蛛爬虫UA汇总

    一淘模板(56admin.com)给大家汇总各大搜索引擎蜘蛛爬虫的UA,对我们进行某些程序编写十分有用,例如网页判断客户端来源时,UA是常用的标准之一. 本文收集了各大搜索引擎的蜘蛛爬虫UA,以便需要 ...

  4. robot.txt 搜索引擎 蜘蛛爬虫 搜索规则

    搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信 息.您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问的部 ...

  5. robot.txt 搜索引擎 蜘蛛爬虫 搜索规则

    搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信 息.您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot 访问的部 ...

  6. 一些PC端的搜索引擎蜘蛛爬虫UA

    百度 Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html) 谷歌 Moz ...

  7. 2019年最新出搜索引擎蜘蛛网页爬虫大全

    2019年最新出搜索引擎蜘蛛网页爬虫大全分享,各大seo引擎搜索的蜘蛛会一次又一次访问爬取我们站点的文章内容,也会耗费一定的站点流量: 有时候就必须屏蔽一些蜘蛛浏览我们的站点,文章尾部会讲解决方案: ...

  8. [方法篇](禁止YisouSpider|EasouSpider|EtaoSpider)搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施...

    搜索引擎蜘蛛给网站带来的危害,有效指引爬虫对应的措施[方法篇](禁止YisouSpider|EasouSpider|EtaoSpider) 上一遍文章<搜索引擎蜘蛛给网站带来的危害,有效指引爬虫 ...

  9. PHP判断来访是搜索引擎蜘蛛还是普通用户的代码小结

    1.推荐的一种方法:php判断搜索引擎蜘蛛爬虫还是人为访问代码,摘自Discuz x3.2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 ...

最新文章

  1. Leetcode 142. 环形链表 II (每日一题 20210902)
  2. 数字语音信号处理学习笔记——语音信号的短时时域分析(1)
  3. 创建springboot多模块项目
  4. 【Iphone 游戏开发】游戏引擎剖析
  5. SAP 电商云 Spartacus UI B2B checkout 点击 Continue 不能跳转到下一页面
  6. leetcode lcp2 分式化简
  7. css 一些好玩的属性,推荐一些比较有用的css3新属性
  8. jmeter中特殊的时间处理方式
  9. 增强for中操作集合元素的误区---java.util.ConcurrentModificationException
  10. 华为路由器怎么配置虚拟服务器,华为路由器配置实例详细备注讲解
  11. 计算机辅助logo设计与实现,新手都会看的logo设计师53条规则
  12. 在微博投放广告有哪些优势呢?微博广告推广位置介绍!
  13. S3C2440裸机开发----点亮LED
  14. PS如何用制作BMP 256位色非压缩图片,供Easyboot作为背景
  15. latex编辑器的选择、texlive的安装及学位模板的使用
  16. 桌面的文件不见了怎么找出来
  17. unittest教程(2w字实例合集)——Python自动化测试一文入门
  18. 提高PPT技巧之图片素材篇
  19. java时间戳 秒_Java:如何为时间戳添加秒?
  20. 应届毕业生,让人欢喜让人忧

热门文章

  1. Linux内核中的PCB里面task_struct结构体中的具体信息
  2. 汽车UDS诊断详解及Vector相关工具链使用说明——3.4 多帧传输
  3. python filter求素数-埃拉托色尼筛选法
  4. Python疫起学习·万丈高楼平地起Day09(精简版|浓缩就是精华)爬虫知识附上案例爬取北京地区短租房信息、爬取酷狗TOP500的数据以及爬取网易云音乐热歌榜单
  5. 使用LFS解决GitHub无法上传大文件问题
  6. 方舟:生存进化开服务器端口映射教程
  7. 读书笔记《进化:如何成功突破舒适区?》
  8. DeepRapper 代码详解
  9. Kinect2.0UnitySDK在unity中使用-手势识别
  10. 呵呵哒!手把手教你C语言结构体与共同体