爬虫系列——做爬虫必备:各大网站蜘蛛UA
作者专注于Java、架构、Linux、小程序、爬虫、自动化等技术。 工作期间含泪整理出一些资料,微信搜索【程序员高手之路】,回复 【java】【黑客】【爬虫】【小程序】【面试】等关键字免费获取资料。
前言
User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。
了解各大搜索引擎蜘蛛爬虫的UA,对我们进行某些程序编写十分有用,例如网页判断客户端来源时,UA是常用的标准之一。本文收集了各大搜索引擎的蜘蛛爬虫UA,以便需要时查阅。
1.百度蜘蛛Baiduspider
Baiduspider,日志中还发现了Baiduspider-image这个百度旗下蜘蛛,是专门用以抓取图片的蜘蛛。常见百度旗下同类型蜘蛛还有下面这些:Baiduspider-mobile(抓取wap)、Baiduspider-video(抓取视频)、Baiduspider-news(抓取新闻)。
UA
PC:
Mozilla/5.0 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
移动:
Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X)
AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
2.谷歌蜘蛛Googlebot
UA
Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Google图片搜索
Googlebot-Image/1.0
3.必应蜘蛛bingbot
UA
Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm)
4.雅虎蜘蛛Yahoo
UA
雅虎英文
Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)
雅虎中国
Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
5.搜狗蜘蛛Sogou News Spider
UA
搜狗图片
http://pic.sogou.com
Sogou Pic Spider/3.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
搜狗
Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
6.360蜘蛛 360Spider
UA
Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0);
360网站安全检测
360spider (http://webscan.360.cn)
7.MSN蜘蛛msnbot-media
UA
*msnbot/1.0 (+http://search.msn.com/msnbot.htm”)
8.有道蜘蛛YoudaoBot
UA
Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/;)
9.宜搜蜘蛛EasouSpider
UA
Mozilla/5.0 (compatible; EasouSpider; +http://www.easou.com/search/spider.html)
10.七牛
UA
qiniu-imgstg-spider-1.0
关注公众号【程序员高手之路】,回复【爬虫】免费领取爬虫教学视频!
爬虫系列——做爬虫必备:各大网站蜘蛛UA相关推荐
- 做科研必备的良心网站
做科研必备的良心网站 在日常学习工作中,你是否也会因为常常忘记一些文献检索库而烦恼呢?但遇到我后,再也不是事了,我会具体按照中英文献库的分类,对经常使用的数据库不断地总结.如果需要检索对应的数据库,可 ...
- python 爬虫 微博 github_GitHub 热门:各大网站的 Python 爬虫登录汇总
原标题:GitHub 热门:各大网站的 Python 爬虫登录汇总 (给数据分析与开发加星标,提升数据技能) 转自:机器之心,GitHub 作者:CriseLYJ 不论是自然语言处理还是计算机视觉,做 ...
- 爬虫系列 一次采集.NET WebForm网站的坎坷历程
目录 先准备下一个GET/POST预备使用 登陆 抓取人员信息 采集列表 获取工号 入库 总结 今天接到一个活,需要统计人员的工号信息,由于种种原因不能直接连数据库 [无奈].[无奈].[无奈].采取 ...
- 做PPT必备的大数据分析网站,好看又免费的报表工具
小明以前是学技术,跳槽来到一家大公司,在这个公司里会经常开会,比如有月度报告.季度报告以及年度报告,在开会前小明了解到同事们都会制作精美的PPT来汇报工作计划和目标,看到同事们精美的PPT里各种好看的 ...
- Java爬虫系列(五) - 爬虫补充内容+ElasticSearch展示数据
Java爬虫内容补充和ElasticSearch 网页去重 之前我们对下载的url地址进行了去重操作,避免同样的url下载多次.其实不光url需要去重,我们对下载的内容也需要去重. 在网上我们可以找到 ...
- 前端工程师必备九大网站
01 GitHub https://github.com/ 这个网站托管着很多优质的开源项目,像你可能听说过的 Linux,React,Vue,Webpack,JQuery等都在这个网站上开源.你可以 ...
- 快速入门网络爬虫系列 Chapter16 | 爬虫性能提升
Chapter16 | 爬虫性能提升 一.基础简介 1.任务调度 2.线程与进程 2.1.进程 2.2.线程 2.3.线程与进程的联系 2.4.线程与进程的区别 3.多线程 3.1.多线程的原理 3. ...
- 软件开发必备各大网站软件提交入口 软件发布入口汇总
因为很多下载站排名好的也有新站,很多老站因为各种原因关闭了,所以老站新站按照数据就都放到一起了来进行排名了.如果有想省时间的软件作者可以合作,我可以帮助一起提交到到各大下载站. 排名部分是根据口碑来进 ...
- 【python爬虫系列】爬虫+Selenium
文章目录 Python下Selenium安装及环境配置 Python Selenium库的使用 基础知识 Selenium 快速入门 python爬取百度 python爬取拉勾招聘 selenium. ...
- 32岁学python有前途吗_学Python做爬虫有前途吗?老男孩IT教育
随着人工智能.大数据时代的到来,Python这门编程语言也出现在大家的视野之中,更多人都开始关注Python.Python语法易懂.编写简洁,拥有丰富的库,作为人工智能的首选语言,Python是非常值 ...
最新文章
- DSP-SLAM:具有深度形状先验的面向对象SLAM
- Docker容器中MySQL最大连接数被限制为214的解决方案
- 北京python培训班价格-北京python培训一对一
- freeswitch模块之event_socket
- Css的filter常用濾波器屬性及語句大全
- c# 过滤HTML代码 源代码,案例 下载
- python print tab_python print tab_Python 字符串 expandtabs() 方法
- 镀镍金刚石线切割硅片
- linux飞行模式命令,Android 开启飞行模式的几种方式
- SPADE 代码略解 ade20k数据集
- Win10 电脑能够连接手机热点,但是不能上网。windows热点服务无法自动开启。
- 面试:第十二章:所有总结
- linux磁盘阵列配置,Linux下配置磁盘阵列
- EEGLAB安装、EDF数据导入、EEG预处理(Matlab)
- H5是什么?个人浅薄说明
- 免费赠书啦!逃离帝都,书搬不动,大量AI类、技术类、科幻类书免费送给小伙伴...
- Java向pdf模板中写入数据并在模板之后添加新的表格内容
- CentOS7 启动docker.service失败
- mixly实现遥控器控制led
- IDK(自己瞎想的一种共识算法)