首先祝大家月饼节快乐!

由于一开始没有弄清楚robots.txt和robot.txt,造成了一些错误,感谢“那山那人那狗 [未注册用户] ”的提醒。所以对原来的内容进行了一下修改。

前几天看见博友写文章说淘宝封了baidu的蜘蛛,用http://www.taobao.com/robots.txt 这个地址查看了robots.txt 文件内容,确实是不允许baidu的蜘蛛了,其他二级域名里的 robots.txt 文件,比如 http://store.taobao.com/robots.txt 也禁止了baidu的蜘蛛。robots.txt 内容是(如下),

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

那么过了好几天了,我们再来看baidu 里面的收录情况,打开baidu,输入site:www.taobao.com ,第一条就是9月12日的快照。 再输入 site:taobao.com 第四条就是9月13日的快照。第一页有8条九月份的快照。这样看来,根本就没有限制住!

下面是截图:


我到网上查了一下robots.txt文件的格式,http://www.baidu.com/search/robots.html 这里是baidu对robots.txt的解释,有一点值得注意一下。

“baiduspider通常每天访问一次网站的robots.txt文件,您对robots所做的修改,会在48小时内生效。需要注意的是,robots.txt禁止收录以前百度已收录的内容,从搜索结果中去除可能需要数月的时间。”

现在baidu已经收录了 约22,500,000篇 网页,这些网页什么时候会被去除呢?“需要数月”。

感谢 那山那人那狗 [未注册用户] 的提醒,确实是把网址给弄错了,其实这个网址是从http://www.cnblogs.com/dingxue/archive/2008/09/09/1287262.html 这里第四楼拷贝过来的。被害了,呵呵。

不过,http://store.taobao.com/robot.txt  这个地址确实有内容,导致了我的误解。

淘宝 封住baidu的蜘蛛了吗?相关推荐

  1. 优化淘宝商品比价定向爬虫--爬虫的浏览器伪装

    目录 一. 原代码问题 二.淘宝Robots协议 三.User-Agent 四.查找headers和cookie 五. 完整代码 一. 原代码问题 爬取不到任何内容处理 原因:由于淘宝的设置,虽然可以 ...

  2. selenium爬取淘宝商品基础数据以及商品详情(茶叶数据)

    selenium爬取淘宝商品基础数据以及商品详情 目录 网页分析 确定要爬取的数据 分析网页构成 爬取流程 登入 爬取基础数据以及商品详情 爬取基础数据 爬取商品详情 淘宝滑动验证码 保存EXCEL中 ...

  3. 巨头间的战争,我眼中的的“淘宝为什么屏蔽百度抓取”

    来自http://news.paidai.com/12967 作者:芜湖SEO舒扬 1.现状和思考    如今,假设在百度里搜索淘宝网,您所示结果应该是这样的,"由于该站点的robots.t ...

  4. 一个很简单的淘宝优惠券搜索助手 大家看看有没有用吧 下载地址:http://pan.baidu.com/s/1skRHTDF

    一个很简单的淘宝优惠券搜索助手 大家看看有没有用吧 下载地址:http://pan.baidu.com/s/1skRHTDF

  5. python3淘宝商品目录_Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇)...

    一.前言 大家好,今天我要来讲讲一个比较实用的爬虫工具,抓取淘宝的关键字商品信息,即是: 输入关键字,按照价格等排序,抓取列出的商品信息以及下载图片,并且支持导出为Excel. 如果如下: 看完下面的 ...

  6. 淘宝屏蔽百度3---为淘宝叫好

    淘宝屏蔽百度炒的有一段日子了,虽然百度还是一样一如既往的抓取淘宝的网页,照样给予排名. 李彦宏应该随时警惕马云上诉法庭. 为什么说淘宝一定要屏蔽百度才能发展呢? 第一,前车之鉴,假如当初做MP3等音乐 ...

  7. 11月国内网站统计:淘宝得益于双11流量直逼腾讯

    根据中国互联网协会-中国网站排名最新实时数据,截至2013年11月27日,国内网站独立访问量排名前五的是:百度.腾讯网.淘宝网.360安全中心和新浪,如下图. 如图所示,在11月上旬,淘宝得益于&qu ...

  8. 金九银十,做一个百度喜欢的淘宝客网站

    随着淘宝销售旺季-金九银十的到来,淘宝客一词似乎又一次火爆起来,这一群人似乎依然热情高涨,无论新手,老鸟,都忘乎所以的奔向这片炙手可热的红海,毕竟类似淘宝客这种超低门槛的网赚手段还是十分的吸引人,更不 ...

  9. 去除右下角淘宝网弹窗恶意广告!

    1.右下角总是出现淘宝网的广告,应该是以前装到了恶意软件吧,如下: 2.下载要使用到的工具: 链接:http://pan.baidu.com/s/1dDhdl77 密码:t8jn 备用:http:// ...

  10. 五十五、手把手教你从零到一,完成淘宝数据分析案例

    这是之前投稿的文章. 数据集下载 链接:https://pan.baidu.com/s/1eibGBqA7Whj73R3oEBYs2w 提取码:sbxs 淘宝数据分析案例 假设,老板是做服装的行业的. ...

最新文章

  1. HDU 1231 最大连续子序列
  2. 将声音转为图片(二维矩阵)
  3. JS获取页面鼠标点击位置的坐标
  4. 【洛谷 1969】积木大赛
  5. Subset POJ - 3977(折半枚举+二分+二进制枚举)
  6. 前端学习(3021):vue+element今日头条管理--创建组件和配置路由
  7. 在命令行模式下管理SELinux
  8. 前端-requests-flask对应关系 form
  9. WCF分布式开发常见错误(17):无法启动MSMQ服务
  10. 计算机毕业设计(附源码)python兴澜幼儿园管理系统
  11. 微信公众号原主体已注销 如何办理账号迁移及公证书?
  12. 七年级上册计算机工作计划,七年级上册班主任工作计划
  13. MATLAB(1)MATLAB工作环境
  14. Linux选择填空练习题
  15. 网页超链接:主页与子页的具体链接
  16. JavaScript 判断是否是数字 isFinite() Number.isFinite()
  17. 如何玩转网络攻防?看这文就够了!
  18. Odoo产品分析 (三) -- 人力资源板块(7) -- 费用追踪(1)
  19. IC卡(M1卡)梯控日期的算法解析和计算
  20. mysql 四叉树的应用_树(简单应用-四叉树).ppt

热门文章

  1. js add方法_爬虫必备:Python 执行 JS 代码 —— PyExecJS、PyV8、Js2Py
  2. 7340怎么更换墨盒_打印显示墨盒托架被卡住怎么办?请按下边步骤正确解决
  3. 安卓开发 实现文字渐变效果_AI教程!用网格工具做渐变字效
  4. Python测试入门
  5. 食品安全和大数据物联网有什么关系
  6. 查找项目里面资源文件报空指针的解决办法
  7. invalid cookie header httpclient
  8. spring in action 4 第6章 视图分发
  9. spring boot 拦截器 或 Spring AOP 方式记录请求日志
  10. React Native 0.21 发布 (翻译Changelog)