去搜
user-agent!!!!
referer!!!!!
网页中怎么查看请求头header信息
点一下Name里的东西就会出来

规模大小分类



robots协议

User-agent: *      /// user-agent: * :指任何网络爬虫都不允许  通配符
Disallow: /?*       ///disallow : 指不允许访问的资源的目录
Disallow: /pop/*.html
Disallow: /pinpai/*.html?*
User-agent: EtaoSpider
Disallow: /        下面的是四个不允许的爬虫(是四个购物助手)
User-agent: HuihuiSpider
Disallow: /
User-agent: GwdangSpider
Disallow: /
User-agent: WochachaSpider
Disallow: /

丑憨批的爬虫笔记2(爬虫引发的问题+robots协议)相关推荐

  1. 丑憨批的html笔记

    html语法基础 h1#idid${itme$}*3 <!DOCTYPE html> <html lang="en"> <head><me ...

  2. 丑憨批的NLP笔记BERT前置:ATUO encoder,DAE

    ATUOEncoder 深度学习:什么是自编码器(Autoencoder) DAE 降噪自动编码器(Denoising Autoencoder)

  3. 丑憨批的vector笔记

    上网统计 "在线自闭,是输出出的问题,别用cout string" #include <iostream> #include<bits/stdc++.h> ...

  4. 丑憨批的Transformer笔记

    rnn-seq2seq-attentio attention attention transformer transformer Self-Attention:当前翻译和已经翻译的前文之间的关系: E ...

  5. 丑憨批的爬虫笔记6实例

    0.中国大学排名定向爬虫 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html 可行性: http://www.zuihaodaxue.cn/ro ...

  6. 丑憨批的爬虫笔记3(实例)

    1.京东商品: import requestsdef getHTMLText(url):try:r=requests.get(url)r.raise_for_status()r.encoding=r. ...

  7. 丑憨批的爬虫笔记5信息标记与提取

    0.信息标记的三种形式 信息标记的作用 HTML:超文本标记 种类:3种 XML 无内容则一个尖括号 Json Yaml 用缩进表达从属关系,-表示并列关系 1.三种信息标记形式的比较 2.信息提取的 ...

  8. 丑憨批的爬虫笔记4BeautifulSoup4

    pip install beautifulsoup4 https://python123.io/ws/demo.html 使用方法 参数:1.html信息2.解析器 import requests r ...

  9. 丑憨批的爬虫笔记1(导学+requests))

    the website is the API Requests robots.txt beautiful soup projects 正则表达式 Scrapy 12单元 4个实例 工具:IDLE,Su ...

最新文章

  1. [JAVA EE] JPA技术基础:完成数据列表显示
  2. servlet返回数据_JavaEE の Servlet - Http/Servlet - Day14 - 190507
  3. 密码密文 android,Android密码明文密文切换
  4. 我的思维模式的阿喀琉斯之踵
  5. 某些小时后MySql连接自动掉线
  6. macOS安装Maven_IDEA集成Maven
  7. C#:继承过程中的静态成员
  8. php 日期 间隔,PHP实现计算日期间隔天数的方法
  9. 贪心——买卖股票的最佳时机(Leetcode 122)
  10. jQuery学习之二---jq核心
  11. Elasticsearch 写入优化记录,从3000到8000/s
  12. python编译so_Mac上把python源文件编译成so文件
  13. slice,substr,substring三者的区别
  14. cmake安装使用(详解 )
  15. IDW空间插值法matlab,基于IDW对PM2.5进行空间插值及可视化
  16. JAVA办公管理系统(OA)
  17. 卡巴斯基携手微软MSN 卡巴斯基2010激活码免费领
  18. UE4 layered blend per bone 节点详解
  19. 华东交通大学计算机调剂,【通知】华东交通大学2020年硕士研究生调剂通知
  20. java实现记录日志

热门文章

  1. webservice中jaxws:server 和jaxws:endpoint的区别
  2. 常见设备分辨率大小,响应式必备啊
  3. linux虚拟文件系统vfs
  4. .以及JDK1.5ConcurrentHashMap新特性
  5. javascript链式语法
  6. 2013.5.21号面试心得
  7. 欢迎动画html,分享7款让你赞叹的HTML5动画应用
  8. lvm 扩展根目录_Linux下lvm在线扩容步骤
  9. CSS基本选择器、层次选择器、结构伪类选择器、属性选择器
  10. Linux运行hadoop命令,将hadoop程序打成jar包,在linux下以命令行方式运行(例如单词计算程序)...