the website is the API
Requests robots.txt beautiful soup projects 正则表达式 Scrapy
12单元 4个实例
工具:IDLE,Sublime Text,VSCode&PTVS,pycharm, Canopy,Anaconda&Spyder
在annaconda中配置环境 安装:“pip install requests”(翻墙确实会更快 )
get方法:
python的requests模块参数详解
requests.get()参数

1.简单爬取百度

import requests
r =requests.get("http://www.baidu.com")
r.status_code
r.encoding='utf-8'
r.text


requset.get(url)
注:python大小写敏感

完整有三个参数

其实都是request方法


返回200代表获得成功


重要:
apparent_encoding从内容中分析而不是header

import requests
r =requests.get("http://www.baidu.com")
r.status_code
r.encoding =r.apparent_encoding//自动处理,apparent_encoding从内容中分析而不是header
r.text



涉及到异常处理,所以用try except语句(这里的timeout设置的很小)


request库对应的六个方法







就是正常的请求功能


params:指能增加到url中的参数

data:向服务器提供或提交数据时使用


header:修改头字段,模拟不同浏览器


files:传递文件

timeout:超时时间

proxies:代理服务器,有效防止逆追踪


summray

与requests完全一样

与requests完全一样




summary

丑憨批的爬虫笔记1(导学+requests))相关推荐

  1. 丑憨批的爬虫笔记6实例

    0.中国大学排名定向爬虫 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html 可行性: http://www.zuihaodaxue.cn/ro ...

  2. 丑憨批的爬虫笔记3(实例)

    1.京东商品: import requestsdef getHTMLText(url):try:r=requests.get(url)r.raise_for_status()r.encoding=r. ...

  3. 丑憨批的爬虫笔记2(爬虫引发的问题+robots协议)

    去搜 user-agent!!!! referer!!!!! 网页中怎么查看请求头header信息 点一下Name里的东西就会出来 规模大小分类 robots协议 User-agent: * /// ...

  4. 丑憨批的爬虫笔记5信息标记与提取

    0.信息标记的三种形式 信息标记的作用 HTML:超文本标记 种类:3种 XML 无内容则一个尖括号 Json Yaml 用缩进表达从属关系,-表示并列关系 1.三种信息标记形式的比较 2.信息提取的 ...

  5. 丑憨批的爬虫笔记4BeautifulSoup4

    pip install beautifulsoup4 https://python123.io/ws/demo.html 使用方法 参数:1.html信息2.解析器 import requests r ...

  6. 丑憨批的html笔记

    html语法基础 h1#idid${itme$}*3 <!DOCTYPE html> <html lang="en"> <head><me ...

  7. 丑憨批的NLP笔记BERT前置:ATUO encoder,DAE

    ATUOEncoder 深度学习:什么是自编码器(Autoencoder) DAE 降噪自动编码器(Denoising Autoencoder)

  8. 丑憨批的vector笔记

    上网统计 "在线自闭,是输出出的问题,别用cout string" #include <iostream> #include<bits/stdc++.h> ...

  9. 丑憨批的Transformer笔记

    rnn-seq2seq-attentio attention attention transformer transformer Self-Attention:当前翻译和已经翻译的前文之间的关系: E ...

最新文章

  1. mysql和redis统计网站活跃度,最代码网站用户私信列表采用mysql union查询优化为Redis查询的经验和相关代码片段分享...
  2. 深入分析 Java 中的中文编码问题--转
  3. “面试不败计划”:集合总结
  4. 关于投稿 LaTeX 的使用
  5. hutool读取和导出excel_Java编程第44讲——非常好用的hutool工具介绍
  6. No module named sipconfig
  7. 图论-最长路--关于最长路的探讨2
  8. 为什么销售员贷款比较难?
  9. 使用Open Liberty的开发模式最大程度地缩短周转时间
  10. ++i与i++的根本性区别(两个代码对比搞定)
  11. H5 37-背景缩写
  12. GML可视化学习(三)
  13. 如何隐藏电脑下方工具栏个别图标_小编教你电脑如何隐藏任务栏图标
  14. outlook 2016 英文版 撤回邮件
  15. 为什么word文档或EXCET表格从电脑传到手机上格式就变了
  16. linux决定文件大小的函数,Linux 通过lseek()来实现文件大小的设置
  17. 做一篇美篇的计算机基础知识,怎么制作美篇-4个方法教你简单写出原创文章
  18. 支付宝AR红包关闭,看昔日“网红”如何过气
  19. tensorflow2.0实现DeepFM
  20. python可以自学吗需要什么基础-自学python需要什么基础,要掌握哪些知识?

热门文章

  1. VBA遍历文件夹下文件文件实用源码
  2. AES加密算法的详细简介
  3. MessagePack 学习笔记
  4. idea中查看类的继承关系图
  5. arm linux qt 输入法,基于ARM9和Qt的中文手写输入法的设计与实现
  6. 事务连接中断_HTTP长连接和短连接
  7. 感情沟通出了问题要怎么解决_冬养的月季花枝条干枯,开花萎蔫,哪里出了问题,该怎么解决?...
  8. 大数据统计分析毕业设计_基于大数据分析的电子信息类专业毕业设计成绩影响因素研究...
  9. css 图文 上下 居中,CSS垂直居中的6种方法
  10. css中哪些属性与创建多列相关,css3中的新增属性有哪些