丑憨批的爬虫笔记1(导学+requests))
the website is the API
Requests robots.txt beautiful soup projects 正则表达式 Scrapy
12单元 4个实例
工具:IDLE,Sublime Text,VSCode&PTVS,pycharm, Canopy,Anaconda&Spyder
在annaconda中配置环境 安装:“pip install requests”(翻墙确实会更快 )
get方法:
python的requests模块参数详解
requests.get()参数
1.简单爬取百度
import requests
r =requests.get("http://www.baidu.com")
r.status_code
r.encoding='utf-8'
r.text
requset.get(url)
注:python大小写敏感
完整有三个参数
其实都是request方法
返回200代表获得成功
重要:
apparent_encoding从内容中分析而不是header
import requests
r =requests.get("http://www.baidu.com")
r.status_code
r.encoding =r.apparent_encoding//自动处理,apparent_encoding从内容中分析而不是header
r.text
涉及到异常处理,所以用try except语句(这里的timeout设置的很小)
request库对应的六个方法
就是正常的请求功能
params:指能增加到url中的参数
data:向服务器提供或提交数据时使用
header:修改头字段,模拟不同浏览器
files:传递文件
timeout:超时时间
proxies:代理服务器,有效防止逆追踪
summray
与requests完全一样
与requests完全一样
summary
丑憨批的爬虫笔记1(导学+requests))相关推荐
- 丑憨批的爬虫笔记6实例
0.中国大学排名定向爬虫 http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html 可行性: http://www.zuihaodaxue.cn/ro ...
- 丑憨批的爬虫笔记3(实例)
1.京东商品: import requestsdef getHTMLText(url):try:r=requests.get(url)r.raise_for_status()r.encoding=r. ...
- 丑憨批的爬虫笔记2(爬虫引发的问题+robots协议)
去搜 user-agent!!!! referer!!!!! 网页中怎么查看请求头header信息 点一下Name里的东西就会出来 规模大小分类 robots协议 User-agent: * /// ...
- 丑憨批的爬虫笔记5信息标记与提取
0.信息标记的三种形式 信息标记的作用 HTML:超文本标记 种类:3种 XML 无内容则一个尖括号 Json Yaml 用缩进表达从属关系,-表示并列关系 1.三种信息标记形式的比较 2.信息提取的 ...
- 丑憨批的爬虫笔记4BeautifulSoup4
pip install beautifulsoup4 https://python123.io/ws/demo.html 使用方法 参数:1.html信息2.解析器 import requests r ...
- 丑憨批的html笔记
html语法基础 h1#idid${itme$}*3 <!DOCTYPE html> <html lang="en"> <head><me ...
- 丑憨批的NLP笔记BERT前置:ATUO encoder,DAE
ATUOEncoder 深度学习:什么是自编码器(Autoencoder) DAE 降噪自动编码器(Denoising Autoencoder)
- 丑憨批的vector笔记
上网统计 "在线自闭,是输出出的问题,别用cout string" #include <iostream> #include<bits/stdc++.h> ...
- 丑憨批的Transformer笔记
rnn-seq2seq-attentio attention attention transformer transformer Self-Attention:当前翻译和已经翻译的前文之间的关系: E ...
最新文章
- mysql和redis统计网站活跃度,最代码网站用户私信列表采用mysql union查询优化为Redis查询的经验和相关代码片段分享...
- 深入分析 Java 中的中文编码问题--转
- “面试不败计划”:集合总结
- 关于投稿 LaTeX 的使用
- hutool读取和导出excel_Java编程第44讲——非常好用的hutool工具介绍
- No module named sipconfig
- 图论-最长路--关于最长路的探讨2
- 为什么销售员贷款比较难?
- 使用Open Liberty的开发模式最大程度地缩短周转时间
- ++i与i++的根本性区别(两个代码对比搞定)
- H5 37-背景缩写
- GML可视化学习(三)
- 如何隐藏电脑下方工具栏个别图标_小编教你电脑如何隐藏任务栏图标
- outlook 2016 英文版 撤回邮件
- 为什么word文档或EXCET表格从电脑传到手机上格式就变了
- linux决定文件大小的函数,Linux 通过lseek()来实现文件大小的设置
- 做一篇美篇的计算机基础知识,怎么制作美篇-4个方法教你简单写出原创文章
- 支付宝AR红包关闭,看昔日“网红”如何过气
- tensorflow2.0实现DeepFM
- python可以自学吗需要什么基础-自学python需要什么基础,要掌握哪些知识?
热门文章
- VBA遍历文件夹下文件文件实用源码
- AES加密算法的详细简介
- MessagePack 学习笔记
- idea中查看类的继承关系图
- arm linux qt 输入法,基于ARM9和Qt的中文手写输入法的设计与实现
- 事务连接中断_HTTP长连接和短连接
- 感情沟通出了问题要怎么解决_冬养的月季花枝条干枯,开花萎蔫,哪里出了问题,该怎么解决?...
- 大数据统计分析毕业设计_基于大数据分析的电子信息类专业毕业设计成绩影响因素研究...
- css 图文 上下 居中,CSS垂直居中的6种方法
- css中哪些属性与创建多列相关,css3中的新增属性有哪些