简单实用的python爬虫完整示例
windows用户,Linux用户几乎一样:
打开cmd输入以下命令即可,如果python的环境在C盘的目录,会提示权限不够,只需以管理员方式运行cmd窗口
pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests
Linux用户类似(ubantu为例): 权限不够的话在命令前加入sudo即可
sudo pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests
python爬虫入门基础代码实例如下
1、Requests爬取BD页面并打印页面信息
# 第一个爬虫示例,爬取百度页面
import requests #导入爬虫的库,不然调用不了爬虫的函数
response = requests.get("http://www.baidu.com") #生成一个response对象
response.encoding = response.apparent_encoding #设置编码格式
print("状态码:"+ str( response.status_code ) ) #打印状态码
print(response.text)#输出爬取的信息
2、Requests常用方法之get方法实例,下面还有传参实例
# 第二个get方法实例
import requests #先导入爬虫的库,不然调用不了爬虫的函数
response = requests.get("http://httpbin.org/get") #get方法
print( response.status_code ) #状态码
print( response.text )
3、Requests常用方法之post方法实例,下面还有传参实例
# 第三个 post方法实例
import requests #先导入爬虫的库,不然调用不了爬虫的函数
response = requests.post("http://httpbin.org/post") #post方法访问
print( response.status_code ) #状态码
print( response.text )
4.、Requests put方法实例
# 第四个 put方法实例
import requests #先导入爬虫的库,不然调用不了爬虫的函数
response = requests.put("http://httpbin.org/put") # put方法访问
print( response.status_code ) #状态码
print( response.text )
5、Requests常用方法之get方法传参实例(1)
如果需要传多个参数只需要用&符号连接即可如下
# 第五个 get传参方法实例
import requests #先导入爬虫的库,不然调用不了爬虫的函数
response = requests.get("http://httpbin.org/get?name=hezhi&age=20") # get传参
print( response.status_code ) #状态码
print( response.text )
6、Requests常用方法之get方法传参实例(2)
params用字典可以传多个
# 第六个 get传参方法实例
import requests #先导入爬虫的库,不然调用不了爬虫的函数
data = {"name":"hezhi","age":20
}
response = requests.get( "http://httpbin.org/get" , params=data ) # get传参
print( response.status_code ) #状态码
print( response.text )
7、Requests常用方法之post方法传参实例(2) 和上一个有没有很像
# 第七个 post传参方法实例
import requests #先导入爬虫的库,不然调用不了爬虫的函数
data = {"name":"hezhi","age":20
}
response = requests.post( "http://httpbin.org/post" , params=data ) # post传参
print( response.status_code ) #状态码
print( response.text )
8、关于绕过反爬机制,以知呼为例
# 第好几个方法实例
import requests #先导入爬虫的库,不然调用不了爬虫的函数
response = requests.get( "http://www.zhihu.com") #第一次访问知乎,不设置头部信息
print( "第一次,不设头部信息,状态码:"+response.status_code )# 没写headers,不能正常爬取,状态码不是 200
#下面是可以正常爬取的区别,更改了User-Agent字段
headers = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"
}#设置头部信息,伪装浏览器
response = requests.get( "http://www.zhihu.com" , headers=headers ) #get方法访问,传入headers参数,
print( response.status_code ) # 200!访问成功的状态码
print( response.text )
9、爬取信息并保存到本地
因为目录关系,在D盘建立了一个叫做爬虫的文件夹,然后保存信息,注意文件保存时的encoding设置。
# 爬取一个html并保存
import requests
url = "http://www.baidu.com"
response = requests.get( url )
response.encoding = "utf-8" #设置接收编码格式
print("\nr的类型" + str( type(response) ) )
print("\n状态码是:" + str( response.status_code ) )
print("\n头部信息:" + str( response.headers ) )
print( "\n响应内容:" )
print( response.text )#保存文件
file = open("D:\\爬虫\\baidu.html","w",encoding="utf") #打开一个文件,w是文件不存在则新建一个文件,这里不用wb是因为不用保存成二进制
file.write( response.text )
file.close()
10、爬取图片,保存到本地
#保存百度图片到本地
import requests #先导入爬虫的库,不然调用不了爬虫的函数
response = requests.get("https://www.baidu.com/img/baidu_jgylogo3.gif") #get方法的到图片响应
file = open("D:\\爬虫\\baidu_logo.gif","wb") #打开一个文件,wb表示以二进制格式打开一个文件只用于写入
file.write(response.content) #写入文件
file.close()#关闭操作,运行完毕后去你的目录看一眼有没有保存成功
简单实用的python爬虫完整示例相关推荐
- python爬虫入门实例-终于领会python爬虫入门示例
随着人工智能 大数据的火热 Python成为了广大科学家和普通大众的学习语言.在学习Python的过程中 有很多人感到迷茫 不知道自己该从什么地方入手,今天我们就来说一些新手该如何学习Python编程 ...
- python爬虫代码示例分享
这篇文章主要介绍了三个python爬虫项目实例代码,使用了urllib2库,文中示例代码非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下. python爬虫代码示例分享 一. ...
- python爬虫简单实例-这个Python爬虫的简单入门及实用的实例,你会吗?
利用爬虫可以进行数据挖掘,比如可以爬取别人的网页,收集有用的数据进行整合和划分,简单的就是用程序爬取网页上的所有图片并保存在自己新建的文件夹内,还有可以爬社交网站的自拍图,将几十万张的图片合在一起,就 ...
- python爬取10个网站_十个Python爬虫武器库示例,十个爬虫框架,十种实现爬虫的方法!...
一般比价小型的爬虫需求,我是直接使用requests库 + bs4就解决了,再麻烦点就使用selenium解决js的异步 加载问题.相对比较大型的需求才使用框架,主要是便于管理以及扩展等. 1.Scr ...
- 多线程爬虫python_一个简单的多线程Python爬虫
最近想要抓取拉勾网的数据,最开始是使用Scrapy的,但是遇到了下面两个问题: 前端页面是用JS模板引擎生成的 接口主要是用POST提交参数的 目前不会处理使用JS模板引擎生成的HTML页面,用POS ...
- python爬虫完整代码下载页
由于上一个连接有些网址被和谐,所以这里贴出完整的代码 运行是修改path路径为你自己保存图片的位置. # -*- coding: utf-8 -*- # 作者: 废人一枚 # 出自: 北京 # 创建时 ...
- 简单快捷的 Python 爬虫工具:SmartScraper
大家好. 今天给大家介绍一款简单.自动且快捷的Python爬虫工具SmartScraper.SmartScraper使页面数据抓取变得容易,不再需要学习诸如pyquery.beautifulsoup等 ...
- 总结了90条简单实用的Python编程技巧
点击上方"菜鸟学Python",选择"星标"公众号 超级无敌干货,第一时间送达!!! 来源:萝卜大杂烩 编码原则 建议1:理解 Pythonic 概念--详见 ...
- Python爬虫完整代码拿走不谢
对于新手做Python爬虫来说是有点难处的,前期练习的时候可以直接套用模板,这样省时省力还很方便. 使用Python爬取某网站的相关数据,并保存到同目录下Excel. 直接上代码: import re ...
最新文章
- 5G时代,微软又走对了一步棋!
- Swift3.0语言教程获取字符
- RSA体系 c++/java相互进行加签验签--转
- 与张小龙同行:微信小程序开发
- 《C++ 开发从入门到精通》——1.3 使用Visual Studio 2010
- 《剑指offer》数组中出现次数超过一半的数字
- python编程中条件句_简单讲解Python编程中namedtuple类的用法
- cocos常用工具-TiledMap
- 网络协议、socket、webSocket
- ASP程序性能测试报告
- 【Python】写了一个简单的照片按EXIF日期保存脚本
- MVC 和 MVVM 详解
- OJ每日一练——温度换算
- 第三期私域运营白皮书(下)
- Git基于已有分支创建分支
- (4.6.26)Android特殊系统的校验方式
- 【C语言】——C语言实现科赫雪花及科赫曲线
- QT QWebEngineView+UEditor富文本编辑器
- k8s平台微服务部署
- 风水招财用品:貔貅的材质与区别
热门文章
- 在kail下使用driftnet同时使用arpspoof伪装出现无法获取,被攻击主机图片
- Android编译系统Makefile
- 从SIM卡读取紧急号码 SDN
- 魔百盒CM211-1-ZG_一键替换recovery_当贝桌面卡刷固件包
- 【考研英语语法】现在进行时习题
- 10 分钟用 Python 编写一个贪吃蛇小游戏
- impala中的时间戳 TIMESTAMP类型用法(转载网上电子书)(不是我原创)
- java三元运算_记一次java中三元表达式的坑(避免踩坑)
- NYOJ-79拦截导弹---LIS变形-最长递减子序列
- 小程序生成海报携带参数-云函数生成二维码