python爬虫(自动下载图片)

爬虫第一步下载第三方工具(requests包):

win+R 输入cmd点击确定或回车

输入以下命令下载requests包:

requests包是python爬虫常用的包他的下载方式是 pip install requsts 如果觉得下载太慢了在后面可以加个镜像源会有很大的提升

例:pip install requsts -i https://pypi.tuna.tsinghua.edu.cn/simple 下面是五个常见的镜像源用那个都可以

清华：https://pypi.tuna.tsinghua.edu.cn/simple

阿里云：http://mirrors.aliyun.com/pypi/simple/

中国科技大学 https://pypi.mirrors.ustc.edu.cn/simple/

华中理工大学：http://pypi.hustunique.com/

山东理工大学：http://pypi.sdutlinux.org/

豆瓣：http://pypi.douban.com/simple

怎么查看有没有下载好requests包呢有两种方法:

一. pycharm方式查看:

在pyCharm文件项目中输入impot requ会有如图提示说明下载好了

二.指令方式查看:

win+R输入cmd点击确定输入pip list 是查看python全部第三方包,看有没有requests包,有说明下载好了,如图:

基础爬虫测试:

import requests # 导包
url="https://www.baidu.com" # 把网站地址给变量,用变量来接收利于后期修改

data = {'key1':'value1','key':value2'} # data是post请求使用
res=requests.get(url) # 向服务器发送请求,发送请求肯定有回应所以用变量res接受.这个是显示请求

res=requests.post(url,data) # 这个是隐式请求
res.encoding=res.apparent_encoding # res.encoding是设置字符编码,res.apparent_encoding是获取当前的字符编码

res 是接收服务器响应的一个内容.

print(res.text) # 以文本形式打印服务器响应的内容
运行结果:

3.有些网站防止他有反爬虫机制,弄个haeders,haeders是自己的用户信息在哪里查看呢!步骤如图:

1. 在浏览器点击鼠标右键-检查:

2. 点击Network

3.随便点击以下文件

4.点击Headers

5.找到headers的最后一条的User-Agent复制一下:

4.创建beaders 例:

headers={

"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36"

}

让request.get(url,headers=headers)

实例:

爬取站长素材的图片代码如下:

import requests
import re
import os
number=int(input("请输入要下载几页"))
for i in range(number):if i!=0:url="https://sc.chinaz.com/tupian/huangsetupian_%s.html" %(i+1)else: url="https://sc.chinaz.com/tupian/huangsetupian.html"res=requests.get(url)f=open("第%s页.html" %(i+1),"wb")f.write(res.content)f.close()pattern = r'<img src2="(.*?)".*?>'html=res.textimage_urls=re.findall(pattern,html)os.mkdir("../zhanzhang/第%s页"%(i+1))for image in image_urls:image_urls="https:"+imageres=requests.get(image_urls)f=open("../zhanzhang/第%s页/%s" %((i+1),image_urls.split("/")[-1]),"wb")f.write(res.content)f.close()
print("完成")

这样就能快速下载很多图片了