python爬取图片代码可替换网站_Python爬虫(批量爬取某网站图片)
1.需要用到的库有:
Requests re os time 如果没有安装的请自己安装一下,pycharm中打开终端输入命令就可以安装
2.IDE : pycharm
3.python 版本: 3.8.1
2.爬取地址:
https://www.vmgirls.com/9384.html
-------------------废话不多说了,不懂的可以给我留言哦,接下来我们一步一步来操作------------------
1.请求网页
1 #请求网页
2 importrequests3
4 response=requests.get('https://www.vmgirls.com/9384.html')5
6 print(response.text)
执行结果:
发现请求到的是403,直接禁止了我们访问,requests库会告诉他我们是python过来的,他知道我们是一个python禁止我们反爬
解决:
我们可以伪装头,把头设置一下
#请求网页
importrequests
headers={'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36'}
response=requests.get('https://www.vmgirls.com/9384.html',headers=headers)print(response.request.headers)
执行结果:
这样头就伪装了
2.解析网页
#请求网页
importrequestsimportre
headers={'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36'}
response=requests.get('https://www.vmgirls.com/9384.html',headers=headers)#print(response.request.headers)#print(response.text)
html=response.text#解析网页
urls=re.findall('',html)print(urls);
结果:
可能对re.findall后面不太理解怎么来的,关键就是要找到图片的dom然后根据re库的一个匹配规则来匹配,要匹配的用(.*?)来表示,不需要匹配的用.*?来代替就可以了,
打开网址,按f12查看源码找到图片的代码
复制图片代码,打开网页源码按 ctrl+f 进行搜索,找到图片源码的位置
3.保存图片
具体可以看源码,我给这些图片创建了一个文件夹(需要os库),并且命了名,这样分类下次看小姐姐就比较容易找到啦
#请求网页
importtimeimportrequestsimportreimportos
headers={'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36'}
response=requests.get('https://www.vmgirls.com/9384.html',headers=headers)#print(response.request.headers)#print(response.text)
html=response.text#解析网页#目录名字
dir_name=re.findall('',html)[-1]if notos.path.exists(dir_name):
os.mkdir(dir_name)
urls=re.findall('',html)print(urls);#保存图片
for url inurls:#加个延时,避免给服务器造成压力
time.sleep(1)#图片的名字
file_name=url.split('/')[-1]
response= requests.get(url, headers=headers)
with open(dir_name+'/'+file_name,'wb') as f:
f.write(response.content)
python爬取图片代码可替换网站_Python爬虫(批量爬取某网站图片)相关推荐
- python爬虫ip代理_python爬虫批量抓取ip代理的方法(代码)
本篇文章给大家带来的内容是关于python爬虫批量抓取ip代理的方法(代码),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 使用爬虫抓取数据时,经常要用到多个ip代理,防止单个ip访 ...
- python 抢票代码 猫眼演出_Python爬虫-猫眼电影排行
爬虫的目标 爬取猫眼电影TOP100的电影名称,时间,评分,图片等信息 抓取分析 查看网页源代码,找到对应的目标信息,发现一部电影对应的源代码是一个dd节点 抓取首页 为了方便,这里先抓取第一页的内容 ...
- python爬虫自学网站_python爬虫学习 爬取幽默笑话网站
这篇文章主要介绍了python爬虫爬取幽默笑话网站,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下 爬取网站为:http://xiaohua.zol. ...
- python批量访问网页保存结果_Python爬虫(批量爬取某网站图片)
1.需要用到的库有: Requests re os time 如果没有安装的请自己安装一下,pycharm中打开终端输入命令就可以安装 2.IDE : pycharm 3.python 版本: 3.8 ...
- python脚本根据cookies自动登录网站_Python爬虫如何使用Cookies登录网站
最近搞到了一个学校教务系统可以查询全校成绩的账号,恰逢申请奖学金之际,就想用python写个脚本把年级里的绩点排名给爬下来,可是就在写登录的时候发现还是要处理验证码登录的问题,为了避免麻烦,就没使用类 ...
- python 抢票代码 猫眼演出_python爬虫实例-猫眼电影
1.环境准备 python3.6 pycharm 安装requests库,pip install requests 2.XPath语法 XPath 是一门在 XML 文档中查找信息的语言.XPath ...
- python下载百度云盘中的数据_python爬虫:爬取百度云盘资料,保存下载地址、链接标题、链接详情...
在网上看到的教程,但是我嫌弃那个教程写的乱(虽然最后显示我也没高明多少,哈哈),就随手写了一个 主要是嫌弃盘搜那些恶心的广告,这样直接下载下来,眼睛清爽多了. 用pyinstall 打包成EXE文件, ...
- python爬取多页数据_python爬虫实现爬取同一个网站的多页数据代码实例
本篇文章小编给大家分享一下python爬虫实现爬取同一个网站的多页数据代码实例,文章代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看. 一.爬虫的目的 从网上获 ...
- python爬虫爬取图片代码_Python爬虫入门:批量爬取网上图片的两种简单实现方式——基于urllib与requests...
Python到底多强大,绝对超乎菜鸟们(当然也包括我了)的想象.近期我接触到了爬虫,被小小地震撼一下.总体的感觉就两个词--"强大"和"有趣".今天就跟大家分享 ...
- python爬虫实例手机_Python爬虫实现爬取京东手机页面的图片(实例代码)
实例如下所示: __author__ = 'Fred Zhao' import requests from bs4 import BeautifulSoup import os from urllib ...
最新文章
- zip压缩报错解决:zip warning: name not matched: xxx/xxx/xxx
- Leetcode: 112. Path Sum
- nbiot模块WH-NB73 UDP透传和透传云使用说明
- informix报错244_关于informix的配置问题
- Deepin Linux修改Grub引导
- Visual Studio Code(VS Code)与Git Source Control集成
- Android 后台发送邮件 (收集应用异常信息+Demo代码)
- 用了一个多月时间治好了自己的胸膜炎
- 什么是B2B销售?如何有效地向其他企业销售
- com.homelink.android,链家-新房二手房租房
- JDK命令八、NMT 和 pmap本地内存分析神器
- matlab中饼图绘制程序,MATLAB中绘制二维饼图的函数是(? ? ) (1.5分)
- JavaScript操作DOM对象 Day05
- domcer服务器按键显示怎么调,我的世界domcer怎么打开按键显示_我的世界按键大全...
- 【精】EOS智能合约:system系统合约源码分析
- idea自定义过滤器
- 边下边看 七款P2P下载软件全能大比拼
- 基金涨跌简单模拟0.01
- 判断密码是否为键盘排序密码[C++版本] (3个或者3个以上的连续字符)
- 计算机tpm,电脑TPM是什么意思 怎么看有没有开启TPM 在哪里设置打开