python爬校花网笔记
import requests
import re #正则表达式
from bs4 import BeautifulSoup #爬虫bs4
import os
#爬高考校花网
def xiaohua():url="http://www.gaokao.com/gkpic/"response=requests.get(url) #get请求网址response.encoding="GBK" #编码为gbk,以免中文乱码html=response.text #用变量接收响应的文本信息file=BeautifulSoup(html,'html.parser') #定义一个bs4方法img=file.find(name='div',attrs={'id':'imgall'}) #使用定义的方法查找出所有div标签下 的图片路径#使用正则表达式提取所有校花图片url,注意后面形参要是str格式imagelist=re.findall('src="(.*?)"/>',str(img))#print(imagelist)#定义存储图片路径,如果不存在就创建一个,os为系统命令dir='校花'if not os.path.exists(dir):os.mkdir(dir)for image in imagelist:#定义图片名为.jpg前面的字符,截取方法tpm=image.split('/')[-1]#循环请求图片urlres=requests.get(image)#with open 方法将图片写入dir目录with open (dir+'/'+tpm,'wb') as f:f.write(res.content)if __name__ == '__main__':xiaohua()
python爬校花网笔记相关推荐
- day01 初见python爬虫之“爬校花网”和“自动登录github”
首先我们来解释一下几个概念: 1.什么是爬虫? 爬取数据. 2.什么是互联网? 由一堆网络设备.把一台台的计算机互联到一起称之为互联网. 3.互联网建立的目的: 数据的传递与数据的共享. 4.什么是数 ...
- Python 爬虫 校花网
爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 福利来了 校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易,不会受到打击,第二呢 你懂得.... 1.第一步,需要下 ...
- Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片
####1.安装scrapy 建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/ ...
- Python爬虫:正则表达式爬取校花网
#正则表达式爬取校花网 # 网址 url = 'http://www.xiaohuar.com' #分页爬取大学校花图片共16页640张美图 1.导入模块 import requests import ...
- Python爬取校花网,妈妈再也不会担心我不给她发女朋友照片了
本文同步发表于我的微信公众号,扫一扫文章底部的二维码或在微信搜索 极客导航 即可关注,每个工作日都有文章更新. 一.概况 上一篇我们用一个表情网站入门了爬虫,爬了很多表情.今天我们继续在爬的路上,今天 ...
- Python之爬虫-校花网
Python之爬虫-校花网 #!/usr/bin/env python # -*- coding:utf-8 -*-import re import requests# 拿到校花网主页的内容 resp ...
- pycharm 爬取校花网
1 1:什么是爬虫 2 定义:狭义:模拟浏览器,浏览网页,保存数据的程序 3 定义:广义:自动下载网络数据(网页,游戏,qq)的程序 4 打开校花网 'www.xiaohuar.com/hua/' # ...
- div不占位置_Python爬取校花网,妈妈再也不会担心我不给她发女朋友照片了
一.概况 上一篇我们用一个表情网站入门了爬虫,爬了很多表情.今天我们继续在爬的路上,今天就爬个校花吧,毕竟妹子属于稀缺资源,要不妈妈总会问,你到底找不找女朋友了,爬点校花吧,以后跟妈妈聊天,可以哭着对 ...
- 使用Xpath爬取校花网,致敬10年前的校花『和』我们逝去的青春
使用xpath爬取校花网 难点: 1.各个分类栏目下的页码url不统一 2.只取前三页,或者后三页 文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒. 所以就-哈哈 ...
最新文章
- 最小表示法 最大表示法
- Boost:使用mapd_view类将数字数组映射到设备内存
- Maven精选系列--三种仓库详解
- ant设置国际化设置为中文
- Android实现语音识别代码
- 系统开机 linux 时间不对,linux下查看系统运行时间和最近一次的开机启动时间
- Java设计模式--生成器模式
- Linux菜鸟教程(一 :JDK安装和java环境的配置)
- 【目标检测】SPP-Net论文理解(超详细版本)
- HDU - 3533 Escape
- 1.还不会部署高可用的kubernetes集群?看我手把手教你使用二进制部署v1.23.6的K8S集群实践(上)
- 使用Reverse SSH Tunnel实现内网穿透的可行性方案
- 吴恩达深度学习总结(15)
- java计算机毕业设计共享充电宝管理系统演示录像2021MyBatis+系统+LW文档+源码+调试部署
- 三菱PLC GXWORKS编程之1新建
- scons 手册_SCons笔记(详细版)
- nmon在linux应用
- sqlserver常用语句(报表,递归,分页等)
- JPA(Java Persistence API,Java持久化API)
- iOS刷机后安装源和插件
热门文章
- cocos creator做一个儿童数字答题的微信小游戏(2)
- CAD学习心得及使用技巧
- 全球及中国工业草酸市场供需现状与前景动态分析报告2022-2028年
- 人手一个数字人还有多远?百度吴甜做客央视《对话》
- 函数指针(函数作为参数传递给其他函数)
- 锂电池BMS软硬件习资料
- 计算机通过io接口对什么实现控制器,《微机原理与接口技术》第6章 微计算机IO接口基础.ppt...
- 【填坑】 GLSurfaceView surfaceCreated不回调 以及在Native中ANativeWindow_lock 获取缓存失败 返回 -22
- 当你不想学习的时候,来看看大脑是怎么想的《摘抄与所想》
- 数字图像处理中的卷积定理和傅里叶变换