import requests
import re  #正则表达式
from bs4 import BeautifulSoup #爬虫bs4
import os
#爬高考校花网
def xiaohua():url="http://www.gaokao.com/gkpic/"response=requests.get(url) #get请求网址response.encoding="GBK" #编码为gbk,以免中文乱码html=response.text  #用变量接收响应的文本信息file=BeautifulSoup(html,'html.parser') #定义一个bs4方法img=file.find(name='div',attrs={'id':'imgall'})  #使用定义的方法查找出所有div标签下 的图片路径#使用正则表达式提取所有校花图片url,注意后面形参要是str格式imagelist=re.findall('src="(.*?)"/>',str(img))#print(imagelist)#定义存储图片路径,如果不存在就创建一个,os为系统命令dir='校花'if not os.path.exists(dir):os.mkdir(dir)for image in imagelist:#定义图片名为.jpg前面的字符,截取方法tpm=image.split('/')[-1]#循环请求图片urlres=requests.get(image)#with open 方法将图片写入dir目录with open (dir+'/'+tpm,'wb') as f:f.write(res.content)if __name__ == '__main__':xiaohua()

python爬校花网笔记相关推荐

  1. day01 初见python爬虫之“爬校花网”和“自动登录github”

    首先我们来解释一下几个概念: 1.什么是爬虫? 爬取数据. 2.什么是互联网? 由一堆网络设备.把一台台的计算机互联到一起称之为互联网. 3.互联网建立的目的: 数据的传递与数据的共享. 4.什么是数 ...

  2. Python 爬虫 校花网

    爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本. 福利来了  校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易,不会受到打击,第二呢 你懂得.... 1.第一步,需要下 ...

  3. Python爬虫框架 scrapy 入门经典project 爬取校花网资源、批量下载图片

    ####1.安装scrapy 建议:最好在新的虚拟环境里面安装scrapy 注意:博主是在 Ubuntu18.04 + Python3.6 环境下进行开发的,如果遇到安装scrapy不成功请自行百度/ ...

  4. Python爬虫:正则表达式爬取校花网

    #正则表达式爬取校花网 # 网址 url = 'http://www.xiaohuar.com' #分页爬取大学校花图片共16页640张美图 1.导入模块 import requests import ...

  5. Python爬取校花网,妈妈再也不会担心我不给她发女朋友照片了

    本文同步发表于我的微信公众号,扫一扫文章底部的二维码或在微信搜索 极客导航 即可关注,每个工作日都有文章更新. 一.概况 上一篇我们用一个表情网站入门了爬虫,爬了很多表情.今天我们继续在爬的路上,今天 ...

  6. Python之爬虫-校花网

    Python之爬虫-校花网 #!/usr/bin/env python # -*- coding:utf-8 -*-import re import requests# 拿到校花网主页的内容 resp ...

  7. pycharm 爬取校花网

    1 1:什么是爬虫 2 定义:狭义:模拟浏览器,浏览网页,保存数据的程序 3 定义:广义:自动下载网络数据(网页,游戏,qq)的程序 4 打开校花网 'www.xiaohuar.com/hua/' # ...

  8. div不占位置_Python爬取校花网,妈妈再也不会担心我不给她发女朋友照片了

    一.概况 上一篇我们用一个表情网站入门了爬虫,爬了很多表情.今天我们继续在爬的路上,今天就爬个校花吧,毕竟妹子属于稀缺资源,要不妈妈总会问,你到底找不找女朋友了,爬点校花吧,以后跟妈妈聊天,可以哭着对 ...

  9. 使用Xpath爬取校花网,致敬10年前的校花『和』我们逝去的青春

    使用xpath爬取校花网 难点: 1.各个分类栏目下的页码url不统一 2.只取前三页,或者后三页 文章代码仅使用xpath和requests,本来想用scrapy框架的,但是偷了个懒. 所以就-哈哈 ...

最新文章

  1. 最小表示法 最大表示法
  2. Boost:使用mapd_view类将数字数组映射到设备内存
  3. Maven精选系列--三种仓库详解
  4. ant设置国际化设置为中文
  5. Android实现语音识别代码
  6. 系统开机 linux 时间不对,linux下查看系统运行时间和最近一次的开机启动时间
  7. Java设计模式--生成器模式
  8. Linux菜鸟教程(一 :JDK安装和java环境的配置)
  9. 【目标检测】SPP-Net论文理解(超详细版本)
  10. HDU - 3533 Escape
  11. 1.还不会部署高可用的kubernetes集群?看我手把手教你使用二进制部署v1.23.6的K8S集群实践(上)
  12. 使用Reverse SSH Tunnel实现内网穿透的可行性方案
  13. 吴恩达深度学习总结(15)
  14. java计算机毕业设计共享充电宝管理系统演示录像2021MyBatis+系统+LW文档+源码+调试部署
  15. 三菱PLC GXWORKS编程之1新建
  16. scons 手册_SCons笔记(详细版)
  17. nmon在linux应用
  18. sqlserver常用语句(报表,递归,分页等)
  19. JPA(Java Persistence API,Java持久化API)
  20. iOS刷机后安装源和插件

热门文章

  1. cocos creator做一个儿童数字答题的微信小游戏(2)
  2. CAD学习心得及使用技巧
  3. 全球及中国工业草酸市场供需现状与前景动态分析报告2022-2028年
  4. 人手一个数字人还有多远?百度吴甜做客央视《对话》
  5. 函数指针(函数作为参数传递给其他函数)
  6. 锂电池BMS软硬件习资料
  7. 计算机通过io接口对什么实现控制器,《微机原理与接口技术》第6章 微计算机IO接口基础.ppt...
  8. 【填坑】 GLSurfaceView surfaceCreated不回调 以及在Native中ANativeWindow_lock 获取缓存失败 返回 -22
  9. 当你不想学习的时候,来看看大脑是怎么想的《摘抄与所想》
  10. 数字图像处理中的卷积定理和傅里叶变换