最近在学爬虫,写了一个爬取妹子图片

功能:自动下载妹子图,并自动命名

网址:http://www.netbian.com/meinv/

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# 爬取妹子图
# url:http://www.netbian.com/meinv/
# http://www.netbian.com/meinv/index_2.htm
import urllib.request
import urllib.parse
from bs4 import BeautifulSoup
import redef main():# 输入网址得到服务器返回的数据allurl()# 解析数据得到图片链接和图片名称# 保存图片到本地,图名做相应修改# 图片链接格式
findImg = re.compile(r'src="(.*?)"', re.S)
# 图片名称格式
findName = re.compile(r"<b>(.*?)</b>", re.S)def findurl(url):"""一个网页的爬取(后面用for爬取所有网页)"""# head伪装headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/78.0.3904.108 Safari/537.36"}req = urllib.request.Request(url=url, headers=headers)  # 发送信息的预处理response = urllib.request.urlopen(req)  # 得到整个网页# 读取网页并解码html = response.read().decode(encoding='gb18030')  # 使用'utf-8'无法解码,换为'gb18030'return htmldef allurl():"""循环爬取所有网页"""for i in range(3):url = "http://www.netbian.com/meinv/index_"+str(i+2)+".htm"html = findurl(url)  # 获取一个网页# print(html)   # 测试:是否获取到网页# 解析数据得到图片链接和图片名称bs = BeautifulSoup(html, "html.parser")  # 将网页解析为树形t_list = bs.select("li>a")  # 找到标签li中的所有子标签a,做成列表t_list = t_list[-17:-1]# print(t_list)     # 测试:当前网页所有妹子图放入列表(每页17个)# 对每个妹子进行正则表达式提取(链接及名称)for item in t_list:item = str(item)  # 正则表达式是对字符串操作,所以先转化为字符串# 提取图片名name = re.findall(findName, item)# 提取链接,并下载img = re.findall(findImg, item)savejpg(name, img)def imgurl(url):"""获取图片链接下载图片"""# head伪装headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/78.0.3904.108 Safari/537.36"}req = urllib.request.Request(url=url, headers=headers)  # 发送信息的预处理response = urllib.request.urlopen(req)  # 得到图片链接# 二进制形式读取链接html = response.read()return htmldef savejpg(name, img):"""得到名字和链接存储图片"""# print(name, img)  # 测试:输出图名及对应链接meizi = imgurl(img[0])     # 获取图片链接with open('D:\FishC\项目\爬取妹子图\爬取妹子的结果\{0}.jpg'.format(name[0]), 'wb') as f:f.write(meizi)if __name__ == '__main__':# 主函数main()

爬取结果:

python项目-爬取妹子图相关推荐

  1. python多线程爬取妹子图

    python多线程爬取妹子图 python使用版本: 3.7 目的: 自己选择下载目录,逐个将主题图片保存到选定目录下. 效果: 一秒钟左右下载一张图片,下了七八十组图片暂时没什么问题,不放心的话,可 ...

  2. python爬虫爬取妹子图

    爬取网页 req = urllib.request.Request(url)req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; WOW ...

  3. 爬取妹子图(python):爬虫(bs+rq)+ gevent多线程

    爬取妹子图(python):爬虫(bs+rq)+ gevent多线程 简介 我观察爬取妹子图算是爬虫专业户必做的事情之一,所以我也做了一个,结果是有3.45GB,49847张图. 打算依靠这个图库做个 ...

  4. Python 爬虫入门(二)——爬取妹子图

    Python 爬虫入门 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...

  5. python爬虫-爬妹子图_Python 爬虫入门之爬取妹子图

    Python 爬虫入门之爬取妹子图 来源:李英杰  链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...

  6. python爬虫妹子图_Python 爬虫入门(二)——爬取妹子图

    Python 爬虫入门 听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. 公众号:[智能制造社区].欢迎关注,分享智能制造与编程那些事. 爬虫成果 当你运行代码后,文件夹就会 ...

  7. 获取http地址如何从上面抓取图片_用 Python 自动抓取妹子图

    目录 前言 Media Pipeline 启用Media Pipeline 使用 ImgPipeline 抓取妹子图 瞎比比与送书后话 前言 我们在抓取数据的过程中,除了要抓取文本数据之外,当然也会有 ...

  8. Python爬虫 - scrapy - 爬取妹子图 Lv1

    0. 前言 这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...

  9. Python 爬取妹子图02

    爬取laotuzi.com这个网站的图片 原本想爬的是妹子图这个网站的,结果应该是IP被封了,用电脑连接WiFi访问不了这个网站,我以为是断网了,但访问其他网站有能正常访问,用手机流量访问妹子图网站, ...

最新文章

  1. 趁ofo退出美市场 Uber不计成本发展共享单车
  2. 英特尔挖走AMD首席独显架构师,曾是现任CEO基辛格老部下
  3. 稳定wow60级服务器,魔兽怀旧服:永久60级怀旧服是什么体验?
  4. Android系统进程Zygote启动过程的源代码分析
  5. 机器学习基础:分类vs回归
  6. 宝塔挂载linux硬盘,宝塔移动硬盘挂载Linux服务器挂载ntfs移动硬盘
  7. 微信小程序官网DEMO模板
  8. bzoj 2131: 免费的馅饼【dp+树状数组】
  9. 数据结构上机实践第十周项目2 - 用二叉树求解代数表达式
  10. ansible获取服务器信息,ansible监控服务器资源使用
  11. oracle 9.2 imp 表空间,如何imp到不同于原表空间的表空间?
  12. 环境变量PATH cp命令 mv命令 文档查看cat/more/less/head/tail
  13. 【C#/WPF】Image图片的Transform变换:平移、缩放、旋转
  14. Centos7安装MySQL客户端工具
  15. oracle box怎么全屏,Oracle VM VirtualBox 虚拟机设置全屏与共享
  16. slam是什么意思?一文带你读懂SLAM
  17. PECompact 2.79 Beta D by Sonny27
  18. HDS 高端存储TC原理和配置总结
  19. 基于MES的生产车间管理信息系统
  20. 植物2 IOS 怎么实名认证_植物大战僵尸2未来世界22天困难怎么过关 植物阵容推荐...

热门文章

  1. 数字金融、智能金融、区块链等关键词都得到热烈讨论
  2. 离散数学 第六章 函数
  3. Python去除PDF文件水印(PyMuPDF包)
  4. SEM测试成像原理与消像散
  5. java word 模板_java通过word模板生成word文档
  6. 第一章笔记MySQL数据库的安装目录详解
  7. 高并发下的服务器架构演变
  8. HTML+CSS实现导航条
  9. tello通信_鸿蒙HarmonyOS and 大疆Tello 无人机 BUILD SUCCESS
  10. jays+android耳机,享受HiFi音质 Jays推出新款入耳式耳塞