python项目-爬取妹子图

最近在学爬虫，写了一个爬取妹子图片

功能：自动下载妹子图，并自动命名

网址：http://www.netbian.com/meinv/

#!/usr/bin/env python
# -*- coding:utf-8 -*-
# 爬取妹子图
# url：http://www.netbian.com/meinv/
# http://www.netbian.com/meinv/index_2.htm
import urllib.request
import urllib.parse
from bs4 import BeautifulSoup
import redef main():# 输入网址得到服务器返回的数据allurl()# 解析数据得到图片链接和图片名称# 保存图片到本地，图名做相应修改# 图片链接格式
findImg = re.compile(r'src="(.*?)"', re.S)
# 图片名称格式
findName = re.compile(r"<b>(.*?)</b>", re.S)def findurl(url):"""一个网页的爬取（后面用for爬取所有网页）"""# head伪装headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/78.0.3904.108 Safari/537.36"}req = urllib.request.Request(url=url, headers=headers)  # 发送信息的预处理response = urllib.request.urlopen(req)  # 得到整个网页# 读取网页并解码html = response.read().decode(encoding='gb18030')  # 使用'utf-8'无法解码，换为'gb18030'return htmldef allurl():"""循环爬取所有网页"""for i in range(3):url = "http://www.netbian.com/meinv/index_"+str(i+2)+".htm"html = findurl(url)  # 获取一个网页# print(html)   # 测试:是否获取到网页# 解析数据得到图片链接和图片名称bs = BeautifulSoup(html, "html.parser")  # 将网页解析为树形t_list = bs.select("li>a")  # 找到标签li中的所有子标签a，做成列表t_list = t_list[-17:-1]# print(t_list)     # 测试:当前网页所有妹子图放入列表（每页17个）# 对每个妹子进行正则表达式提取（链接及名称）for item in t_list:item = str(item)  # 正则表达式是对字符串操作，所以先转化为字符串# 提取图片名name = re.findall(findName, item)# 提取链接，并下载img = re.findall(findImg, item)savejpg(name, img)def imgurl(url):"""获取图片链接下载图片"""# head伪装headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) ""Chrome/78.0.3904.108 Safari/537.36"}req = urllib.request.Request(url=url, headers=headers)  # 发送信息的预处理response = urllib.request.urlopen(req)  # 得到图片链接# 二进制形式读取链接html = response.read()return htmldef savejpg(name, img):"""得到名字和链接存储图片"""# print(name, img)  # 测试：输出图名及对应链接meizi = imgurl(img[0])     # 获取图片链接with open('D:\FishC\项目\爬取妹子图\爬取妹子的结果\{0}.jpg'.format(name[0]), 'wb') as f:f.write(meizi)if __name__ == '__main__':# 主函数main()

爬取结果：

python项目-爬取妹子图相关推荐

python多线程爬取妹子图
python多线程爬取妹子图 python使用版本: 3.7 目的: 自己选择下载目录,逐个将主题图片保存到选定目录下. 效果: 一秒钟左右下载一张图片,下了七八十组图片暂时没什么问题,不放心的话,可 ...
python爬虫爬取妹子图
爬取网页 req = urllib.request.Request(url)req.add_header('user-agent','Mozilla/5.0 (Windows NT 10.0; WOW ...
爬取妹子图(python)：爬虫（bs+rq）+ gevent多线程
爬取妹子图(python):爬虫(bs+rq)+ gevent多线程简介我观察爬取妹子图算是爬虫专业户必做的事情之一,所以我也做了一个,结果是有3.45GB,49847张图. 打算依靠这个图库做个 ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
python爬虫-爬妹子图_Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
python爬虫妹子图_Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. 公众号:[智能制造社区].欢迎关注,分享智能制造与编程那些事. 爬虫成果当你运行代码后,文件夹就会 ...
获取http地址如何从上面抓取图片_用 Python 自动抓取妹子图
目录前言 Media Pipeline 启用Media Pipeline 使用 ImgPipeline 抓取妹子图瞎比比与送书后话前言我们在抓取数据的过程中,除了要抓取文本数据之外,当然也会有 ...
Python爬虫 - scrapy - 爬取妹子图 Lv1
0. 前言这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...
Python 爬取妹子图02
爬取laotuzi.com这个网站的图片原本想爬的是妹子图这个网站的,结果应该是IP被封了,用电脑连接WiFi访问不了这个网站,我以为是断网了,但访问其他网站有能正常访问,用手机流量访问妹子图网站, ...

python项目-爬取妹子图

python项目-爬取妹子图相关推荐

最新文章

热门文章