python 爬取妹子图

作为一个python还没入门的小白，搞懂这段代码实在是很不容易，还要去学html的知识（#黑脸）

因此我加上了注释，比较好读懂点

#coding=utf-8
import time
import requests
from bs4 import BeautifulSoup
import os
import sysif(os.name == 'nt'):print(u'你正在使用win平台')
else:print(u'你正在使用linux平台')header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:23.0) Gecko/20100101 Firefox/23.0'}
#http请求头
all_url = 'http://www.mzitu.com'
start_html = requests.get(all_url,headers = header)#保存地址
path = 'D:/mzitu/'#找寻最大页数
soup = BeautifulSoup(start_html.text,"html.parser")    #定义为beautifulsoup类parser
page = soup.find_all('a',class_='page-numbers') #page为一个列表，找到标签为a的，属性class为‘page-numbers'的标签
max_page = page[-2].text #观察最大页数在-2处，用.text取文本信息
same_url = 'http://www.mzitu.com/page/'
for n in range(1,int(max_page)+1):ul = same_url+str(n)start_html = requests.get(ul, headers=header)soup = BeautifulSoup(start_html.text,"html.parser")#标签的寻找find是一对一对的然后用text取其中内容all_a = soup.find('div',class_='postlist').find_all('a',target='_blank')#在find  div的大类下找到所有标签a且a标签中target为blank的标签(因为有多个a类标签，需要把没用的排除掉)for a in all_a:    #all_a一共找到两个部分，第一个部分是空的，第二部分才能提取得到titletitle = a.text #提取文本内容就是在<>尖括号以外的信息if(title != ''):print("准备扒取："+title)#win不能创建带？的目录  如果目录中含有?将其替换为''if(os.path.exists(path+title.strip().replace('?',''))):#如果目录存在(exist)返回1，flag = 1flag=1else:os.makedirs(path+title.strip().replace('?',''))flag=0os.chdir(path + title.strip().replace('?',''))#改变当前工作目录到指定路径href = a['href']#图片地址html = requests.get(href,headers = header)mess = BeautifulSoup(html.text,"html.parser")pic_max = mess.find_all('span')pic_max = pic_max[10].text #最大页数if(flag == 1 and len(os.listdir(path+title.strip().replace('?',''))) >= int(pic_max)):print('已经保存完毕，跳过')continuefor num in range(1,int(pic_max)+1):time.sleep(1)#抓慢一点，上次爬的太快ip被封了pic = href+'/'+str(num)#图片所在页的地址html = requests.get(pic,headers = header)mess = BeautifulSoup(html.text,"html.parser")pic_url = mess.find('img',alt = title)#找到标签为imghtml = requests.get(pic_url['src'],headers = header)#这里找到的才是真正图片的地址file_name = pic_url['src'].split(r'/')[-1]#文件名为地址分割后的最后一个字符串f = open(file_name,'wb')f.write(html.content)#content是类函数，在这里就是地址html所表示的图片
                f.close()print('完成')print('第',n,'页完成')

转载于:https://www.cnblogs.com/cunyusup/p/7247444.html

python 爬取妹子图相关推荐

Python 爬取妹子图02
爬取laotuzi.com这个网站的图片原本想爬的是妹子图这个网站的,结果应该是IP被封了,用电脑连接WiFi访问不了这个网站,我以为是断网了,但访问其他网站有能正常访问,用手机流量访问妹子图网站, ...
教你用Python爬取妹子图APP
教你用Python爬美之图APP全站图片爬取结果程序只运行了2h,最后认为程序没有问题了就关了(我可不是去杀生去了...... 运行环境 Python 3.5+ Windows 10 VSCode ...
python多线程爬取妹子图
python多线程爬取妹子图 python使用版本: 3.7 目的: 自己选择下载目录,逐个将主题图片保存到选定目录下. 效果: 一秒钟左右下载一张图片,下了七八十组图片暂时没什么问题,不放心的话,可 ...
Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. GitHub 地址: https://github.com/injetlee/Python/blob ...
python爬虫-爬妹子图_Python 爬虫入门之爬取妹子图
Python 爬虫入门之爬取妹子图来源:李英杰链接: https://segmentfault.com/a/1190000015798452 听说你写代码没动力?本文就给你动力,爬取妹子图.如果 ...
python爬虫妹子图_Python 爬虫入门(二)——爬取妹子图
Python 爬虫入门听说你写代码没动力?本文就给你动力,爬取妹子图.如果这也没动力那就没救了. 公众号:[智能制造社区].欢迎关注,分享智能制造与编程那些事. 爬虫成果当你运行代码后,文件夹就会 ...
爬取妹子图(python)：爬虫（bs+rq）+ gevent多线程
爬取妹子图(python):爬虫(bs+rq)+ gevent多线程简介我观察爬取妹子图算是爬虫专业户必做的事情之一,所以我也做了一个,结果是有3.45GB,49847张图. 打算依靠这个图库做个 ...
python爬取妹纸图片
初学python,刚好看到爬取妹纸图片的教学视频,于是跟着学习学习python网络爬虫,使用python爬取图片. 进入主页,可以看到妹子自拍,一共446页之多 0.0 ,如下图所示: 查看网页url ...
Python爬虫 - scrapy - 爬取妹子图 Lv1
0. 前言这是一个利用python scrapy框架爬取网站图片的实例,本人也是在学习当中,在这做个记录,也希望能帮到需要的人.爬取妹子图的实例打算分成三部分来写,尝试完善实用性. 系统环境 Sys ...

python 爬取妹子图

python 爬取妹子图相关推荐

最新文章

热门文章