Python学习第一课——爬取模特秀网站的模特图片

第一次写博客，经验不足。

很早以前就听说过爬虫，但是从未自己去实现过，昨天看到一个爬虫的教学视频，不免心里痒痒，于是自己动手编程实现。在这里我选择的是Python语言（不要问我为什么，实际上我也没有学过Python，就当是练练手了）。但是在实现的过程中发现Python真的是简洁精炼，真正的体验到了“人生苦短，我用Python”这句话。

上正文，本次实践是爬取模特秀网站上的图片下载到本地（教学视频中是对mm.taobao.com网站进行爬取的，但是我搜索这个网址时发现它已经被改成了“阿里V任务”了）。整个爬取的过程思路是：

1.首先对网站进行分析，找到每个模特主页的网址特点。

2.urlopen打开每个模特主页，然后read到一个对象中去，再对主页中的图片网址分析特点（在这里也可以分析每个模特的详细情况，比如年龄，籍贯等具体信息都下载到本地）在这里我发现模特照片的前缀都会出现/images/photos，后缀无需多言是.jpg。

3.接下来将所有找到的url保存在一个列表photo中（这个网站读取到的图片会有重复的现象，我把它保存在列表中以便于消除重复），消除重复后用urlretrieve函数将photo中的每个元素对应的图片都下载下来。

# -*- coding:utf-8 -*-
import urllib.request
i=22300
photo=[]
while i<22310 :print('---------------------------')url="http://www.motexiu.cn/"+str(i)+"/album"up=urllib.request.urlopen(url)cont=str(up.read())j=cont.find("albumList")print(cont[j+10:j+13])url2="http://www.motexiu.cn/"+str(i)+"/albumList/"+str(cont[j+10:j+13])up2=urllib.request.urlopen(url2)cont2=str(up2.read())k=0m=0while k<len(cont2):head=cont2.find("/images/photos/",k)if cont2[head+14:head+18]=='/dtt':k=head+10continuetail=cont2.find(".jpg",head)if head==-1:breakurl3="http://www.motexiu.cn"+cont2[head:tail+4]if url3.find('.png')>0:k=head+10continuephoto.insert(m,url3)k=tail+5print('----------------------------')i+=1
photo=list(set(photo))
n=0
print('start download')
while n<len(photo):urllib.request.urlretrieve(photo[n],'photo/photo'+str(n+1)+'.jpg')n+=1

Last Updata : 2018-06-28

Python学习第一课——爬取模特秀网站的模特图片相关推荐

python学习第一课
python学习第一课课前回顾 1.请求类型: 2.传参类型: 3.postman断言.参数化.多接口参数依赖接口文档这个接口是做什么的?URL请求类型参数--> 如何传递参数params ...
Python学习笔记：爬取网页图片
Python学习笔记:爬取网页图片上次我们利用requests与BeautifulSoup爬取了豆瓣<下町火箭>短评,这次我们来学习爬取网页图片. 比如想爬取下面这张网页的所有图片.网址 ...
python学习第一课——环境配置+比着葫芦画个瓢
python学习第一课 1. python概览 2. python的运行 3. python的变量.类型与存储 4. 对*.py文件的运行与存储 5. 终端切换路径及目录显示 6. 踩着巨人的肩膀创新 ...
python多线程爬取多个网址_【Python爬虫】多线程爬取斗图网站（皮皮虾，我们上车）...
原标题:[Python爬虫]多线程爬取斗图网站(皮皮虾,我们上车) 斗图我不怕没有斗图库的程序猿是无助,每次在群里斗图都以惨败而告终,为了能让自己在斗图界立于不败之地,特意去网上爬取了斗图包.在这里 ...
Python学习笔记，爬取笔趣阁小说
学习了基础的语法,然后网上看到有人分享利用python爬取小说,自己拷贝了代码尝试了一下. 1. 环境准备安装 BeautifulSoup4 和 lxml & C:/Python39/pyt ...
python贴吧爬虫-Python 爬虫练习：爬取百度贴吧中的图片
背景:最近开始看一些Python爬虫相关的知识,就在网上找了一些简单已与练习的一些爬虫脚本实现功能:1,读取用户想要爬取的贴吧 2,读取用户先要爬取某个贴吧的页数范围 3,爬取每个贴吧中用户输入的页 ...
Java爬虫学习一一Jsoup爬取彼岸桌面分类下的图片
最近在找工作,在这个过程中我感到很迷茫,投了很多简历,被查看的却很少,其中也有到现场去面试,结果也很不理想(╥╯^╰╥). 哈哈,跑题了,我在看之前所做的项目时,在我的收藏夹中看到了以前收藏的有关爬虫 ...
百度贴吧界面html程序代码,python爬虫例题：爬取百度贴吧评论区图片和视频
百度贴吧是全球最大的中文交流平台,你是否跟我一样,有时候看到评论区的图片想下载呢?或者看到一段视频想进行下载呢? 今天,本期Python教程带大家通过搜索关键字来获取评论区的图片和视频. [二.项目目 ...
python批量下载文件教程_零基础Python教程:教你爬取天堂网1920*1080大图片（批量下载）...
这篇文章将针对上篇文章的未尽事宜进行完善,完成图片的批量抓取. /2 图片网址解析/ 1. 我们首先来分析一下这个图片的地址在哪里.我们选择图片,然后右击网页检查,可以看到图片的路径,如下图所示. 2 ...

Python学习第一课——爬取模特秀网站的模特图片

Python学习第一课——爬取模特秀网站的模特图片相关推荐

最新文章

热门文章